Уроки из центра обработки данных: управляемая доступность – Русский блог Microsoft Exchange. Использование SNMP и MADMAN MIB. Использование System Monitor

В жизни почти каждого пользователя случались ситуации, когда компьютер или ноутбук неожиданно стал вести себя не так, как раньше. Выражаться это может в неожиданных перезагрузках, различных перебоях в работе и самопроизвольных выключениях. В этой статье мы поговорим об одной из таких проблем – включение и моментальное отключение ПК, и постараемся ее решить.

Причин такого поведения ПК может быть довольно много. Это и неправильное подключение кабелей, и небрежная сборка, и выход из строя комплектующих. Кроме того, проблема может крыться в некоторых настройках операционной системы. Информация, которая будет приведена ниже, делится на две части – неполадки после сборки или разборки и сбои «на голом месте», без постороннего вмешательства в аппаратную часть компьютера. Начнем с первой части.

Причина 1: Кабели

После разборки компьютера, например, для замены комплектующих или очистки от пыли, некоторые пользователи просто забывают правильно собрать его. В частности, подключить все кабели на место или подсоединить их максимально надежно. К нашей ситуации относятся:

Причина 2: Короткое замыкание

Большинство блоков питания, в том числе и бюджетных, оснащены защитой от короткого замыкания. Такая защита отключает подачу электроэнергии в случае КЗ, причины которого могут быть такие:


Причина 3: Резкое повышение температуры – перегрев

Перегрев процессора на этапе запуска системы может возникнуть по нескольким причинам.

  • Нерабочий вентилятор на кулере или отключенный кабель питания последнего (см. выше). В этом случае при запуске достаточно проследить, вращаются ли лопасти. Если нет, то придется заменить или смазать вентилятор.
  • Неправильно или криво установленная система охлаждения CPU, что может привести к неполному прилеганию подошвы к крышке теплораспределителя. Здесь выход один – снять и заново установить кулер.

Причина 4: Новые и старые комплектующие

Компоненты компьютера также могут повлиять на его работоспособность. Это как банальная небрежность при подключении, например, прежней видеокарты или модулей оперативной памяти, так и несовместимость.

  • Проверьте, надежно ли подключены комплектующие к своим разъемам, подведено ли дополнительное питание (в случае с видеокартой).
  • Что касается совместимости, то некоторые материнские платы с одинаковыми сокетами могут не поддерживать процессоры предыдущих поколений и наоборот. На момент написания статьи такая ситуация сложилась с сокетом 1151. Вторая ревизия (1151 v2) на чипсетах 300 серии не поддерживает предыдущие процессоры на архитектурах Skylake и Kaby Lake (6 и 7 поколений, например, i7 6700, i7 7700). При этом «камень» подходит к сокету. Будьте внимательнее при выборе комплектующих, а лучше изучите информацию о приобретаемом «железе» перед покупкой.
  • Причина 5: Пыль

    Отношение пользователей к пыли зачастую бывает весьма легкомысленным. А ведь это не просто грязь. Пыль, забивая системы охлаждения, может привести к перегреву и выходу компонентов из строя, накоплению вредных статических зарядов, а при повышенной влажности и вовсе начинает проводить электрический ток. О том, чем это нам грозит, сказано выше. Держите компьютер в чистоте, не забывая и о блоке питания (такое часто бывает). Проводите чистку от пыли не реже одного раза в 6 месяцев, а лучше даже чаще.

    Причина 6: Блок питания

    Мы уже говорили о том, что блок питания «уходит в защиту» при коротком замыкании. Такое же поведение возможно и при перегреве его электронных компонентов. Причиной этому может быть большой слой пыли на радиаторах, а также неработающий вентилятор. Недостаточная мощность БП также послужит причиной внезапного отключения. Чаще всего это следствие установки дополнительного оборудования или комплектующих, или преклонный возраст блока, а точнее, некоторых его деталей.

    Для того чтобы определить, хватит ли мощности вашему компьютеру, можно воспользоваться специальным калькулятором.

    Узнать возможности БП можно, посмотрев на одну из его боковых поверхностей. В столбце «+12V» указана максимальная мощность по данной линии. Именно этот показатель является основным, а не номинал, написанный на коробке или в карточке товара.

    Нельзя не сказать также и о перегрузке портов, в частности, USB, устройствами с большим потреблением энергии. Особенно часто перебои возникают при использовании разветвителей или хабов. Здесь можно посоветовать только разгрузить порты или купить хаб с дополнительным питанием.

    Причина 7: Неисправное оборудование

    Как уже было сказано выше, неисправные комплектующие могут вызывать короткое замыкание, тем самым провоцируя срабатывание защиты БП. Также это может быть выход из строя различных компонентов – конденсаторов, чипов и так далее, на материнской плате. Для определения сбойного оборудования необходимо отключить его от «материнки» и попытаться запустить ПК.

    Пример: отключаем видеокарту и включаем компьютер. Если запуск неудачен, повторяем то же самое с оперативной памятью, только отключать планки необходимо по одной. Далее необходимо отключить жесткий диск, а если он не один, то потом и второй. Не стоит забывать и о внешних устройствах и периферии. Если компьютер не согласился нормально запускаться, то дело, скорее всего, в материнской плате, и дорога ей прямиком в сервисный центр.

    Причина 8: BIOS

    БИОСом называют небольшую управляющую программу, записанную на специальную микросхему. С ее помощью можно настраивать параметры компонентов материнской платы на самом низком уровне. Неправильные настройки могут привести к проблеме, которую мы в данный момент обсуждаем. Чаще всего это выставление не поддерживаемых комплектующими частот и (или) напряжений. Выход один – сбросить настройки на заводские.

    Причина 9: Функция быстрого запуска ОС

    Функция быстрого запуска, присутствующая в Windows 10 и основанная на сохранении драйверов и ядра ОС в файл hiperfil.sys , может приводить к некорректному поведению компьютера при включении. Чаще всего это наблюдается на ноутбуках. Отключить ее можно следующим способом:


    Заключение

    Как видите, причин, вызывающих обсуждаемую проблему, довольно много, и в большинстве случаев ее решение занимает достаточное количество времени. При разборке и сборке компьютера старайтесь быть максимально внимательными – это поможет избежать большей части неприятностей. Содержите в чистоте системный блок: пыль – наш враг. И последний совет: без предварительной информационной подготовки не меняйте настройки БИОС, так как это может привести к неработоспособности компьютера.

    В диагностике неполадок компьютерной техники многие явления и связи неочевидны. То есть совершенно разные неисправности имеют одинаковые внешние признаки. Наверняка многие из вас встречались с такой формой «забастовки» ПК, при которой его работа продолжается… всего несколько секунд. Иными словами, за включением следует немедленное отключение, а на экране при этом – черный «квадрат Малевича».

    Поговорим, по каким причинам компьютер включается и сразу выключается, а также что с этим делать в домашних условиях без специального оборудования.


    Причины мгновенного отключения ПК после старта

    Традиционно неполадки компьютеров делятся на аппаратные и программные. Первые вызваны сбоем в работе оборудования, вторые – операционной системы и приложений. Ситуация, которую мы рассматриваем сегодня, полностью относится к первой категории, то есть всегда связана с железом.

    Что может стать ее причиной:

    • Нестабильное напряжение в бытовой электросети, если системный блок подключен к ней напрямую.
    • Неисправный блок питания, перебитый сетевой шнур.
    • Некорректное подключение любого устройства внутри системного блока – неполная установка в разъем, отхождение контактов и т. д.
    • Неправильная установка системы охлаждения (подошва радиатора не соприкасается с поверхностью процессора) или ее полный выход из строя.
    • Короткое замыкание в любом из устройств системного блока.
    • Повреждение прошивки BIOS.

    Как видите, круг возможных виновников довольно обширен. По сути, причиной может оказаться всё, что угодно. Упростить диагностику поможет «анамнез» (история возникновения неисправности) и сопутствующая «клиника».

    Сужаем круг поиска

    В первую очередь следует выяснить, какие события предшествовали нынешней ситуации. Например:

    • Компьютер стал выключаться после скачка напряжения в электросети. Вероятная причина – выход из строя блока питания, иногда вместе с подключенным к нему другим оборудованием.
    • Неполадка возникла во время грозы после удара молнии где-то неподалеку. Причина – электрическое повреждение сетевого контроллера материнской платы.

    • ПК перестал работать после чистки от пыли или замены/подключения нового оборудования. Возможные причины – неполная или неправильная установка устройств в разъемы, гнутые ножки процессора (если вы извлекали его из гнезда), неправильная установка системы охлаждения, неподключенный кулер.
    • Перед возникновением неполадки вы обновляли BIOS, но не довели обновление до конца (компьютер перезагрузился, выключился и т. п.). Виновник проблемы – слетевшая прошивка BIOS.

    Следом обратим внимание на сопутствующие проявления. Например:

    • При попытке включения компьютера ощущается запах гари, появляется дым, выбивает автомат в электрощите. Вероятнее всего, вышел из строя блок питания.
    • Компьютер самопроизвольно выключился с громким хлопком. Взорвался электролитический конденсатор на любом из устройств внутри системного блока.
    • При включении ПК кулер делает 1-2 оборота и останавливается. Имеет место короткое замыкание в устройствах, неправильная или неполная установка оборудования в разъемы.
    • Циклическая перезагрузка сразу после включения (кулер делает 1-2 оборота, останавливается, потом снова запускается и т. д., повторяя цикл включений и остановок бесконечно). По всей видимости, слетела прошивка BIOS.

    Ценную информацию об источнике сбоя может дать системный динамик (buzzer), если он распаян на материнской плате или подключен к ней отдельно. Иногда в подобных случаях он успевает подать звуковой сигнал, который указывает на виновника.

    Вероятная причина найдена. Что делать дальше?

    Если вышеописанные этапы диагностики навели вас на мысли о неисправности или проблемах с установкой (подключением) конкретного устройства, следующий шаг – подтверждение этой версии. Как можно догадаться, он заключается в ревизии соединений – осмотре кабелей, коннекторов и гнезд, проверке надежности удержания девайса в разъеме, тестовой установке в другой слот и т. п. А при подозрении на поломку – в замене устройства на заведомо рабочий аналог.

    В пользу дефектов подключения говорит следующее:

    • Потемнение и оплавление пластиковых элементов соединения (слотов, коннекторов).
    • Гнутые, замкнутые, сломанные контакты.
    • Видимые трещины и заломы кабелей.
    • Нарушение контакта при дотрагивании до устройства или наоборот – компьютер работает, пока вы удерживаете подключенный коннектор или девайс руками, а при отпускании сразу же выключается.

    На неисправность устройства указывают:

    • Локальное изменение цвета текстолита (обычно появляется с обратной стороны платы под неисправным компонентом), копоть.
    • Быстрый и заметный нагрев какого-либо элемента на плате устройства при подключении питания. В отдельных случаях неисправные компоненты греются даже в дежурном режиме – до нажатия кнопки включения на системном блоке.
    • Видимые нарушения функции. Например, жесткий диск не раскручивается, а издает скрежет или стук, кулер вращается с перебоями или не вращается вообще и т. д.
    • После физического отключения подозрительного девайса компьютер перестает самопроизвольно выключаться.

    В пользу неисправности свидетельствует хотя бы один из перечисленных признаков. В то же время их отсутствие никоим образом не говорит об обратном. Очень часто поврежденные устройства не имеют видимых глазу дефектов.

    Если неисправным оказался блок питания, не пытайтесь тестировать его подключением к нормально работающему оборудованию, это с большой долей вероятности выведет последнее из строя.

    Также не следует пытаться разбирать блок питания. Случайное касание элементов высоковольтной части может привести к поражению током, даже когда устройство отключено от электросети.

    Виновник не найден, подозреваемых нет

    Зачастую сбои, подобные нашему, возникают спонтанно – без видимых причин и на фоне нормальной работы компьютера. Подозрений на выход из строя какого-то конкретного девайса у пользователя нет. Точнее, под подозрением находится всё железо. Что предпринять в такой ситуации?

    Начнем с простого. Не открывая корпус ПК, выключите его из розетки или нажмите клавишу выключения на блоке питания.

    Далее нажмите кнопку power (включения) системного блока и удерживайте ее 20-30 секунд. После этого подключите питание и пробуйте запустить ПК как обычно. Если неполадка вызвана скоплением статики или остаточным зарядом конденсаторов, следующий старт пройдет нормально и сбой никак не скажется на дальнейшей работе компьютера.

    Если эта мера не принесла результата, . На эту тему есть отдельная статья, поэтому углубляться в подробности, как это сделать, не будем. Для сброса используйте перемычку Clear_CMOS или круглую батарейку-таблетку, которая обычно находится недалеко от перемычки.

    Дальнейшие действия выполняйте поочередно, переходя к последующему, если не помогло предыдущее. После каждой манипуляции предпринимайте попытки включения ПК.

    • Отключите от компьютера всё периферийное оборудование, оставив только клавиатуру и монитор.
    • Визуально осмотрите все внутренние устройства и коммуникации системного блока, пока ничего не отключая. Убедитесь в надежности и прочности соединений.
    • Пронаблюдайте за поведением процессорного кулера и корпусных вентиляторов при нажатии кнопки питания. Рывок и остановка, как сказано выше, – типичный симптом короткого замыкания. Циклические раскрутки и остановки чаще всего указывают на слет BIOS. Полное отсутствие вращений – проблемы на линии питания 12 V, выход из строя самого вентилятора или сбой в управлении системой охлаждения.

    Если вероятная причина неисправности – сбой . Многие современные материнские платы позволяют это делать без программатора.

    Если вероятная причина – короткое замыкание:

    • Отсоедините от материнской платы всё оборудование, необязательное для включения компьютера. Оставьте подключенными процессор, систему охлаждения, память (достаточно одного модуля), видео, клавиатуру и питатель. Если проблема не ушла, ее виновник находится среди оставшихся устройств.
    • Проверьте, . При коротком замыкании в нагрузке (запитанном оборудовании) импульсные БП аварийно отключаются. Так они защищают себя от перегрузки, которая вызвана чрезмерным потреблением тока.
    • После выяснения, что блок питания исправен, извлеките из корпуса ПК всё оставшееся железо. Это необходимо сделать по двум причинам: чтобы исключить замыкание материнской платы на корпус (встречается при неправильной сборке системника) и для осмотра устройств со всех сторон при хорошем освещении.

    • Осмотрите оборудование на наличие дефектов, как описано выше. При выявлении явных признаков поломки замените проблемный девайс на совместимый аналог.
    • Соберите на столе стенд из устройств, подключите блок питания и проверьте, нет ли на материнской плате и видеокарте горячих элементов. Если есть – вы обнаружили проблемный узел. Если нет, запустите стенд замыканием контактов кнопки включения (power switch) на «мамке». Где именно они расположены на вашей модели, можно найти в описании к ней.

    Дальнейшие поиски неисправности компьютера, который включается и сразу выключается, остается продолжать поочередной заменой оставшегося железа, в частности, планок памяти и видео. Хотя, если вы дошли до этого этапа, самый вероятный виновник неполадки – материнская плата. Можно, конечно, на этом не останавливаться и перейти к диагностике конкретно этого девайса, но мы условились обходиться голыми руками. Прямые руки плюс знания – и есть ваши главные помощники в решении любой проблемы с ПК. Остальное – второстепенно.

    Ещё на сайте:

    Что делать, если компьютер включается и сразу выключается обновлено: Апрель 21, 2018 автором: Johnny Mnemonic

    Механизм управляемой доступности встроенный в Exchange Server 2013 очень важен. О его критической важности я уже писал . Суть в том, что MA содержит не только код диагностики, но и код для восстановления работоспособности разных подсистем Exchange Server. Это само по себе способно порождать проблемы. Поэтому важно следить за исправностью подсистемы MA.

    Managed Availability базируется на специальных почтовых ящиках мониторинга, через которые пропускается тестовый почтовый поток. Это ящики создаются автоматически. Если с ними возникают какие-то проблемы, то они создаются заново сервисом Microsoft Exchange Health Manager. Это может приводить со временем к накоплению «брошенных» объектов, которые больше не используются. К тому же Health Manager сервис выявляет не все проблемные ситуации возникающие с почтовыми ящиками мониторинга. В блоге разработчиков Exchange Server есть статья Exchange 2013 Monitoring Mailboxes , которая не только раскрывает разные тонкости почтовых ящиков мониторинга, но и описывает процедуру их полного восстановления, которая может выполняться только в исключительных случаях. Эта процедура реализована мной в виде скрипта на Powershell и опубликована в Галерее скриптов Reset Exchange 2013 Monitoring Mailboxes .

    <# .Synopsis Reset Exchange 2013 Monitoring Mailboxes. .DESCRIPTION Reset Exchange 2013 Monitoring Mailboxes. The script stop Microsoft Exchange Health Manager service on all Exchange servers, disable Monitoring Mailboxes, remove accounts and start Microsoft Exchange Health Manager services. The script inspeared by Bhalchandra Atre"s article http://blogs.technet.com/b/exchange/archive/2015/03/20/exchange-2013-monitoring-mailboxes.aspx .EXAMPLE .\Reset-ExchangeMonitoringMailboxes #> function Reset-ExchangeMonitoringMailboxes { Begin { # Check RunAs Administrator if (-not (::GetCurrent()).IsInRole( "Administrator")) { throw("Please re-run this script with elevated rights - RunAs Administrator!") } $monmailboxes = Get-Mailbox -Monitoring # OU = LDAP://CN=Monitoring Mailboxes,CN=Microsoft Exchange System Objects,... $monroot = ("LDAP://" + ($monmailboxes.DistinguishedName -split ",",2)) if (-not ::Exists($monroot.Path)) { throw("Monitoring Mailboxes container doesn"t exist!") } # Find all Exchange Servers and show versions $exservers = Get-ExchangeServer Write-Host -Fore:Yellow "Destination servers:" $exservers | Select Name,AdminDisplayVersion,ExchangeVersion | Out-Host # Find all Health Manager services Write-Host -Fore:Yellow "Find all Microsoft Exchange Health Manager services" $HMservices = $exservers | % { Get-Service "Microsoft Exchange Health Manager" -ComputerName $_.Name -ErrorAction SilentlyContinue } # and stop them Write-Host -Fore:Yellow "Stop Microsoft Exchange Health Manager services" $HMservices | % { Write-Host -Fore:Yellow "Stopping" $_ | Select Status,MachineName,Name,DisplayName | ft -AutoSize $_.Stop() } # Disable all monitoring mailboxes Write-Host -Fore:Yellow "Disable all monitoring mailboxes" $monmailboxes | Disable-Mailbox -Confirm:$false # Delete all monitoring mailboxes Write-Host -Fore:Yellow "Delete all monitoring mailboxes" $monroot.Children | % { $_.DeleteTree() #$monroot.Children.Remove($_) } $monroot.CommitChanges() # Waiting inter-site replication Write-Host -Fore:Yellow "Waiting inter-site replication" Start-Sleep -Seconds 15 } End { # Start Microsoft Exchange Health Manager services Write-Host -Fore:Yellow "Start Microsoft Exchange Health Manager services" $HMservices | % { Write-Host -Fore:Yellow "Starting" $_ | Select Status,MachineName,Name,DisplayName | ft -AutoSize $_.Start() } Write-Host -Fore:Yellow "Waiting service start: 1 minute" Start-Sleep -Seconds 60 # Check Health Manager service status Write-Host -Fore:Yellow "Check Health Manager service status" $exservers | % { Get-Service "Microsoft Exchange Health Manager" -ComputerName $_.Name -ErrorAction SilentlyContinue } } }

    Last Updated: January 1st, 2019 - netadmintools

    Microsoft Exchange is one of the most popular and widely used email servers in the world. It is also a critical infrastructure for any organization because email is the primary form of communication at work.

    Whether your employees want to setup a meeting or get notifications about vulnerability issues in the network, emails are the key. This is why every organization should take proactive steps to ensure that their Exchange server is in good health always.

    2. PRTG Network Monitor by Paessler

    PRTG Exchange Monitoring tool monitors many parameters of your Exchange Server, so there are no financial and productivity losses stemming from server problems.

    Here’s a look at some of its features.

    • Continuously monitors exchange server availability and performance.
    • Ensures the smooth delivery of emails
    • Sends alerts when the mail server is down or when there are any issues with availability or performance. It sends these alerts through email, SMS or push notifications.
    • Monitors database capacity, load and traffic patterns.
    • Handles documentations such as event log entries.
    • Easy to setup and configure.
    • Comes with pre-configured sensors for Microsoft Exchange Server, so they are automatically in place when installation is complete.
    • A well-designed dashboard displays all the information about Exchange Server in a neat and comprehensive way.

    Below is a list of sensors designed specifically for monitoring the Exchange server.

    • Exchange mailbox (powershell) sensor – Monitors the mailbox size, logins and the latest emails.
    • Exchange database (powershell) sensor – Monitors database availability group (DAG) status.
    • Exchange backup (powershell) sensor – Verifies if Exchange backups are performed at scheduled intervals.
    • Exchange mail queue (powershell) sensor – Monitors the number of emails that are currently in the mail queue.
    • Exchange public folder (powershell) sensor – Monitors Exchange Server’s public folders, including its size, access, etc.
    • WMI Exchange server sensor and WMI Exchange transport queue sensor – Queries important information through WMI
    • SMTP and IMAP round trip sensor – Checks the response time of SMTP and IMAP servers.
    • SMTP and POP3 round trip sensor – Monitors end-to-end delivery of emails.
    • POP#, IMAP and SMTP sensors – Monitors the availability of email servers

    Pricing:
    The cost depends on the number of sensors you choose.

    • 100 sensors – free
    • 500 sensors – $1600
    • 1000 sensors – $2850
    • 2500 sensors – $5950
    • 5000 sensors – $10500
    • XL1 Unlimited: Unlimited sensors for one core installation – $14500
    • XL1 Unlimited: Unlimited sensors for five core installations – $60000

    The above prices include a one-year maintenance. To renew, the price is 25% of the original license.
    Download:

    3. ManageEngine OpManager

    OpManager from ManageEngine helps you to stay on top of your Exchange server’s performance.

    It allows you to do the following:

    • Check for inactive mailboxes and remove them for better performance.
    • Keep a check on your mailbox performance counters to ensure that your database storage capacity is within acceptable limits.
    • Troubleshoot outlook connectivity by examining various parameters such as number of requests per second, average response time, etc.
    • Streamline all voice messages and emails into a single mailbox, so it is easy to identify access issues.
    • Monitor critical information like scan time, the number of scan requests rejected, blocked recipients and more, to provide better security against spam and viruses.
    • Plan for capacity based on the inputs from this tool.
    • Create stellar reports using the built-in templates.
    • Get a list of all the servers and database status copies that are a part of the database availability group (DAG).

    Pricing:
    Free Trial as well, but this product starts at $945.
    Download:

    4. Foglight for Exchange

    5. Nagios Exchange Server Monitoring Tool

    6. Netwrix Auditor for Exchange

    Conclusion

    To conclude, Exchange monitoring Software and Tools are essential to protect your Exchange servers from going down, along with Managing and Monitoring Datastores and important Exchange Services that should never go down. The above explained tools come with good features to give you complete control over the health, performance and availability of this critical resource.

    We suggest you download a few of them and test them in your network to get a better feel of what they are compatible of – If you want our Top picks, We suggest one of the top 3 list above – either Solarwinds , or by ManageEngine!

    Мониторинг является ключевым компонентом для любого успешного развертывания Exchange. В предыдущих выпусках мы приложили много усилий для разработки обработчика корреляций и тесно сотрудничали с группой разработчиков System Center Operations Manager (SCOM), чтобы представить комплексное решение предупреждения для сред Exchange.

    Раньше понятие мониторинга обычно включало в себя сбор данных и, если это требовалось, выполнение действий на основании этих данных. Например, в контексте SCOM использовались разные механизмы для сбора данных посредством Exchange Management Pack:

    Задачи мониторинга Exchange Server 2013

    Когда мы приступили к разработке Exchange 2013, ключевым аспектом было улучшение сквозного мониторинга для всех развертываний Exchange — от самого маленького локального развертывания до самого крупного развертывания в мире, Office 365. Мы ставили перед собой три задачи:

    1. Предоставление наших знаний и опыта, связанных со службой Office 365, локальным клиентам Почти 6 лет назад группа разработчиков Exchange запустила Exchange Online. Используемая нами операционная модель называется операционной моделью разработчиков (DevOps). В ней сведения о неполадках эскалируются непосредственно разработчику компонента, если этот компонент работает в службе неправильно или клиент сталкивается с неизвестной проблемой. Независимо от источника проблемы эскалация напрямую разработчику привносит элемент ответственности в процесс разработки программного обеспечения благодаря устранению неполадок ПО.
    2. Мониторинг на базе взаимодействия с пользователем Мы также узнали, что многие из тех методологий, которые мы использовали для мониторинга, на самом деле не помогают нам обеспечивать правильную работу среды. В результате мы пришли к концепции мониторинга, ориентированной на клиентов.

      Для прошлых выпусков каждой группе разработчиков компонентов требовалось создать модель работоспособности, соединяя все компоненты в своей системе. Например, транспорт состоит из SMTP-IN, SMTP-OUT, агентов транспорта, классификатора, модуля маршрутизации, драйвера хранилища и т. п. После этого группа разработчиков компонентов создавала предупреждения по каждому из таких компонентов. В результате в Management Pack имеются предупреждения, которые позволяют вам узнать о сбое драйвера хранилища. Однако это предупреждение не сообщает о сквозном взаимодействии с пользователем или о том, что может быть нарушено в таком взаимодействии. Поэтому в Exchange 2013 мы пытаемся перевернуть указанную модель "вверх дном". Мы не собираемся отказываться от мониторинга на уровне систем, так как он имеет важное значение. Но действительно важным при управлении службой является то, что именно видят ваши пользователи. Поэтому мы видоизменили модели и с нетерпением ждем возможности оценить и проанализировать взаимодействие с пользователем.

    3. Защита взаимодействия с пользователем посредством ориентации на восстановление В предыдущих выпусках Exchange мониторинг был ориентирован на систему и компоненты, в новой версии — на автоматическое восстановление взаимодействия с пользователем.

    Мониторинг Exchange Server 2013 — управляемая доступность

    Управляемая доступность — это инфраструктура мониторинга и восстановления, которая интегрирована с решение высокой доступности Exchange. Управляемая доступность распознает проблемы во время их возникновения и обнаружения и выполняет необходимое восстановление.

    Управляемая доступность ориентирована на пользователя. Мы хотим измерить три ключевых аспекта — доступность, взаимодействие с пользователем (которое для большинства протоколов измеряется по задержке) и наличие возникающих проблем. Чтобы лучше разобраться в этих трех аспектах, давайте рассмотрим в качестве примера пользователя, работающего с Outlook Web App (OWA).

    Аспект доступности заключается в том, может ли пользователь получить доступ к веб-странице проверки подлинности на основе форм OWA . Если доступ невозможен, значит взаимодействие с пользователем нарушено, в результате чего направляется эскалация службы технической поддержки. Аспект взаимодействия с пользователем заключается в том, может ли пользователь выполнить вход в OWA, загружается ли интерфейс, имеется ли доступ к почте. Последний аспект задержки заключается в том, насколько быстро осуществляется отрисовка почты в браузере, если пользователь может выполнить вход и получить доступ к интерфейсу. Три эти области и составляют взаимодействие с конечным пользователем.

    Основное различие между предыдущими выпусками и Exchange 2013 заключается в том, что в Exchange 2013 наше решение мониторинга не пытается сообщить основную причину (это не значит, что данные не заносятся в журнал, не создаются дампы или выявление основной причины невозможно). Важно понимать, что в предыдущих выпусках нам так и не удалось обеспечить эффективное информирование об основной причине — иногда мы были правы, иногда ошибались.

    Компоненты управляемой доступности

    Управляемая доступность встроена в обе роли сервера в Exchange 2013. Она включает в себя три главных асинхронных компонента. Первый компонент — это подсистема зондов . Задача подсистемы зондов заключается в проведении измерений на сервере. Это подводит нас ко второму компоненту — монитору . Монитор содержит бизнес-логику, кодирующую все то, что мы считаем работоспособным состоянием. Вы можете рассматривать его как подсистему распознавания шаблонов — он отыскивает различные шаблоны в разных проводимых измерениях и затем может принять решение о том, можно ли считать что-то работоспособным. Наконец, есть подсистема ответчиков , которую на приведенной ниже схеме я отметил как "Восстановление". Когда что-то не является работоспособным, она прежде всего пытается восстановить этот компонент. Управляемая доступность предоставляет многоэтапные действия восстановления — первой может предприниматься попытка перезапуска пула приложений, второй — попытка перезапуска службы, третьей — попытка перезапуска сервера, а последней — попытка отключения сервера от сети, чтобы он больше не принимал трафик. Если эти попытки неудачны, управляемая доступность эскалирует данную проблему человеку через уведомление журнала событий.

    Вы также могли заметить, что мы произвели децентрализацию некоторых аспектов работы. Раньше агент SCOM размещался на каждом сервере, и требовалось выполнять потоковую передачу всех измерений на центральный SCOM. Этот сервер SCOM оценивал все измерения, чтобы определить, является ли что-то работоспособным. В крупномасштабных средах сложная корреляция требует значительных ресурсов. Мы заметили, что на выдачу предупреждений требуется больше времени и т. п. Сбор всех данных в одном центральном расположении не подходит для масштабирования. Поэтому мы решили, что каждый отдельный сервер будет выступать в роли острова — каждый сервер выполняет свои собственные зонды, осуществляет мониторинг самого себя, предпринимает меры по самовосстановлению и, конечно же, при необходимости отправляет эскалации.

    Рис. 1. Компоненты управляемой доступности

    Зонды

    Инфраструктура зондов состоит из трех отдельных платформ:

    1. Зонды — это искусственные транзакции , которые создаются каждой группой разработчиков компонентов. Они аналогичны тестовым командлетам в предыдущих выпусках. Зонды измеряют восприятие службы, выполняя пользовательские сквозные искусственные транзакции.
    2. Проверки представляют собой пассивный механизм мониторинга. Они измеряют фактический трафик клиента.
    3. Платформа уведомлений позволяет нам предпринимать немедленные действия, не ожидая выполнения зонда. То есть в случае обнаружения сбоя мы сразу же можем предпринять меры. Платформа уведомлений основана на уведомлениях. Например, когда истекает срок действия сертификата, активируется событие уведомления, которое оповещает операции о необходимости продления срока действия этого сертификата.

    Мониторы

    Собранные зондами данные попадают в мониторы. Между зондами и мониторами совсем необязательно имеется прямое соответствие; несколько зондов могут предоставлять данные в один монитор. Мониторы рассматривают результаты работы зондов и выносят заключение. Такое заключение является двоичным — монитор либо работоспособен, либо нет.

    Как уже было упомянуто ранее, мониторинг Exchange 2013 ориентирован на взаимодействие с конечным пользователем. Для этого нам требуется осуществлять мониторинг на разных уровнях среды:

    Рис. 2. Мониторинг на разных уровнях для проверки взаимодействия с пользователем

    Как видно из приведенной выше схемы, мы используем четыре разных проверки. Первая проверка — это самопроверка почтового ящика; этот зонд проверяет, может ли локальный протокол или интерфейс обратиться к базе данных. Вторая проверка называется самопроверкой протокола и проверяет, работает ли локальный протокол на сервере почтовых ящиков. Третья проверка — это самопроверка прокси-сервера, которая выполняется на сервере клиентского доступа и проверяет, работает ли для протокола функция прокси-сервера. Четвертая и последняя проверка — это комплексная проверка сквозного взаимодействия с пользователем (доступ протокола через прокси-сервер к функциям хранения). Каждая проверка осуществляет обнаружение с разными интервалами.

    Мы осуществляем мониторинг на разных уровнях, чтобы выявить зависимости. Поскольку в Exchange 2013 нет обработчика корреляций, мы стараемся разграничить зависимости с помощью уникальных кодов ошибки, соответствующих разным зондам, и зондов, которые не связаны с зависимостями. Например, если вы видите, что произошел одновременный сбой зондов самопроверки почтового ящика и самопроверки протокола, какой вывод вы сделаете? Что перестало работать хранилище? Необязательно; этот вывод заключается в том, что не работает экземпляр локального протокола на сервере почтовых ящиков. Если вы видите, что зонд самопроверки протокола работает, а зонд самопроверки почтового ящика нет, какой вывод вы сделаете? Эта ситуация указывает на наличие проблемы на уровне "хранилища", которая может заключаться в отключении хранилища или базы данных.

    С точки зрения мониторинга это значит, что теперь мы можем точнее управлять выводом предупреждений. Например, если мы оцениваем работоспособность OWA, то нам с большей вероятностью следует отложить выдачу предупреждения в ситуации, когда произошел сбой самопроверки почтового ящика, но самопроверка протокола работает; однако в случае, когда и монитор самопроверки почтового ящика, и монитор самопроверка протокола являются неработоспособными, выводится предупреждение.

    Ответчики

    Ответчики выполняют ответы на основании создаваемых монитором предупреждений. Ответчики выполняются только в том случае, если монитор неработоспособен.

    Доступно несколько типов ответчиков:

    • Ответчик перезапуска — завершает работу службы и перезапускает ее.
    • Ответчик сброса пула приложений — выполняет отключение и повторное включение пула приложений IIS.
    • Ответчик отработки отказа — выводит сервер почтовых ящиков Exchange 2013 из эксплуатации.
    • Ответчик проверки на ошибки — запускает проверку сервера на наличие ошибок.
    • Автономный ответчик — выводит протокол на компьютере из эксплуатации.
    • Ответчик эскалации — осуществляет эскалацию проблемы.
    • Специализированные ответчики компонентов

    Автономный ответчик используется для прекращения использования протокола на серверах клиентского доступа. Этот ответчик разрабатывался как инвариантный к подсистеме балансировки нагрузки. При вызове этого ответчика протокол не подтверждает проверку работоспособности подсистемы балансировки нагрузки, таким образом позволяя этой подсистеме балансировки нагрузки удалить сервер или протокол из пула балансировки нагрузки. Также существует ответчик подключения к сети, который автоматически инициализируется, когда соответствующий монитор снова становится работоспособным (предполагается, что другие сопоставленные мониторы в неработоспособном состоянии отсутствуют); ответчик подключения к сети просто разрешает протоколу отвечать на проверку работоспособности подсистемы балансировки нагрузки, что позволяет этой подсистеме добавить сервер или протокол обратно в пул балансировки нагрузки. Автономный ответчик можно также вызвать вручную с помощью командлета Set-ServerComponentState. Это позволяет администраторам вручную перевести серверы клиентского доступа в режим обслуживания.

    При вызове ответчик эскалации создает событие Windows, распознаваемое Exchange 2013 Management Pack. Это не обычное событие Exchange. Это не событие, которое сообщает, что OWA не работает или возникла ошибка ввода-вывода. Это событие Exchange, которое указывает, является ли набор работоспособности работоспособным или нет. Мы используем такие события отдельного экземпляра для управления мониторами внутри SCOM. И при этом мы берем за основу событие, создаваемое в ответчике эскалации, которое противопоставляется событиям, используемым в продукте. Другим походом к данной концепции является степень косвенности. Управляемая доступность решает, когда нам следует обратить монитор внутри SCOM. Управляемая доступность принимает решение о том, когда должна осуществляться эскалация, или, другими словами, когда в процесс следует вовлечь человека.

    Ответчики также можно регулировать, чтобы не подвергнуть риску всю службу. Такое регулирование зависит от ответчика:

    • Некоторые ответчики принимают во внимание минимальное число серверов в группе обеспечения доступности баз данных или сбалансированном по нагрузке пуле CAS.
    • Некоторые ответчики принимают во внимание период времени между выполнениями.
    • Некоторые ответчики принимают во внимание число случаев, в которых этот ответчик был активирован.
    • Некоторые могут использовать сочетание описанных аспектов.

    При осуществлении регулирования действие ответчика может быть отложено или просто пропущено (это зависит от ответчика).

    Последовательности восстановления

    Важно понимать, что мониторы определяют типы выполняемых ответчиков и график их выполнения, мы называем это последовательностью восстановления для монитора. Например, предположим, что данные зонда протокола OWA (самопроверка протокола) активирует для монитора неработоспособное состояние. При этом сохраняется текущее время (назовем его T). Монитор запускает конвейер восстановления, который основан на текущем времени. Монитор может определять действия по восстановлению с заданными интервалами в конвейере восстановления. В случае с монитором протокола OWA на сервере почтовых ящиков последовательность восстановления имеет следующий вид:

    1. При T=0 выполняется ответчик сброса пула приложений IIS.
    2. Если при T=5 минут монитор не возвратился в работоспособное состояние, запускается ответчик отработки отказа и базы данных перемещаются с сервера.
    3. Если при T=8 минут монитор не возвратился в работоспособное состояние, запускается ответчик проверки на ошибки и выполняется принудительная перезагрузка сервера.
    4. Если при T=15 минут монитор все еще не возвратился в работоспособное состояние, активируется ответчик эскалации.

    Конвейер последовательности восстановления останавливается, когда монитор переходит в работоспособное состояние. Обратите внимание на то, что прошлое указанное действие необязательно должно завершиться перед началом следующего указанного действия. Кроме того, монитор может иметь любое число заданных интервалов.