Пресс-центр

Вы здесь

AggreGate Network Manager: Взгляд его разработчиков.

2 апреля 2015

AggreGate Network Manager: платформа+коробка для зонтичного мониторинга IT-инфраструктуры. Взгляд разработчиков.

Сокращенный текст статьи из https://habrahabr.ru/company/tibbo/blog/254387/

Диагностика проблем надежности и производительности в сложных ИТ-инфраструктурах требует понимания целостной картины всех процессов и событий, а также возможности отслеживать важнейшие тренды. Необходимость внедрения единой («зонтичной») системы управления ИТ-инфраструктурой обоснована классическими для бизнеса причинами:
 

  1. Максимизация возврата инвестиций в бизнес-приложения и сервисы. Система управления позволяет оценивать и оптимизировать ресурсы, необходимые для работы ИТ сервисов компании. Это обеспечивает минимальные операционные расходы и ускорение окупаемости новых ИТ-сервисов.
  2. Повышение качества ИТ-сервисов. Поддержание и улучшение качества ИТ-услуг требует детального понимания их текущего состояния. Часто деградация производительности остается подолгу незамеченной собственными службами компании, нанося урон репутации и доверию клиентов. Автоматизированный мониторинг предоставляет необходимую отчетность по соответствию услуг определенным для них соглашениям об уровне обслуживания (SLA), сводя риски незамеченной деградации к минимуму.
  3. Уменьшение времени простоя сервисов и компонентов ИТ-инфраструктуры. Проактивный мониторинг позволяет предотвращать многие отказы оборудования и приложений, а также минимизировать продолжительность и степень деградации сервисов. В случаях, когда отказы все-таки случаются, система непрерывного мониторинга позволяет быстрее локализовать и исправить проблемные компоненты. Финансовые потери, вызванные несколькими часами недоступности бизнес-сервисов, не всегда бывают адекватно оценены и часто сопоставимы с расходами на внедрение системы управления ИТ.
  4. Повышение эффективности сотрудников департамента эксплуатации ИТ-инфраструктуры. Избавляя администраторов ИТ-систем от рутинных повседневных обязанностей, таких как анализ текущей ситуации и управление конфигурациями, а также от срочных задач по устранению инцидентов, система управления позволяет сотрудникам использовать освободившееся время для разовых задач по дальнейшей автоматизации процессов, что в конечном итоге приводит к повышению эффективности бизнеса в целом.


Написанное выше понимают (интуитивно или осознанно) практически все ИТ-директора, руководители департаментов эксплуатации ИТ-инфраструктуры и системные администраторы. Тем не менее, степень «зрелости» ИТ-инфраструктуры очень сильно отличается от страны к стране, от отрасли к отрасли, от компании к компании. А подход к автоматизации управления и мониторинга ИТ очень сильно зависит от степени развития самой ИТ-инфраструктуры в целом.

Мы условно выделяем несколько уровней развития подхода к управлению ИТ-инфраструктурой:

  1. Жизнь без мониторинга. Все компоненты инфраструктуры и сервисы работают сами по себе, без оперативного контроля. Устранение инцидентов производится путем подключения к индивидуальным компонентам инфраструктуры и сервисов, построение картины произошедшего происходит «в голове» админов, разбор полетов – обычно по логам.
  2. Реактивный мониторинг. Конечно же, от слова «реакция», а не «реактивность». На этом этапе внедряется классическая система мониторинга начального класса. Это может быть либо простейшая «пинговалка», либо система, занимающаяся периодическим опросом компонентов инфраструктуры по стандартным протоколам (SNMP, WMI, и т.д.) или при помощи агентов. Собранные данные сохраняются и визуализируются при помощи инструментальных панелей (дэшбордов). Также производится простейшая консолидация событий (SNMP traps, Syslog) и рассылка оповещений по критическим событиям и нарушению порогов.
  3. Проактивный мониторинг. Отличается от реактивного возможностью предсказывать инциденты и избегать их в случаях, когда развитие инцидента происходит не быстро и система мониторинга имеет возможность предупредить операторов о негативном тренде. Системы с возможностью проактивного мониторинга обычно также предоставляют дополнительные возможности, такие как, например, динамические пороги тревог, анализ трафика, мониторинг VoIP путем вызовов по SIP и сбора данных IP SLA, и т.п.
  4. Комплексное управление ИТ. Пока на этом этапе в России находится небольшое количество крупных компаний. В рамках комплексного, или, иначе говоря, «зонтичного» управления ИТ одна система объединяет все функции по мониторингу инфраструктуры и сервисов с функциями по автоматизированному управлению конфигурациями, обеспечивая при этом единую точку интеграции с корпоративной системой класса ITSM/Service Desk. Системы такого класса реализуют сценарии сложной корреляции цепочек событий и их обогащения данными из системы инвентаризации активов. Как результат, появляется возможность обучать систему методикам поиска первопричины отказа (root cause analysis). Набор готовых алгоритмов поиска первопричины обычно является частью коробочного продукта.


В целом рынок систем управления ИТ является одним из наиболее высоко-конкурентных среди всех рынков ПО. Так зачем же мы решили инвестировать в разработку AggreGate Network Manager – еще одной системы этого класса?

Ответ на этот вопрос не совсем тривиален. У нас есть платформа AggreGate– наш конструктор для создания систем мониторинга и управления. Многие наши решения для вертикальных рынков, такие как AggreGate SCADA/HMIи AggreGate Fleet Manager, построены путем доработки нескольких новых драйверов для сбора данных и упаковки нового решения в красивый маркетинговый фантик. В отличие от SCADA, система мониторинга сетей требует как множества новых механизмов сбора данных (WMI, IMPI, SSH, JMX, SIP, NetFlow, Syslog и т.д.), так и огромного количества преднастроенных шаблонов опроса, тревог и инструментальных панелей. Соответственно, инвестиции изначально обещали быть немалыми.

Мы построили этот продукт, потому что мы видим возможность изменить мир систем мониторинга и управления ИТ. Гибкость базовой платформы позволяет моделировать поведение и визуально разрабатывать интерфейс системы мониторинга под свою ИТ-инфраструктуру. Эти возможности выходят далеко за рамки добавления новых графиков на инструментальные панели и настройки порога срабатывания тревоги – речь и о моделировании бизнес-процессов и автоматизированном вычислении их KPI, и о создании динамических планов корпоративных ЦОДов, и о визуальном проектировании «с нуля» собственного операторского интерфейса первой линии для видео-стены в ЦУС’е, и о многом другом.

Специалисты, работающие в области автоматизации производственных процессов, привыкли, что каждое производство априори считается уникальным и инжиниринговая компания начинает внедрение АСУ ТП с проектирования и разработки специфичных алгоритмов управления и мнемосхем.

Все крупные инфраструктуры являются не менее уникальными, чем производственные процессы. Так почему же все ИТ-инфраструктуры управляются «под одну гребенку», а большинство систем управления предоставляют весьма ограниченные возможности по их кастомизации? Система AggreGate Network Manager, основанная на платформе AggreGate, дает ИТ-специалистам возможности по построению уникального процесса управления инфраструктурой, сравнимые с возможностями инженера по автоматизации, использующего хорошую АСУ ТП. При этом мы прекрасно понимаем, что широкий рынок воспринимает продукт только если он хорошо работает «из коробки».

Как и большинство универсальных систем на этом рынке, Network Manager покрывает управление инфраструктурами телекоммуникационных компаний, малых/средних компаний и корпораций.  У разных компаний – различные приоритеты в мониторинге: у одних – это мониторинг каналов связи через WAN, обнаружение и визуализация сетевой топологии (L2/L3, MPLS, SDH), у других наиболее актуален мониторинг серверов, операционных систем и приложений, виртуализованной средой и бизнес-сервисами.

Наличие в составе продуктов на основе платформы AggreGate системы SCADA позволила нам объединить возможности продуктов Network Manager и SCADA/HMI, которые технически являются наборами модулей, подсоединяемых к ядру платформы. Комбинированный продукт, названный AggreGate Data Center Supervisor, покрывает мониторинг современных типовых ИТ-инфраструктур ЦОДов. Управление ЦОД предполагает комплексный мониторинг ИТ, инженерной инфраструктуры и инфраструктуры системы физической безопасности. Необходимо обеспечивать глубокий мониторинг микроклимата, контроль систем отопления, кондиционирования и вентиляции, мониторинг ИБП и ДГУ, тесную интеграцию со СКУД и системой видеонаблюдения/видеоаналитики, а также инвентаризацию ИТ-активов.


С точки зрения стандартного функционала систем мониторинга, AggreGate Network Manager предоставляет в рамках единого продукта все классические функции:

  • Обнаружение сетевых устройств и сервисов, в том числе по расписанию
  • Сбор данных и событий по десяткам протоколов (SNMP, WMI, DHCP, DNS, FTP, SSH, Telnet, ICMP, IMAP, JMS, JMX, LDAP, NetFlow/xFlow, SQL/JDBC/ODBC, POP3, Radius, SIP, SMB/CIFS, SMTP, SOAP, Syslog, CORBA и другим)
  • Построение топологических, географических и статических карт сети
  • Доступность сотен «коробочных» инструментальных панелей, отчетов и тревог для анализа производительности сети и приложений, поиска и локализации сбоев
  • Мониторинг виртуальной инфраструктуры, VoIP и беспроводных сетей
  • Декомпозиция трафика на основе NetFlow/xFlow
  • Многопользовательский ролевой доступ к серверу, возможность аутентификации через LDAP
  • Распределенный мониторинг с возможностью хранения исторических данных на удаленных вторичных серверах мониторинга
  • Инвентаризация сетевых активов – ПО, компонентов ПК, периферии, модулей коммутаторов и маршрутизаторов, и т.п.
  • Консолидация, фильтрация, дедупликация, корреляция, и другая обработка сетевых сообщений
  • Создание тревог с функциями гистерезиса, динамических порогов, обнаружения биения, эскалации, ручного закрытия, отправки оповещений по e-mail и СМС, а также выполнения автоматических и интерактивных корректирующих действий
  • Создание по тревогам тикетов в системе ITSM/Service Desk
  • Архивация и восстановление конфигураций оборудования, проверка их соответствия корпоративным политикам


Впрочем, вышеприведенный список покрывается всеми серьезными решениями для управления ИТ. Вопрос лишь в качестве его реализации, возможностями по настройке и адаптации, удобстве использования продукта, стоимости владения, доступности и качестве технической поддержки.

Платформа для нестандартных решений по управлению ИТ-инфраструктурами

В части возможностей по настройке Network Manager очень сильно отличается от всех остальных продуктов. Продукт полностью разработан при помощи стандартных инструментов платформы AggreGate по обработке и визуализации данных. Проще говоря, всю систему управления ИТ, не считая модулей сбора данных, разрабатывали наши системные и бизнес аналитики, а также сотрудники отдела внедрения. Результат их труда – сотни шаблонов отчетов, виджетов, тревог, каждый из которых можно открыть в системных редакторах и изменить «под себя».

Эта возможность касается не только простейшей настройки, вроде смены порога срабатывания тревоги, но и практически любых изменений поведения продукта.

Все  модули системы мониторинга созданы по принципу использования стандартных компонентов платформы вместо «хардкодинга» логики в ядро продукта. Например, для запуска сканирования сети по расписанию используется настраиваемая (и даже удаляемая) задача системного планировщика.

Инструментальные панели, реализующие настроечные экраны и главный операторский экран продукта Network Manager, спроектированы так, чтобы скрыть от обычных пользователей все сложности, связанные с настройкой системы и позволить им эффективно решать повседневные задачи.