Мы продолжаем наш рассказ о том, как мы меняли BMS-систему в наших ЦОДах (часть 1, часть 2). При этом мы не просто поменяли решение одного вендора на другого, а разработали систему с нуля под свои требования. В заключение нашей истории делимся итогами проделанной работы и интересными решениями, которые могут быть вам полезны.
Новый интерфейс
Тут, как говорится, лучше один раз увидеть.
Стойки.
Разберем отличия.
Теперь глазу приятно смотреть:
Серверные.
Фрагмент ГРЩ.
Щит управления вентиляцией.
А еще новую BMS можно украсить к Новому году 🙂
One page – взаимопонимание с полуслова и без ТЗ
Мы очень давно хотели реализовать еще одну «фишку» в BMS: скомпоновать на одной странице основные параметры ЦОД, чтобы одного взгляда на экран было достаточно для оценки состояния основных систем. Однако мы не до конца понимали, как она должна выглядеть.
Еще до начала разработки новой BMS мы посетили с экскурсиями десяток ЦОДов в Нидерландах. Одной из целей было увидеть примеры реализации такой страницы.
И ни в одном ЦОДе нам ее не показали – где-то ее не было, где-то «прямо сейчас разрабатывали», где-то это была «большая коммерческая тайна». Поэтому в нашем ТЗ на создание новой BMS точное описание этой очень важной для нас страницы отсутствовало.
В итоге мы ее придумали буквально «на ходу». Как раз в тот момент пришлось удаленно консультировать коллег в ЦОДе. Перелистывать страницы BMS в телефоне в поисках разрозненных данных было очень неудобно, и фактически на салфетке была набросана первая версия One page. Ее и реализовали разработчики по фото.
Следуя примеру осторожных голландских коллег, не будем демонстрировать итоговый вариант нашей главной страницы, тем более что каждый ЦОД уникален и копировать смысла нет. Но опишем два главных принципа ее формирования:
По сути, теперь абсолютно все ключевые характеристики ЦОДа сгруппированы и представлены на одном экране смартфона/ монитора ответственного инженера и руководителя, при этом реализована привязка к физической и логической топографии ЦОДа.
Вот фото того самого первого черновика, хотя, конечно, затем эта версия была переосмыслена и доработана.
Квитирование и сводка инцидентов
Расскажем об еще одном новом для нас понятии, появившемся в результате проекта по обновлению системы мониторинга.
Квитирование – довольно редко встречающийся термин, который предложил использовать разработчик новой BMS. Он означает подтверждение того, что оператор увидел инцидент, подтвердил его и принял на себя обязанности по его устранению.
Слово прижилось, и теперь мы «квитируем» инциденты.
Алгоритм, заложенный в базовую версию новой BMS, нас не устроил. Фактически это были комментарии к журналу событий, то есть устраненные инциденты не исчезали из журнала, а принятые («квитированные») не отсортировывались от новых.
В итоге было разработано окно под названием «сводка», в котором:
Алгоритм работы дежурных в новой BMS следующий:
Пример окна сводки с новым и уже квитированным сообщением.
Соединив окно сводки с таблицей One page, мы получили полноценный главный экран системы BMS, на котором сразу можно увидеть:
Доступ через браузер и всплывающие оповещения на телефоне
Веб-интерфейс, доступный с любого устройства из любой точки мира, – это разительный контраст с «толстым» клиентом, полностью закрытым для пользователей извне.
Старый подход тянул за собой комплекс неудобств, от проблем в организации удаленной работы сотрудников службы мониторинга до необходимости устанавливать «толстые» клиенты из дистрибутивов на рабочие места персонала в ЦОДе.
Теперь у любой страницы в BMS есть уникальный адрес, что позволяет делиться не только прямым адресом страницы или устройства, но и ссылками на уникальные графики/ отчеты.
Доступ в систему теперь осуществляется посредством LDAP-аутентификации через Active Directory, что усиливает уровень ее защищенности.
Мобильность сегодня – ключевой фактор качественной работы дежурных инженеров. Помимо контроля мониторинга в помещении дежурной смены, инженеры делают обходы, выполняют текущую работу вне «дежурки» и, благодаря оптимизированному под мобильный экран главному экрану BMS, не теряют контроль за происходящим в машзалах ни на секунду.
Качество контроля повышается и благодаря функциональности рабочих чатов. Они ускоряют рабочие процессы, позволяя «привязать» переписку дежурных инженеров к BMS. Мы, например, используем приложение Teams, которое позволяет вести внутреннюю переписку и получать на телефон все сообщения из BMS в виде всплывающих Push-уведомлений, что избавляет дежурного от необходимости постоянно смотреть в экран телефона.
Push-уведомление на экране смартфона.
А так уведомления выглядят в приложении Teams.
При этом всплывающие уведомления настроены только на сообщения о появлении инцидентов, тем самым минимизирован отвлекающий фактор, персонал знает: если на экране смартфона появилось Push-уведомление Teams, то надо зайти на страницу BMS и принять инцидент. Сообщения об устранении инцидентов отслеживаются уже на странице BMS.
На фото интерфейс BMS в смартфоне.
Подводя итог
При стоимости обновления BMS у нашего старого вендора, сопоставимой с разработкой новой системы с нуля (около $100 000), разница в функциональности продуктов оказалась колоссальной. Мы получили гибкую систему, оптимизированную под наши бизнес-задачи и процессы. Мы также добились существенной экономии в текущих расходах на поддержку и обновление системы.
Но, конечно, были и сложности.
• Во-первых, мы недооценили объем изменений, которые требовалось внести в базовую версию новой BMS, и не уложились в заранее оговоренные сроки. Для нас это не было критической проблемой, так как мы до последнего страховались и работали на старой системе, а процесс был творческий, сложный и поэтому шел иногда медленнее, чем ожидалось. К тому же мы всегда видели, что наш разработчик прикладывает максимум усилий для достижения лучшего результата. Но по факту история оказалась очень долгой, и наши ключевые специалисты потратили на нее значительно больше усилий и времени, чем планировали.
• Во-вторых, нам потребовалось несколько этапов испытаний, чтобы отладить алгоритм резервирования виртуальных машин и каналов связи. Изначально сбои были и на стороне системы BMS, и на стороне настройки виртуальных машин и сети. Эта отладка тоже заняла время. Благо, подрядчику была предоставлена тестовая площадка в виде облачного сервиса, где изначально тестировались все настройки и нововведения.
• В-третьих, итоговая система оказалась сложнее для редактирования конечным пользователем. Если раньше карта представляла собой подложку (графический файл) и значки, изменить или переместить которые не составляло труда, то теперь это сложный графический интерфейс с анимацией, требующий определенных навыков для редактирования.
Радикальное обновление нашей системы BMS уже сегодня можно назвать важнейшим проектом прошлого года, который серьезно повлияет на качество операционного управления нашими площадками в будущем.
Старый железный сервер мы, конечно же, не выкинули, а «облегчили»: очистили от тысяч «коммерческих» виртуальных датчиков и PDU и оставили в нем только несколько десятков самых критичных устройств, таких как ДГУ, ИБП, кондиционеры, насосы, датчики протечек и температур. В таком режиме к нему вернулась былая скорость, и он может быть «резервом резерва». Кстати, после удаления PDU из старой BMS у нас освободилось около 1000 теперь уже ненужных лицензий, вы случайно не знаете, что с ними делать?
© 2023 Linxdatacenter
Thank you for your inquiry, we will get back to you shortly!