Андрей Чеснов,
главный энергетик компании Linxdatacenter
Мониторинг дизель-генераторов: как повысить энергобезопасность в ЦОДе
Один из важнейших параметров работы дата-центров – это энергетическая безопасность. Именно поэтому мы решили подключить к новой системе мониторинга инженерных систем в наших ЦОДах систему дизель-генераторных установок (ДГУ). Рассказываем, как мы это сделали и на что это влияет.
Некоторое время назад мы реализовали проект по обновлению BMS – системы мониторинга инженерных систем на нашей площадке в Санкт-Петербурге. Об этом непростом процессе можно почитать в наших постах на Хабре. После успешного запуска новой BMS встал вопрос о поэтапной интеграции в систему мониторинга всех ключевых инженерных систем. И система ДГУ стала одной из первых. Ранее мы уже организовали топливный мониторинг ДГУ в Linxdatacenter и понимали всю важность контроля именно этой системы в ЦОДе.
Реалтайм-контроль для ДГУ: как делать
Мониторинг ДГУ при помощи BMS дает ЦОДу новый уровень скорости операционного управления в режиме real time и в целом повышает надежность работы дата-центра. Быстрее и точнее распознаются аварийные ситуации или признаки их возможного скорого наступления – значит, быстрее предпринимаются шаги по нормализации работы.
Например, в системе есть предупреждения о событиях, которые напрямую не влияют на работу систем ЦОДа, но, если их игнорировать достаточно долгое время, это может привести к отключениям оборудования. К такому виду оповещений относится перегрузка системы – при сохранении роста потребляемой мощности это вызовет падение системы целиком. Долго такие оповещения игнорировать нельзя, хотя внезапной остановки всего ЦОДа эти события и не вызовут.
Что умеет BMS
Наш проект по интеграции системы ДГУ в BMS пока еще не завершен, но решение уже многое умеет.
Сейчас система ДГУ передает в BMS данные о состоянии автоматов – «вкл/выкл», наличии аварийных ситуаций, показатели напряжения и частоты тока. После завершения интеграции добавятся также данные о состоянии самих установок ДГУ «вкл/выкл», общем напряжение на ДГУ, температура охлаждающей жидкости, данные о давлении масла, частоте вращения турбин, «мото-часы» (время активной работы установки), киловатт-часы и температурные параметры окружающей среды.
В сумме получается довольно много данных, которые позволяют получать максимально общую и точную картину. Можно будет запускать «выпадающий список» для выбора необходимых оператору в текущий момент критериев оценки работы системы ДГУ. Например, можно ввести систему расхода топлива и электроэнергии, чтобы «мото-часы» можно было определять дистанционно.
Система мониторинга ДГУ рассчитана на работу в режиме 24 часа в сутки, включая тренировочные запуски установок и фиксацию тестовых показателей. Таким образом, система обеспечивает полное сопровождение жизненного цикла ДГУ, не только для real time задач, но и для исторического анализа с прогнозными задачами на базе данных журнала дефектов и неполадок. Каждый тестовый запуск ДГУ фиксируется в специальном журнале вместе со всеми обнаруженными неисправностями, ФИО ответственного сотрудника, способами и результатами устранения неполадок. В итоге мы имеем полную историю событий по каждой конкретной ДГУ.
При этом мы сознательно отказались от «соблазнов автоматизации»: дистанционного управления ДГУ не предусмотрено, хотя чисто технически такая возможность существует. Поскольку комплекс установок находится в шаговой доступности для инженеров ЦОДа, лучше оценивать текущую ситуацию своими глазами и собственными руками вносить необходимые коррективы. Ведь к ошибке в работе ДГУ может привести несколько факторов. Если продиагностировать сбой неправильно и просто автоматически перезапустить установку, то ситуация простым «ресетом» может не исправиться, а время будет упущено.
Необходимость личного осмотра снижает влияние человеческого фактора: устраняются риски случайного нажатия не той кнопки на панели управления, которое, будучи незамеченным и неосознанным, может при этом уронить всю систему.
Искушение автоматизацией – например, через внедрение ИИ-функционала в мониторинг – безусловно присутствует. Но в той части инженерных систем ЦОДа, которые отвечают за энергетику, автоматизацию управления и использование ИИ мы не увидим еще очень долго как раз из-за рисков безопасности, пропорционально возрастающих с каждым таким апгрейдом.
Какие типичные неполадки умеет «ловить» BMS?
Чаще всего в работе ДГУ фиксируются ошибки синхронизации и включения автоматов. Например, пришел сигнал на запуск ДГУ, и две установки включились одновременно – это неправильно, так как вызывает просадку напряжения, при достижении минимально допустимого значения напряжения автомат отключается, происходит ошибка в работе системы в целом. Теперь BMS умеет оповещать о таких ошибках дежурного инженера, который должен оценить ситуацию лично. Если установка не запустилась, есть инструкция, как перезапустить ее вручную, после чего событие заносится в журнал – «произошел неудачный пуск, проведен перезапуск, проблема устранена» и т. д.
Аналогичная ситуация может возникнуть при распределении нагрузки. Одна машина не запустилась при старте, остальные, перераспределив нагрузку между собой, могут получить предупреждение о достижении максимального порога мощности. Тогда в системе мониторинга появится предупреждение, которое подскажет, что надо предпринять для недопущения остановки всего дизель-генераторного комплекса.
Система мониторинга способна сегодня показать, ошибка какого типа произошла, благодаря чему технические специалисты уже заранее готовы и имеют сценарий реагирования на инцидент.
Почему все это важно?
Системы гарантированного и резервного электроснабжения в ЦОДе – важный элемент общей отказоустойчивости дата-центра. ДГУ в трактовке вопросов энергообеспечения ЦОДов от Uptime Institute является основным источником питания, поскольку при наступлении перебоев с внешним электроснабжением он становится единственным источником с критическим по важности значением качества работы.
Сегодня ДГУ и схема резервного энергоснабжения дают нам порядка 60 часов бесперебойной работы ЦОДа на полной мощности – доступны 17 м 3 резервного топливохранилища, а также две расходные емкости по 1 м 3 .
В результате полной интеграции системы ДГУ в BMS мы сможем мониторить этот важнейший элемент ЦОДа в режиме 24/7, вовремя предотвращать серьезные ошибки, сокращать время реагирования и поиска причин инцидентов, а также видеть всю историю работы каждого ДГУ как в ретроспективе, так и в режиме реального времени.