Андрей Чеснов
Главный энергетик компании Linxdatacenter
31.05.2021

Мониторинг дизель-генераторов: как повысить энергобезопасность в ЦОДе

Один из важнейших параметров работы дата-центров – это энергетическая безопасность. Именно поэтому мы решили подключить к новой системе мониторинга инженерных систем в наших ЦОДах систему дизель-генераторных установок (ДГУ). Рассказываем, как мы это сделали и на что это влияет

Андрей Чеснов,

главный энергетик компании Linxdatacenter

Мониторинг дизель-генераторов: как повысить энергобезопасность в ЦОДе

Один из важнейших параметров работы дата-центров – это энергетическая безопасность. Именно поэтому мы решили подключить к новой системе мониторинга инженерных систем в наших ЦОДах систему дизель-генераторных установок (ДГУ). Рассказываем, как мы это сделали и на что это влияет.

Некоторое время назад мы реализовали проект по обновлению BMS – системы мониторинга инженерных систем на нашей площадке в Санкт-Петербурге. Об этом непростом процессе можно почитать в наших постах на Хабре. После успешного запуска новой BMS встал вопрос о поэтапной интеграции в систему мониторинга всех ключевых инженерных систем. И система ДГУ стала одной из первых. Ранее мы уже организовали топливный мониторинг ДГУ в Linxdatacenter и понимали всю важность контроля именно этой системы в ЦОДе.

Реалтайм-контроль для ДГУ: как делать

Мониторинг ДГУ при помощи BMS дает ЦОДу новый уровень скорости операционного управления в режиме real time и в целом повышает надежность работы дата-центра. Быстрее и точнее распознаются аварийные ситуации или признаки их возможного скорого наступления – значит, быстрее предпринимаются шаги по нормализации работы.

Например, в системе есть предупреждения о событиях, которые напрямую не влияют на работу систем ЦОДа, но, если их игнорировать достаточно долгое время, это может привести к отключениям оборудования. К такому виду оповещений относится перегрузка системы – при сохранении роста потребляемой мощности это вызовет падение системы целиком. Долго такие оповещения игнорировать нельзя, хотя внезапной остановки всего ЦОДа эти события и не вызовут.

Что умеет BMS

Наш проект по интеграции системы ДГУ в BMS пока еще не завершен, но решение уже многое умеет.

Сейчас система ДГУ передает в BMS данные о состоянии автоматов – «вкл/выкл», наличии аварийных ситуаций, показатели напряжения и частоты тока. После завершения интеграции добавятся также данные о состоянии самих установок ДГУ «вкл/выкл», общем напряжение на ДГУ, температура охлаждающей жидкости, данные о давлении масла, частоте вращения турбин, «мото-часы» (время активной работы установки), киловатт-часы и температурные параметры окружающей среды.

В сумме получается довольно много данных, которые позволяют получать максимально общую и точную картину. Можно будет запускать «выпадающий список» для выбора необходимых оператору в текущий момент критериев оценки работы системы ДГУ. Например, можно ввести систему расхода топлива и электроэнергии, чтобы «мото-часы» можно было определять дистанционно.

Система мониторинга ДГУ рассчитана на работу в режиме 24 часа в сутки, включая тренировочные запуски установок и фиксацию тестовых показателей. Таким образом, система обеспечивает полное сопровождение жизненного цикла ДГУ, не только для real time задач, но и для исторического анализа с прогнозными задачами на базе данных журнала дефектов и неполадок. Каждый тестовый запуск ДГУ фиксируется в специальном журнале вместе со всеми обнаруженными неисправностями, ФИО ответственного сотрудника, способами и результатами устранения неполадок. В итоге мы имеем полную историю событий по каждой конкретной ДГУ.

При этом мы сознательно отказались от «соблазнов автоматизации»: дистанционного управления ДГУ не предусмотрено, хотя чисто технически такая возможность существует. Поскольку комплекс установок находится в шаговой доступности для инженеров ЦОДа, лучше оценивать текущую ситуацию своими глазами и собственными руками вносить необходимые коррективы. Ведь к ошибке в работе ДГУ может привести несколько факторов. Если продиагностировать сбой неправильно и просто автоматически перезапустить установку, то ситуация простым «ресетом» может не исправиться, а время будет упущено.

Необходимость личного осмотра снижает влияние человеческого фактора: устраняются риски случайного нажатия не той кнопки на панели управления, которое, будучи незамеченным и неосознанным, может при этом уронить всю систему.

Искушение автоматизацией – например, через внедрение ИИ-функционала в мониторинг – безусловно присутствует. Но в той части инженерных систем ЦОДа, которые отвечают за энергетику, автоматизацию управления и использование ИИ мы не увидим еще очень долго как раз из-за рисков безопасности, пропорционально возрастающих с каждым таким апгрейдом.

Какие типичные неполадки умеет «ловить» BMS?

Чаще всего в работе ДГУ фиксируются ошибки синхронизации и включения автоматов. Например, пришел сигнал на запуск ДГУ, и две установки включились одновременно – это неправильно, так как вызывает просадку напряжения, при достижении минимально допустимого значения напряжения автомат отключается, происходит ошибка в работе системы в целом. Теперь BMS умеет оповещать о таких ошибках дежурного инженера, который должен оценить ситуацию лично. Если установка не запустилась, есть инструкция, как перезапустить ее вручную, после чего событие заносится в журнал – «произошел неудачный пуск, проведен перезапуск, проблема устранена» и т. д.

Аналогичная ситуация может возникнуть при распределении нагрузки. Одна машина не запустилась при старте, остальные, перераспределив нагрузку между собой, могут получить предупреждение о достижении максимального порога мощности. Тогда в системе мониторинга появится предупреждение, которое подскажет, что надо предпринять для недопущения остановки всего дизель-генераторного комплекса.

Система мониторинга способна сегодня показать, ошибка какого типа произошла, благодаря чему технические специалисты уже заранее готовы и имеют сценарий реагирования на инцидент.

Почему все это важно?

Системы гарантированного и резервного электроснабжения в ЦОДе – важный элемент общей отказоустойчивости дата-центра. ДГУ в трактовке вопросов энергообеспечения ЦОДов от Uptime Institute является основным источником питания, поскольку при наступлении перебоев с внешним электроснабжением он становится единственным источником с критическим по важности значением качества работы.

Сегодня ДГУ и схема резервного энергоснабжения дают нам порядка 60 часов бесперебойной работы ЦОДа на полной мощности – доступны 17 м 3 резервного топливохранилища, а также две расходные емкости по 1 м 3 .

В результате полной интеграции системы ДГУ в BMS мы сможем мониторить этот важнейший элемент ЦОДа в режиме 24/7, вовремя предотвращать серьезные ошибки, сокращать время реагирования и поиска причин инцидентов, а также видеть всю историю работы каждого ДГУ как в ретроспективе, так и в режиме реального времени.

News and publications

You may also be interested in

How can we help you?
Request Demo Access
client:

BEST, money transfer and payments operator

business challenge

The customer faced a technical issue with a persistent BGP session flag with Linxdatacenter hardware. We examined the problem and found out that one of customer’s hosts was under a DDoS attack.

Because of the distributed nature of the attack, traffic couldn’t be filtered effectively, and disconnecting the host from the external network wasn’t an option. The attack stopped after changes in the server configuration, but resumed the day after. A 5.5 Gbps attack overloaded the junctions with internet providers, affecting other Linx Cloud users. To mitigate the effects of the attack, we employed a dedicated DDoS protection service.

Solution

To ensure the continuous availability of resources hosted in Linx Cloud, we rerouted all the customer’s traffic through StormWall Anti-DDoS system. The attack was stopped within half an hour. To prevent future cyberattacks, we organized all connections to the customer’s resources through the StormWall network.

Thank you for your inquiry, we will get back to you shortly!