Чистота — залог энергоздоровья ЦОДа, или как уход за ДГУ влияет на SLA

Без надежного резервного электроснабжения нет гарантий бесперебойной работы дата-центра. Поэтому мы решили посвятить этой теме сразу несколько постов. Ранее мы уже рассказывали про систему топливного мониторинга ЦОДа Linxdatacenter в Санкт-Петербурге. Сегодня расскажем, как правильно ухаживать за важнейшим элементом резервного энергопитания — дизель-генераторной установкой (ДГУ)

Андрей Чеснов

Главный энергетик Linxdatacenter в Санкт-Петербурге

Без надежного резервного электроснабжения нет гарантий бесперебойной работы дата-центра. Поэтому мы решили посвятить этой теме сразу несколько постов. Ранее мы уже рассказывали про систему топливного мониторинга ЦОДа Linxdatacenter в Санкт-Петербурге. Сегодня расскажем, как правильно ухаживать за важнейшим элементом резервного энергопитания — дизель-генераторной установкой (ДГУ).

TPM для ДГУ

Для обеспечения надежности, безотказной работы и долговечности ДГУ необходимо проводить ежедневные обходы и осмотры, регулярное техобслуживание согласно графику, а также контраварийные тренировки для дежурного персонала.

В этом заключается основной объем работ, обязательный для всех элементов системы электроснабжения. Но такое важное, технологически сложное оборудование, как ДГУ, требует дополнительного комплекса работ для повышения надежности, который описывается концепцией TPM (Total Productive Maintenance).

TPM – это концепция менеджмента управления производством, первоначально внедренная японскими компаниями. Основная идея заключается в непрерывном улучшении процессов ТО и планового ремонта, работе по принципу «ноль дефектов» и систематическом устранении всех источников потерь. Чтобы не отпугнуть читателей, мы пропустим описание всех столпов и философии этой концепции и перейдем сразу к практическому смыслу и внедрению.

Регламент работ по обслуживанию ДГУ с применением TPM состоит из:

очиcтки оборудования;
проверки оборудования;
выявления и устранения мелких дефектов;
выявления прогрессирующего износа деталей.

Также концепция предусматривает еще несколько важных принципов:

«сам заботишься о своем оборудовании», т.е. персонал сам выполняет все регулярное обслуживание оборудования, за работой которого постоянно наблюдает;
мелкие недостатки оборудования должны оперативно устраняться, так как их накопление приводит к крупным поломкам и авариям, что в значительной степени увеличивает время простоя оборудования при их устранении;
обслуживание по TPM – не только формальная очистка, но и тщательный осмотр.

Больше, чем чистка

Как это выглядит на практике в дата-центре?

TPM занимаются четверо инженеров-электриков, и за каждым из них закреплен свой ДГУ с площадкой и коммуникациями.

Для проведения работ по ТРМ требуется соблюдение требований безопасности. Для этого мы применяем подходы, описанные нами в рамках проекта системы Lock Out Tag Out. Каждый раз перед началом работ проводятся мероприятия по отключению оборудования и блокировки пуска ДГУ. Тем самым мы придерживаемся принципа Safety First – безопасность превыше всего.

Раз в неделю инженер-электрик удаляет грязь и пыль ветошью с закрепленного за ним ДГУ, осматривает и проверяет состояние технологических узлов, уровень технических жидкостей по меркам, ликвидирует мелкие дефекты.

Физическая чистота в буквальном смысле слова является краеугольным камнем TPM. Мы устраняем подтеки масла или антифриза, ослабление болтов, проверяем плотность закрутки фильтров и крепление шлангов для превентивного обнаружения «слабых звеньев» и мелких дефектов в ДГУ и их устранения в кратчайшие сроки.

Все процедуры проводятся по чек-листу, где зафиксирован подробный порядок действий сотрудника.

Поскольку ДГУ состоит из множества сложных узлов, со своими функциями и особенностями работы, мелкие недостатки возникают постоянно. Поэтому так важно держать на контроле именно ранние стадии износа деталей, оперативно их устраняя. Это во многом похоже на то, как на станции техобслуживания моют ваш личный автомобиль, а специалист-автослесарь проводит затем профилактический осмотр.

В концепции TPM мы сами выполняем эти действия со своим «автомобилем» (то есть с ДГУ), с заботой о нем.

Логическим завершением работ становится тестовый запуск ДГУ для проверки работоспособности системы.

Важно, чтобы работники постоянно повышали уровень своих знаний об особенностях работы всех систем ДГУ. Конечно, оперативный персонал не может проводить сложные ремонты, но получение дополнительных знаний и обмен опытом со специалистами по ремонту повысит уверенность в своих силах у дежурных.

Периодическая очистка, совмещенная с проверкой оборудования, приводит к реальным результатам и позволяет предотвращать внезапные и износовые отказы.

Что мы обнаруживаем в процессе очистки

Удаление грязи и пыли спасает от раннего абразивного износа движущихся частей. Осмотр и проверка позволяет найти ослабления креплений хомутов, болтов, клемм, нарушение изоляции проводов.

Можно обнаружить такие мелкие проблемы, как трещины на изоляции на перемычке аккумуляторов, ослабление клемм на низковольтном генераторе, разболтанные хомуты на турбинах, протечки в фильтрах (риск утечки масла в процессе работы) и т.д.

Вот, к примеру, трещина:

Так выглядит протечка масла из-за незатянутого масляного фильтра:

Только после устранения таких «мелочей» и успешного контрольного запуска система считается готовой для ввода в эксплуатацию и может гарантировать полную энергетическую безопасность ЦОДа, и, как следствие, возможность выполнения SLA в разрезе требований Uptime. Профилактика всех ключевых систем дата-центра и бережное отношение к оборудованию позволяет значительно снизить риски аварийных ситуаций. Ведь очень часто критические аварии в ЦОДе – это инциденты в результате халатности, которые могут повлечь за собой даже отказ ДГУ.

Эффекты и результаты

Главный положительный момент – улучшение состояния оборудования и качества рабочей среды в зале. Регулярно выполняя простые, но продуманные процедуры, мы получаем абсолютно чистый машинный зал, чистое оборудование.

Клиенты ЦОДа в любой момент времени могут попросить оценить состояние оборудования резервного источника. Туда можно зайти даже в деловом костюме, из специальных средств индивидуальной защиты требуются только наушники, поскольку комплекс ДГУ в процессе работы производит очень сильный шум.

Важнейший момент всего проекта – персонализация ответственности. В нашем случае каждый инженер знает, за какую машину отвечает – это дает необходимый уровень вовлеченности в работу.

Комплекс ДГУ должен работать как часы, именно поэтому все эти процедуры по регламенту TPM играют такую важную роль в системе энергобезопасности ЦОДа в целом.

Общий регламент работ по уходу за ДГУ у нас выглядит так:
habr

Отметим, что регламент и его идеология полностью применимы к любой критически важной системе энергоснабжения в целом. Также важно следить за чистотой и состоянием работы ИБП. Пыль, например, может влиять на работу вентиляторов и вывести ИБП из строя в самый неподходящий момент. О том, как мы боремся с пылью, мои коллеги рассказывали в одной из наших первых статей на Хабре.

Статья на Хабре