Андрей Чеснов
Главный энергетик Linxdatacenter в Санкт-Петербурге
29.05.2020

Чистота — залог энергоздоровья ЦОДа, или как уход за ДГУ влияет на SLA

Без надежного резервного электроснабжения нет гарантий бесперебойной работы дата-центра. Поэтому мы решили посвятить этой теме сразу несколько постов. Ранее мы уже рассказывали про систему топливного мониторинга ЦОДа Linxdatacenter в Санкт-Петербурге. Сегодня расскажем, как правильно ухаживать за важнейшим элементом резервного энергопитания — дизель-генераторной установкой (ДГУ)

Андрей Чеснов

Главный энергетик Linxdatacenter в Санкт-Петербурге

Без надежного резервного электроснабжения нет гарантий бесперебойной работы дата-центра. Поэтому мы решили посвятить этой теме сразу несколько постов. Ранее мы уже рассказывали про систему топливного мониторинга ЦОДа Linxdatacenter в Санкт-Петербурге. Сегодня расскажем, как правильно ухаживать за важнейшим элементом резервного энергопитания — дизель-генераторной установкой (ДГУ).

TPM для ДГУ

Для обеспечения надежности, безотказной работы и долговечности ДГУ необходимо проводить ежедневные обходы и осмотры, регулярное техобслуживание согласно графику, а также контраварийные тренировки для дежурного персонала.

В этом заключается основной объем работ, обязательный для всех элементов системы электроснабжения. Но такое важное, технологически сложное оборудование, как ДГУ, требует дополнительного комплекса работ для повышения надежности, который описывается концепцией TPM (Total Productive Maintenance).

TPM – это концепция менеджмента управления производством, первоначально внедренная японскими компаниями. Основная идея заключается в непрерывном улучшении процессов ТО и планового ремонта, работе по принципу «ноль дефектов» и систематическом устранении всех источников потерь. Чтобы не отпугнуть читателей, мы пропустим описание всех столпов и философии этой концепции и перейдем сразу к практическому смыслу и внедрению.

Регламент работ по обслуживанию ДГУ с применением TPM состоит из:

  • очиcтки оборудования;
  • проверки оборудования;
  • выявления и устранения мелких дефектов;
  • выявления прогрессирующего износа деталей.

Также концепция предусматривает еще несколько важных принципов:

  • «сам заботишься о своем оборудовании», т.е. персонал сам выполняет все регулярное обслуживание оборудования, за работой которого постоянно наблюдает;
  • мелкие недостатки оборудования должны оперативно устраняться, так как их накопление приводит к крупным поломкам и авариям, что в значительной степени увеличивает время простоя оборудования при их устранении;
  • обслуживание по TPM – не только формальная очистка, но и тщательный осмотр.

Больше, чем чистка

Как это выглядит на практике в дата-центре?

TPM занимаются четверо инженеров-электриков, и за каждым из них закреплен свой ДГУ с площадкой и коммуникациями.

Для проведения работ по ТРМ требуется соблюдение требований безопасности. Для этого мы применяем подходы, описанные нами в рамках проекта системы Lock Out Tag Out. Каждый раз перед началом работ проводятся мероприятия по отключению оборудования и блокировки пуска ДГУ. Тем самым мы придерживаемся принципа Safety First – безопасность превыше всего.

Раз в неделю инженер-электрик удаляет грязь и пыль ветошью с закрепленного за ним ДГУ, осматривает и проверяет состояние технологических узлов, уровень технических жидкостей по меркам, ликвидирует мелкие дефекты.

Физическая чистота в буквальном смысле слова является краеугольным камнем TPM. Мы устраняем подтеки масла или антифриза, ослабление болтов, проверяем плотность закрутки фильтров и крепление шлангов для превентивного обнаружения «слабых звеньев» и мелких дефектов в ДГУ и их устранения в кратчайшие сроки.

Все процедуры проводятся по чек-листу, где зафиксирован подробный порядок действий сотрудника.

Поскольку ДГУ состоит из множества сложных узлов, со своими функциями и особенностями работы, мелкие недостатки возникают постоянно. Поэтому так важно держать на контроле именно ранние стадии износа деталей, оперативно их устраняя. Это во многом похоже на то, как на станции техобслуживания моют ваш личный автомобиль, а специалист-автослесарь проводит затем профилактический осмотр.

В концепции TPM мы сами выполняем эти действия со своим «автомобилем» (то есть с ДГУ), с заботой о нем.

Логическим завершением работ становится тестовый запуск ДГУ для проверки работоспособности системы.

Важно, чтобы работники постоянно повышали уровень своих знаний об особенностях работы всех систем ДГУ. Конечно, оперативный персонал не может проводить сложные ремонты, но получение дополнительных знаний и обмен опытом со специалистами по ремонту повысит уверенность в своих силах у дежурных.

Периодическая очистка, совмещенная с проверкой оборудования, приводит к реальным результатам и позволяет предотвращать внезапные и износовые отказы.

Что мы обнаруживаем в процессе очистки

Удаление грязи и пыли спасает от раннего абразивного износа движущихся частей. Осмотр и проверка позволяет найти ослабления креплений хомутов, болтов, клемм, нарушение изоляции проводов.

Можно обнаружить такие мелкие проблемы, как трещины на изоляции на перемычке аккумуляторов, ослабление клемм на низковольтном генераторе, разболтанные хомуты на турбинах, протечки в фильтрах (риск утечки масла в процессе работы) и т.д.

Вот, к примеру, трещина:

Так выглядит протечка масла из-за незатянутого масляного фильтра:

Только после устранения таких «мелочей» и успешного контрольного запуска система считается готовой для ввода в эксплуатацию и может гарантировать полную энергетическую безопасность ЦОДа, и, как следствие, возможность выполнения SLA в разрезе требований Uptime. Профилактика всех ключевых систем дата-центра и бережное отношение к оборудованию позволяет значительно снизить риски аварийных ситуаций. Ведь очень часто критические аварии в ЦОДе – это инциденты в результате халатности, которые могут повлечь за собой даже отказ ДГУ.

Эффекты и результаты

Главный положительный момент – улучшение состояния оборудования и качества рабочей среды в зале. Регулярно выполняя простые, но продуманные процедуры, мы получаем абсолютно чистый машинный зал, чистое оборудование.

Клиенты ЦОДа в любой момент времени могут попросить оценить состояние оборудования резервного источника. Туда можно зайти даже в деловом костюме, из специальных средств индивидуальной защиты требуются только наушники, поскольку комплекс ДГУ в процессе работы производит очень сильный шум.

Важнейший момент всего проекта – персонализация ответственности. В нашем случае каждый инженер знает, за какую машину отвечает – это дает необходимый уровень вовлеченности в работу.

Комплекс ДГУ должен работать как часы, именно поэтому все эти процедуры по регламенту TPM играют такую важную роль в системе энергобезопасности ЦОДа в целом.

Общий регламент работ по уходу за ДГУ у нас выглядит так:
habr

Отметим, что регламент и его идеология полностью применимы к любой критически важной системе энергоснабжения в целом. Также важно следить за чистотой и состоянием работы ИБП. Пыль, например, может влиять на работу вентиляторов и вывести ИБП из строя в самый неподходящий момент. О том, как мы боремся с пылью, мои коллеги рассказывали в одной из наших первых статей на Хабре.

Другие новости и публикации

Вас также могут заинтересовать

Linx Outsourcing
Аудит, модернизация и оптимизация ваших серверных мощностей
Подробнее
Аутсорсинг управления дата-центром
Linx Network
Обеспечьте отказоустойчивость и бесперебойную работу сети
Подробнее
Сетевые услуги
Linx DraaS
Аварийное восстановление ИТ-инфраструктуры. Защитите ИТ-системы уже сегодня!
Подробнее
Аварийное восстановление DRaaS

Напишите нам

Как мы оптимизировали управление ЦОДами клиента

Дата-центр – комплексный ИТ- и инженерный объект, требующий профессионализма на всех уровнях управления: от руководителей до технических специалистов и исполнителей эксплуатационных работ. Рассказываем, как мы помогли клиенту навести порядок в операционном управлении в корпоративных ЦОДах.
 

Тарас Чирков, руководитель ЦОД Linxdatacenter в Санкт-Петербурге 

Константин Нагорный, главный инженер ЦОД Linxdatacenter в Санкт-Петербурге 

Дата-центр – комплексный ИТ- и инженерный объект, требующий профессионализма на всех уровнях управления: от руководителей до технических специалистов и исполнителей эксплуатационных работ. Рассказываем, как мы помогли клиенту навести порядок в операционном управлении в корпоративных ЦОДах.  

В главной роли – управление 

Самое современное и дорогое ИТ-оборудование не принесет ожидаемой экономической пользы, если не будут выстроены правильные процессы эксплуатации инженерных систем ЦОДа, где оно располагается.  

Роль надежных и производительных дата-центров в современной экономике постоянно растет вместе с требованиями к их бесперебойной работе. Однако на этом направлении существует большая системная проблема.  

Высокий уровень «аптайма» – безаварийной работы дата-центра без простоев – очень сильно зависит от команды инженеров, которая занимается управлением площадки. А единой формализованной школы управления ЦОДами не существует.  

Нет какого-то сводного канона с правилами, применимыми для любого дата-центра. Есть стандарты международной отраслевой организации Uptime Institute, но они устанавливают рамки и вектор развития, к каждому конкретному дата-центру они будут применяться по-разному.  

В масштабах страны  

На практике в России ситуация с эксплуатацией ЦОДов выглядит так.  

Дата-центры из сегмента коммерческих как правило имеют сертификаты, подтверждающие компетенции в сфере управления. Далеко не все и не всегда, но сама специфика бизнес-модели, когда провайдер отвечает перед клиентом качеством сервиса, деньгами и репутацией на рынке, обязывает владеть предметом. 

Сегмент корпоративных ЦОДов, которые обслуживают собственные потребности компаний, по показателям качества эксплуатации заметно отстает от коммерческих дата-центров. К внутреннему заказчику относятся не так тщательно, как к внешнему клиенту, далеко не в каждой компании понимают потенциал хорошо настроенных управленческих процессов. 

Наконец, государственные ведомственные ЦОДы – в этом отношении они часто представляют собой неизвестную территорию в силу закрытости. Международный аудит таких объектов по понятным причинам невозможен. Российские госстандарты только разрабатываются.  

Все это выливается в ситуацию «кто во что горазд». «Разношерстный» состав команд эксплуатации из специалистов с разным бэкграундом, различные подходы к организации корпоративной архитектуры, взгляды и требования в отношении ИТ-департаментов.  

Факторов, приводящих к такому положению дел, много, один из главных – отсутствие систематизированной документации по выстраиванию эксплуатационных процессов. Есть пара вводных статей Uptime Institute, которые дают представление о проблеме и путях ее преодоления. Но дальше необходимо выстраивать систему своими силами. А на это ресурсов и компетенций хватит далеко не у каждого бизнеса.  

Между тем, даже небольшая систематизация процессов управления по лучшим отраслевым практикам всегда дает отличный результат в том, что касается повышения отказоустойчивости инженерных и ИТ-систем.  

Кейс: через тернии к относительному порядку 

Проиллюстрируем на примере реализованного проекта. К нам обратилась крупная международная компания с сетью собственных дата-центров. Запрос был на помощь в оптимизации процессов управления тремя площадками, где на серверах развернуты ИТ-системы и приложения, абсолютно критичные для бизнеса.  

Компания недавно прошла аудит головного офиса и получила список несоответствий корпоративным стандартам с предписанием их устранить. Для этого в качестве консультанта привлекли нас как носителя отраслевых компетенций: мы развиваем собственную систему управления ЦОДами и ведем просветительскую работу о роли качества эксплуатационных процессов уже несколько лет.  

Началось общение с командой клиента. Специалисты хотели получить выстроенную систему эксплуатации инженерных систем ЦОДов, зафиксированную в документации по процессам мониторинга, обслуживания и устранению неполадок. Все это должно было обеспечить оптимизацию инфраструктурной составляющей с точки зрения непрерывности работы ИТ-оборудования.  

И здесь началось самое интересное.  

Познай себя 

Чтобы оценить уровень работы ЦОДов с точки зрения соответствия стандартам, нужно знать точные требования бизнеса к ИТ-системам: каков уровень внутренних SLA, допустимый период простоя оборудования и т.д.  

Сразу же выяснилось – ИТ-департамент не знает, что именно хочет бизнес. Не было внутренних критериев качества сервиса, не было и понимания логики устройства собственной инфраструктуры.  

Коллеги просто не представляли, каково допустимое время простоя операций, завязанных на ИТ, каково оптимальное время восстановления систем в случае аварии, как устроена архитектура собственных приложений. Например, пришлось разбираться, будет ли критичным для работы приложения «падение» одного из ЦОДов, или в нем нет компонентов, влияющих на приложение.  

Не зная таких вещей, рассчитать какие-то конкретные требования к эксплуатации невозможно. Клиент осознал проблему и усилил координацию между ИТ и бизнесом, чтобы выработать внутренние требования и наладить взаимосвязи для выстраивания работы.  

Когда было достигнуто понимание архитектуры ИТ-систем, команда смогла суммировать требования к службе эксплуатации, подрядчикам и к уровню надежности оборудования.  

Улучшения в процессе 

Наши специалисты выезжали на площадки для оценки инфраструктуры, читали имеющуюся документацию, проверяли уровень соответствия проектов ЦОДов фактической реализации.  

Отдельным направлением стали опросы ответственных сотрудников и их руководителей. Они рассказывали, что и как они делают в различных рабочих ситуациях, как устроены ключевые процессы эксплуатации инженерных систем.  

После начала работ и знакомства со спецификой задачи клиент немного «сдал назад»: мы услышали просьбу «просто написать всю необходимую документацию», по-быстрому и без глубокого погружения в процессы.  

Однако правильная оптимизация управления «инженеркой» ЦОДа предполагает выполнение задачи научить людей правильно оценивать процессы и писать под них уникальную документацию исходя из специфики конкретного объекта.  

Придумать рабочий документ за конкретного начальника участка службы эксплуатации невозможно – если только не проработать в паре с ним на площадке безотрывно несколько месяцев. Поэтому такой подход был отклонен: мы находили лидеров на местах, которые были готовы учиться сами и вести за собой подчиненных.  

Объяснив алгоритм создания документов, требования к их содержанию и принципы организации экосистемы инструкций, шесть последующих месяцев мы контролировали процесс детального написания документации и поэтапный переход персонала к работе по-новому. 

Далее последовал этап первичной поддержки работ по обновленным регламентам, который в удаленном формате продолжался один год. Затем мы перешли к тренингам и учениям – единственный путь закрепления нового материала на практике.  

Что сделано 

В процессе работ нам удалось решить несколько серьезных вопросов.  

Прежде всего, мы избежали ведения двойной документации, которой опасались сотрудники клиента. Для этого соединили в новых регламентах нормативные требования, применяющиеся к различным инженерным системам стандартно (электрика, охлаждение, контроль доступа), с отраслевыми best practices, создав прозрачную структуру документации с простой и логичной навигацией.  

Принцип «просто найти, просто понять, легко запомнить» дополнился тем, что новая информация привязывается к старому опыту и знаниям сотрудников. 

Далее мы перетряхнули штат инженеров службы эксплуатации: несколько человек оказались полностью неготовыми к переменам. Сопротивление некоторых успешно преодолевалось по ходу проекта через демонстрацию преимуществ, но определенный процент сотрудников оказался необучаем и невосприимчив к новому.  

Но нас удивило легкомысленное отношение компании к своей ИТ-инфраструктуре: от отсутствия резервирования критичных систем до хаоса в структуре и управлении.  

За 1,5 года процессы управления инженерными системами были прокачаны до уровня, который позволил специалистам компании успешно отчитаться «за качество» перед аудиторами из головного офиса.  

При поддержке темпов развития эксплуатационной составляющей компания сможет самостоятельно пройти любую существую сертификацию ЦОДов от ведущих международных агентств.  

Выводы 

В целом перспективы консалтинга в сфере операционного управления дата-центрами, по нашему мнению, самые яркие.  

Процесс цифровизации экономики и госсектора идет полным ходом. Да, сейчас будет много корректировок запуска новых проектов и планов по развитию старых, но сути это не изменит – эксплуатацию нужно улучшать хотя бы для повышения КПД уже построенных площадок.  

Главная проблема здесь: многие руководители не понимают, по какому тонкому льду они идут, не уделяя этому моменту должного внимания. Человеческий фактор по-прежнему остается главным источником самых неприятных аварий и сбоев. И это нужно объяснять.  

Государственные проекты в сфере дата-центров также становятся более актуальны сейчас и требуют повышенного внимания с точки зрения эксплуатации: сфера государственных ИТ-систем растет. Здесь также потребуется разработка и ввод системы стандартизации и сертификации площадок.  

Когда требования к государственным ЦОДам в РФ на уровне законодательного акта будут сведены в стандарт, его можно будет применять и для коммерческих дата-центров, в том числе и для размещения государственных ИТ-ресурсов.  

Работы по этому направлению ведутся, мы участвуем в этом процессе в рамках консультаций с Минцифры и наращивая компетенции по преподаванию на курсах по эксплуатации дата-центров в АНО ЦОД. Опыта по таким задачам в России не много, и мы считаем, что должны им делиться с коллегами и клиентами. 

Чистота — залог энергоздоровья ЦОДа, или как уход за ДГУ влияет на SLA

БЭСТ, оператор системы денежных переводов и платежей.

Бизнес-вызов

Компания столкнулась с проблемой постоянного флага BGP-сессии с оборудованием Linxdatacenter. После изучения проблемы стало ясно, что на один из хостов в его сети происходила DDoS-атака.

Из-за распределенного характера атаки отфильтровать трафик было невозможно. Инженеры предложили решение, связанное с сокрытием хоста от внешней сети, но этот вариант не подходил заказчику. Атака прекратилась после внесения изменений в конфигурацию сервера, однако возобновилась на следующий день. Ее мощность достигла 5,5 Гбит/с, из-за чего перегружались «стыки» с интернет-провайдерами, что сказывалось на других пользователях облака Linxdatacenter. Чтобы обеспечить стабильную работу, было решено обратиться к надежному поставщику защиты от DDoS.

Решение

Чтобы обеспечить непрерывную доступность ресурсов, размещенных в облаке Linxdatacenter, весь трафик клиента был направлен через систему antiDDoS от StormWall. Атаку удалось погасить в течение получаса. Для предотвращения дальнейших кибератак все соединения сервисов клиента с интернетом были организованы через сеть StormWall.

Клиент:

БЭСТ, оператор системы денежных переводов и платежей.

Бизнес-вызов

Компания столкнулась с проблемой постоянного флага BGP-сессии с оборудованием Linxdatacenter. После изучения проблемы стало ясно, что на один из хостов в его сети происходила DDoS-атака.

Из-за распределенного характера атаки отфильтровать трафик было невозможно. Инженеры предложили решение, связанное с сокрытием хоста от внешней сети, но этот вариант не подходил заказчику. Атака прекратилась после внесения изменений в конфигурацию сервера, однако возобновилась на следующий день. Ее мощность достигла 5,5 Гбит/с, из-за чего перегружались «стыки» с интернет-провайдерами, что сказывалось на других пользователях облака Linxdatacenter. Чтобы обеспечить стабильную работу, было решено обратиться к надежному поставщику защиты от DDoS.

Решение

Чтобы обеспечить непрерывную доступность ресурсов, размещенных в облаке Linxdatacenter, весь трафик клиента был направлен через систему antiDDoS от StormWall. Атаку удалось погасить в течение получаса. Для предотвращения дальнейших кибератак все соединения сервисов клиента с интернетом были организованы через сеть StormWall.

Спасибо за ваш запрос, мы свяжемся с вами в ближайшее время!