Тарас Чирков
Руководитель ЦОДа Linxdatacenter в Санкт-Петербурге
21.10.2020

Нет предела совершенству: как мы обновили сертификацию ЦОДа по стандарту Uptime M&O

Тарас Чирков

Руководитель ЦОДа Linxdatacenter в Санкт-Петербурге

ЦОД Linxdatacenter в Санкт-Петербурге подтвердил свое соответствие стандартам Uptime Institute в области операционного управления. Мы обновили действие сертификата Management & Operations Stamp of Approval, заметно улучшив свои показатели по сравнению с первым аудитом. Рассказываем, как нам это удалось и к чему мы будем стремиться в своем развитии далее.

Что это и как работает

Uptime Institute, согласно определению на сайте самой организации, — это «неангажированная консалтинговая организация, чья деятельность направлена на улучшение производительности, эффективности и надежности ключевой инфраструктуры бизнеса посредством инноваций, сотрудничества и независимой сертификации производительности».

www.uptimeinstitute.com

За официальной формулировкой скрывается простая бизнес-модель. Эксперты института обладают огромным опытом работы в сфере оценки инженерной инфраструктуры дата-центров и качества их операционных процессов и применяют свои знания и отраслевые стандарты к практикам конкретных ЦОДов. Площадки проходят сертификацию, получая по ее итогам определенный балл – оценку уровня соответствия.

Сертификация Uptime Institute признана во всем мире. Организация создала и занимается развитием отраслевых стандартов Tier для проектирования, строительства и эксплуатации ЦОДов, а также Management & Operations Stamp of Approval. Он используется для оценки процессов управления и эксплуатации ЦОДов в перспективе обеспечения отказоустойчивости инфраструктуры.

Сертификация по уровням Tier I и Tier II– это базовый уровень требований к надежности и отказоустойчивости инженерных систем объекта. В России практически все сертифицированные Uptime дата-центры – это Tier III.

Management & Operations Stamp of Approval нацелен на решение проблем эксплуатации инфраструктуры коллективом ЦОДа.

M&O как защита от человеческого фактора

Согласно статистике, около 40% компаний, которые пережили масштабный сбой на уровне ИТ-инфраструктуры, уходят из бизнеса в течение 2-х лет. По мере цифровой трансформации простои и сбои в работе по вине ИТ-составляющей бизнеса будут бить по репутации и конкурентоспособности все больнее с каждым годом, если не месяцем.

Можно сказать, что сегодня вряд ли кто-то знает лучше, чем Uptime Institute, что и как чаще всего выходит из строя в типичном ЦОДе. И если стандарт инженерного обеспечения Tier раскрывает эту тему со стороны «железа», то сертификация Management & Operations помогает улучшить работу дата-центров по другому направлению.

Этот стандарт стал итогом разбора специалистами Uptime Institute 6000 кейсов по отказам дата-центров, собранных ими за 20 лет наблюдений. Выяснилось, что более 75% сбоев обусловлено человеческим фактором.

Unplash.com

Человеческий фактор включает в себя ошибки оператора, но, что более важно, также говорит о принятии неверных управленческих решений в отношении комплектования штата, выстраивания процессов обслуживания, обучения и общей тщательности выполнения работы. Независимо от топологии инфраструктуры дата-центра, человеческий фактор представляет наибольший риск для его работоспособности.

Эксперты Uptime Institute считают, что правильно управляемый дата-центр может достигать уровня доступности, превышающего уровень, ожидаемый от имеющейся инфраструктуры, за счет надлежащего количества и качества квалифицированного персонала, использующего в своей практике соответствующие процессы и процедуры.

Для минимизации ошибок персонала и руководства дата-центров и был разработан стандарт, включающий в себя перечень категорий с требованиями Uptime по стандартизации процессов эксплуатации и управления персоналом дата-центра. Список категорий составлен в соответствии со значимостью вклада в общую статистику отказов: кадровые ресурсы и организация штата (35 баллов), техническое обслуживание (30 баллов), обучение (20 баллов), планирование, координация и управление (10 баллов), условия труда (5 баллов).

Как показала практика членов профессионального сообщества, систематический подход к организации труда в дата-центре, будь то обучение персонала, наличие инструкций, регламентное обслуживание или описание действий в чрезвычайных ситуациях, сокращает количество отказов минимум в 3 раза.

Три кита

Институт внедрил метод измерения эффективности сотрудников ЦОДа, основанный на трех принципах операционной устойчивости — проактивность, практичность и информированность. Для того чтобы профессиональное поведение считалось эффективным, необходимо соблюдение всех трех принципов.

Проактивный подход заключается в том, чтобы спрогнозировать наступление события и проработать все соответствующие процессы и процедуры его отработки, при этом постоянно совершенствуя действия.

Практичность состоит в способности постоянного соблюдения на площадке всех установленных процессов и процедур. Когда определенная задача или процедура всегда выполняется одинаково, независимо от конкретного исполнителя, это свидетельствует о должной реализации этого принципа.

Информированность определяется тем, все ли сотрудники дата-центра осведомлены об установленных процессах и процедурах, имеют ли они доступ к полной информации о своих задачах на площадке. Также сотрудники обязаны знать, где, в случае наступления внештатной ситуации, можно найти все необходимые инструкции и требования по каждому вмененному в их обязанности процессу.

Россия ЦОДовая – держава мировая

По данным Uptime Institute, в нашей стране работает примерно 2,5% всего объема эксплуатируемых серверов в мире. При этом, на РФ приходится 5% всех выданных сертификатов Uptime. Можно сказать, что Россия по этому показателю как минимум находится на среднемировом уровне, или даже немного превышает его.

Главная аудитория организации в РФ – крупные ЦОДы, что связано чисто с экономическими причинами. Ценообразование на сертификацию зависит от размеров объекта, пусть и нелинейно. Например, сертификация крупного корпоративного ЦОДа обходится в 0,01% от стоимости площадки, что при тщательности и глубине тестирования окупится довольно быстро и многократно.

Linxdatacenter.com

Процедуры сертификации позволяют глубже понять особенности работы площадки на всех уровнях: от собственников и высшего руководства дата-центра до тех, кто управляет работой отдельных систем на каждом конкретном участке.

Маркетинговая ценность сертификации – огромна: даже те руководители потенциальных клиентов ЦОДа, кто далек от детального понимания сути процесса, знают, что сертификат Uptime означает «этой площадке можно доверять». На потребительском уровне она ассоциируется с понятием «качество».

M&O и мы

Первый аудит Uptime Institute с оценкой квалификации персонала ЦОДа Linxdatacenter в Санкт-Петербурге, а также аттестацией процессов эксплуатации оборудования и политик, регламентирующих функционирование объекта, был проведен в 2018 году. Если по итогам первой аттестации Linxdatacenter набрал 84 балла из 100 возможных, то в 2020 году мы получили оценку в 95,1.

Linxdatacenter.com

Это не только серьезный прогресс в соревновании с самими собой, но и значительное превышение средних показателей дата-центров, регулярно проходящих сертификацию Uptime Institute. Средний показатель повторной аттестации, когда ЦОД провел работу над ошибками – 93,7.

Данный результат свидетельствует о том, что эксплуатация дата-центра по-прежнему осуществляется с высокой эффективностью, а внедренные методы позволяют минимизировать риск сбоев по вине человеческого фактора.

Что порекомендовали

Совершенство недостижимо – поэтому мы получили от специалистов Uptime несколько рекомендаций по дальнейшим улучшениям.

Так, деятельность по техобслуживанию осуществляется с использованием чек-листов и процедурных методик. Чек-листы для оперативных групп очень подробны, но в них нет полей для отметки выполненных шагов.

Выполненные шаги отмечаются только в чек-листах для поставщиков. Институт рекомендовал, чтобы мы добавили дополнительные поля в существующие чек-листы для обеспечения более строгого контроля за профилактическим обслуживанием, гарантируя выполнение всех шагов в соответствии с методиками для гарантии последовательности и уменьшения вероятности человеческих ошибок.

Unsplash.com
Процедура контроля качества должна быть формализована и осуществляться на регулярной основе.

Второй момент: большинство операционных процессов у нас описаны в различных письменных документах. Для их регулирования Uptime рекомендует создать матрицу или блок-схемы ответственных и подотчетных лиц, а также информированного выполнения для всех процессов, связанных с эксплуатацией, поддержкой и обеспечением безопасности в дата-центре.

Возможно, для удовлетворения обеих рекомендаций нужно будет разработать электронный формат контроля за выполнением различных процедур, чтобы ответственный специалист проставлял отметки о выполнении в чек-боксах цифрового документа.

За что похвалили

Цитата из заключения комиссии Uptime Institute: «Компания добилась в своей практике эффективного сочетания компетенций технических специалистов по эксплуатации объектов Linxdatacenter и аутсорсинговых поставщиков, которые безупречно взаимодействуют друг с другом для обеспечения успешной эксплуатации и обслуживания дата-центра.

Качество укомплектованности штата компании позволяет выполнять любые задачи на площадке в случае экстренного или незапланированного отсутствия определенных специалистов».

За 10 лет работы ЦОДа Linxdatacenter, сталкиваясь с потенциальными угрозами и аварийными ситуациями, команда приобрела ценный опыт по координации действий в стрессовых условиях. Комиссия отметила, что этот опыт нашел отражение в документации по процедурам аварийной эксплуатации (EOP – Emergency Operations Procedures).

Высокую оценку также получили наши проекты по апгрейду инженерных систем дата-центра.

Мы последовательно совершенствовали целый комплекс подсистем и групп процессов управления ЦОДом, от профилактического ухода за дизель-генераторными установками и анализа качества поставляемого топлива для них, контроля уровня давления и «подпора» воздуха в серверных в помещениях и предотвращения загрязнения воздуха, до серьезной модернизации и повышения точности системы управления зданием (BMS), а также внедрения в эксплуатацию широкого спектра компонентов системы LOTO.

Linxdatacenter.com

Также были реализованы дополнительные программы диагностического обслуживания. Контроль подачи питания системе резервных батарей позволяет своевременно выявлять дефектные юниты и производить их замену с тем, чтобы предотвратить перезарядку или недозарядку цепочек ИБП.

Регулярные измерения и отслеживание изменений уровней вибраций оборудования поддерживают износ критических компонентов систем охлаждения и вентиляции под единым контролем и повышают доступность ресурсов площадки.

Работа на опережение

Некоторые практики Linxdatacenter – в частности, методика контроля качества топлива, система регулярной проверки знаний у дежурных инженеров – были особо отмечены экспертной комиссией и включены в состав обучающих курсов Uptime Institute по эксплуатации ЦОД в качестве best practices.

Также, на настоящий момент ЦОД Linxdatacenter в Санкт-Петербурге остается единственным коммерческим дата-центром в России с действующим сертификатом Management & Operations Stamp of Approval. Главный итог прохождения сторонних аудитов, особенно в соответствии с требованиями Uptime Institute – процесс подготовки к аттестации позволяет мобилизовать ресурсы команды настолько, что наш ЦОД стал в значительной мере опережать запросы со стороны проверяющих эксплуатацию.

Другие новости и публикации

Статья
09.08.2022
ИБ в условиях дефицита: стратегия большого перехода
Новость
01.08.2022
Linxdatacenter – в топ-10 крупнейших поставщиков услуг ЦОД
Новость
25.07.2022
Linxdatacenter запускает собственные PaaS-инструменты
Новость
20.07.2022
Петербургское облако Linxdatacenter прошло аттестацию по ...
Статья
30.06.2022
Как мы оптимизировали управление ЦОДами клиента
Новость
27.06.2022
Linxdatacenter: рынок российских облаков вырастет в 2022 ...
Новость
26.05.2022
Анна Мальми назначена региональным директором Linxdatacen...
Статья
20.05.2022
Облачный край: что происходит на российском рынке
Новость
13.05.2022
Новым генеральным директором Linxdatacenter назначен Андр...
Статья
03.05.2022
Блок на моноблок: модульная ИБП-революция в ЦОДах

Вас также могут заинтересовать

Linx Outsourcing
Аудит, модернизация и оптимизация ваших серверных мощностей
Подробнее
Аутсорсинг управления дата-центром
Linx Network
Обеспечьте отказоустойчивость и бесперебойную работу сети
Подробнее
Сетевые услуги
Linx DraaS
Аварийное восстановление ИТ-инфраструктуры. Защитите ИТ-системы уже сегодня!
Подробнее
Аварийное восстановление DRaaS

Напишите нам

Как мы оптимизировали управление ЦОДами клиента

Дата-центр – комплексный ИТ- и инженерный объект, требующий профессионализма на всех уровнях управления: от руководителей до технических специалистов и исполнителей эксплуатационных работ. Рассказываем, как мы помогли клиенту навести порядок в операционном управлении в корпоративных ЦОДах.
 

Тарас Чирков, руководитель ЦОД Linxdatacenter в Санкт-Петербурге 

Константин Нагорный, главный инженер ЦОД Linxdatacenter в Санкт-Петербурге 

Дата-центр – комплексный ИТ- и инженерный объект, требующий профессионализма на всех уровнях управления: от руководителей до технических специалистов и исполнителей эксплуатационных работ. Рассказываем, как мы помогли клиенту навести порядок в операционном управлении в корпоративных ЦОДах.  

В главной роли – управление 

Самое современное и дорогое ИТ-оборудование не принесет ожидаемой экономической пользы, если не будут выстроены правильные процессы эксплуатации инженерных систем ЦОДа, где оно располагается.  

Роль надежных и производительных дата-центров в современной экономике постоянно растет вместе с требованиями к их бесперебойной работе. Однако на этом направлении существует большая системная проблема.  

Высокий уровень «аптайма» – безаварийной работы дата-центра без простоев – очень сильно зависит от команды инженеров, которая занимается управлением площадки. А единой формализованной школы управления ЦОДами не существует.  

Нет какого-то сводного канона с правилами, применимыми для любого дата-центра. Есть стандарты международной отраслевой организации Uptime Institute, но они устанавливают рамки и вектор развития, к каждому конкретному дата-центру они будут применяться по-разному.  

В масштабах страны  

На практике в России ситуация с эксплуатацией ЦОДов выглядит так.  

Дата-центры из сегмента коммерческих как правило имеют сертификаты, подтверждающие компетенции в сфере управления. Далеко не все и не всегда, но сама специфика бизнес-модели, когда провайдер отвечает перед клиентом качеством сервиса, деньгами и репутацией на рынке, обязывает владеть предметом. 

Сегмент корпоративных ЦОДов, которые обслуживают собственные потребности компаний, по показателям качества эксплуатации заметно отстает от коммерческих дата-центров. К внутреннему заказчику относятся не так тщательно, как к внешнему клиенту, далеко не в каждой компании понимают потенциал хорошо настроенных управленческих процессов. 

Наконец, государственные ведомственные ЦОДы – в этом отношении они часто представляют собой неизвестную территорию в силу закрытости. Международный аудит таких объектов по понятным причинам невозможен. Российские госстандарты только разрабатываются.  

Все это выливается в ситуацию «кто во что горазд». «Разношерстный» состав команд эксплуатации из специалистов с разным бэкграундом, различные подходы к организации корпоративной архитектуры, взгляды и требования в отношении ИТ-департаментов.  

Факторов, приводящих к такому положению дел, много, один из главных – отсутствие систематизированной документации по выстраиванию эксплуатационных процессов. Есть пара вводных статей Uptime Institute, которые дают представление о проблеме и путях ее преодоления. Но дальше необходимо выстраивать систему своими силами. А на это ресурсов и компетенций хватит далеко не у каждого бизнеса.  

Между тем, даже небольшая систематизация процессов управления по лучшим отраслевым практикам всегда дает отличный результат в том, что касается повышения отказоустойчивости инженерных и ИТ-систем.  

Кейс: через тернии к относительному порядку 

Проиллюстрируем на примере реализованного проекта. К нам обратилась крупная международная компания с сетью собственных дата-центров. Запрос был на помощь в оптимизации процессов управления тремя площадками, где на серверах развернуты ИТ-системы и приложения, абсолютно критичные для бизнеса.  

Компания недавно прошла аудит головного офиса и получила список несоответствий корпоративным стандартам с предписанием их устранить. Для этого в качестве консультанта привлекли нас как носителя отраслевых компетенций: мы развиваем собственную систему управления ЦОДами и ведем просветительскую работу о роли качества эксплуатационных процессов уже несколько лет.  

Началось общение с командой клиента. Специалисты хотели получить выстроенную систему эксплуатации инженерных систем ЦОДов, зафиксированную в документации по процессам мониторинга, обслуживания и устранению неполадок. Все это должно было обеспечить оптимизацию инфраструктурной составляющей с точки зрения непрерывности работы ИТ-оборудования.  

И здесь началось самое интересное.  

Познай себя 

Чтобы оценить уровень работы ЦОДов с точки зрения соответствия стандартам, нужно знать точные требования бизнеса к ИТ-системам: каков уровень внутренних SLA, допустимый период простоя оборудования и т.д.  

Сразу же выяснилось – ИТ-департамент не знает, что именно хочет бизнес. Не было внутренних критериев качества сервиса, не было и понимания логики устройства собственной инфраструктуры.  

Коллеги просто не представляли, каково допустимое время простоя операций, завязанных на ИТ, каково оптимальное время восстановления систем в случае аварии, как устроена архитектура собственных приложений. Например, пришлось разбираться, будет ли критичным для работы приложения «падение» одного из ЦОДов, или в нем нет компонентов, влияющих на приложение.  

Не зная таких вещей, рассчитать какие-то конкретные требования к эксплуатации невозможно. Клиент осознал проблему и усилил координацию между ИТ и бизнесом, чтобы выработать внутренние требования и наладить взаимосвязи для выстраивания работы.  

Когда было достигнуто понимание архитектуры ИТ-систем, команда смогла суммировать требования к службе эксплуатации, подрядчикам и к уровню надежности оборудования.  

Улучшения в процессе 

Наши специалисты выезжали на площадки для оценки инфраструктуры, читали имеющуюся документацию, проверяли уровень соответствия проектов ЦОДов фактической реализации.  

Отдельным направлением стали опросы ответственных сотрудников и их руководителей. Они рассказывали, что и как они делают в различных рабочих ситуациях, как устроены ключевые процессы эксплуатации инженерных систем.  

После начала работ и знакомства со спецификой задачи клиент немного «сдал назад»: мы услышали просьбу «просто написать всю необходимую документацию», по-быстрому и без глубокого погружения в процессы.  

Однако правильная оптимизация управления «инженеркой» ЦОДа предполагает выполнение задачи научить людей правильно оценивать процессы и писать под них уникальную документацию исходя из специфики конкретного объекта.  

Придумать рабочий документ за конкретного начальника участка службы эксплуатации невозможно – если только не проработать в паре с ним на площадке безотрывно несколько месяцев. Поэтому такой подход был отклонен: мы находили лидеров на местах, которые были готовы учиться сами и вести за собой подчиненных.  

Объяснив алгоритм создания документов, требования к их содержанию и принципы организации экосистемы инструкций, шесть последующих месяцев мы контролировали процесс детального написания документации и поэтапный переход персонала к работе по-новому. 

Далее последовал этап первичной поддержки работ по обновленным регламентам, который в удаленном формате продолжался один год. Затем мы перешли к тренингам и учениям – единственный путь закрепления нового материала на практике.  

Что сделано 

В процессе работ нам удалось решить несколько серьезных вопросов.  

Прежде всего, мы избежали ведения двойной документации, которой опасались сотрудники клиента. Для этого соединили в новых регламентах нормативные требования, применяющиеся к различным инженерным системам стандартно (электрика, охлаждение, контроль доступа), с отраслевыми best practices, создав прозрачную структуру документации с простой и логичной навигацией.  

Принцип «просто найти, просто понять, легко запомнить» дополнился тем, что новая информация привязывается к старому опыту и знаниям сотрудников. 

Далее мы перетряхнули штат инженеров службы эксплуатации: несколько человек оказались полностью неготовыми к переменам. Сопротивление некоторых успешно преодолевалось по ходу проекта через демонстрацию преимуществ, но определенный процент сотрудников оказался необучаем и невосприимчив к новому.  

Но нас удивило легкомысленное отношение компании к своей ИТ-инфраструктуре: от отсутствия резервирования критичных систем до хаоса в структуре и управлении.  

За 1,5 года процессы управления инженерными системами были прокачаны до уровня, который позволил специалистам компании успешно отчитаться «за качество» перед аудиторами из головного офиса.  

При поддержке темпов развития эксплуатационной составляющей компания сможет самостоятельно пройти любую существую сертификацию ЦОДов от ведущих международных агентств.  

Выводы 

В целом перспективы консалтинга в сфере операционного управления дата-центрами, по нашему мнению, самые яркие.  

Процесс цифровизации экономики и госсектора идет полным ходом. Да, сейчас будет много корректировок запуска новых проектов и планов по развитию старых, но сути это не изменит – эксплуатацию нужно улучшать хотя бы для повышения КПД уже построенных площадок.  

Главная проблема здесь: многие руководители не понимают, по какому тонкому льду они идут, не уделяя этому моменту должного внимания. Человеческий фактор по-прежнему остается главным источником самых неприятных аварий и сбоев. И это нужно объяснять.  

Государственные проекты в сфере дата-центров также становятся более актуальны сейчас и требуют повышенного внимания с точки зрения эксплуатации: сфера государственных ИТ-систем растет. Здесь также потребуется разработка и ввод системы стандартизации и сертификации площадок.  

Когда требования к государственным ЦОДам в РФ на уровне законодательного акта будут сведены в стандарт, его можно будет применять и для коммерческих дата-центров, в том числе и для размещения государственных ИТ-ресурсов.  

Работы по этому направлению ведутся, мы участвуем в этом процессе в рамках консультаций с Минцифры и наращивая компетенции по преподаванию на курсах по эксплуатации дата-центров в АНО ЦОД. Опыта по таким задачам в России не много, и мы считаем, что должны им делиться с коллегами и клиентами. 

Нет предела совершенству: как мы обновили сертификацию ЦОДа по стандарту Uptime M&O

БЭСТ, оператор системы денежных переводов и платежей.

Бизнес-вызов

Компания столкнулась с проблемой постоянного флага BGP-сессии с оборудованием Linxdatacenter. После изучения проблемы стало ясно, что на один из хостов в его сети происходила DDoS-атака.

Из-за распределенного характера атаки отфильтровать трафик было невозможно. Инженеры предложили решение, связанное с сокрытием хоста от внешней сети, но этот вариант не подходил заказчику. Атака прекратилась после внесения изменений в конфигурацию сервера, однако возобновилась на следующий день. Ее мощность достигла 5,5 Гбит/с, из-за чего перегружались «стыки» с интернет-провайдерами, что сказывалось на других пользователях облака Linxdatacenter. Чтобы обеспечить стабильную работу, было решено обратиться к надежному поставщику защиты от DDoS.

Решение

Чтобы обеспечить непрерывную доступность ресурсов, размещенных в облаке Linxdatacenter, весь трафик клиента был направлен через систему antiDDoS от StormWall. Атаку удалось погасить в течение получаса. Для предотвращения дальнейших кибератак все соединения сервисов клиента с интернетом были организованы через сеть StormWall.

Клиент:

БЭСТ, оператор системы денежных переводов и платежей.

Бизнес-вызов

Компания столкнулась с проблемой постоянного флага BGP-сессии с оборудованием Linxdatacenter. После изучения проблемы стало ясно, что на один из хостов в его сети происходила DDoS-атака.

Из-за распределенного характера атаки отфильтровать трафик было невозможно. Инженеры предложили решение, связанное с сокрытием хоста от внешней сети, но этот вариант не подходил заказчику. Атака прекратилась после внесения изменений в конфигурацию сервера, однако возобновилась на следующий день. Ее мощность достигла 5,5 Гбит/с, из-за чего перегружались «стыки» с интернет-провайдерами, что сказывалось на других пользователях облака Linxdatacenter. Чтобы обеспечить стабильную работу, было решено обратиться к надежному поставщику защиты от DDoS.

Решение

Чтобы обеспечить непрерывную доступность ресурсов, размещенных в облаке Linxdatacenter, весь трафик клиента был направлен через систему antiDDoS от StormWall. Атаку удалось погасить в течение получаса. Для предотвращения дальнейших кибератак все соединения сервисов клиента с интернетом были организованы через сеть StormWall.

Спасибо за ваш запрос, мы свяжемся с вами в ближайшее время!