Тарас Чирков
Руководитель ЦОД Linxdatacenter в Санкт-Петербурге
06.04.2021

Эти ЦОДы в огне: почему пожар на OVH никак не повлияет на отрасль

Пожар на площадке крупнейшего мирового провайдера OVH на севере Франции, казалось бы, должен был нанести огромный репутационный ущерб отрасли. Однако анализ причин катастрофы показывает, что она вряд ли что-то изменит в ЦОДостроении

Тарас Чирков

Руководитель ЦОД Linxdatacenter в Санкт-Петербурге

Пожар на площадке крупнейшего мирового провайдера OVH на севере Франции, казалось бы, должен был нанести огромный репутационный ущерб отрасли. Однако анализ причин катастрофы показывает, что она вряд ли что-то изменит в ЦОДостроении.

 

 

Бессмертия не существует

Мы все настолько уверены в надежности современных ЦОДов, что их нормальная работа без сбоев и тем более без происшествий подобного масштаба воспринимается как нечто само собой разумеющееся. Связь может сбоить, отдельные сайты могут подвисать, приложения — запускаться не с первого раза, но ставшие для нас частью повседневной жизни глобальные сервисы — уровня платежных систем, соцсетей или мессенджеров — должны работать всегда. А это значит, такой же бессмертной должна быть инфраструктура, на которой они базируются.

Пожар в OVH продемонстрировал, что это восприятие слишком идеализирует работу ИТ. Глобальный сбой может произойти в любой момент, поскольку надежность ЦОДа — не встроенная «фича» на уровне архитектуры, а сумма компетенций людей, которые управляют конкретной площадкой. Системы пожаротушения на площадках также устанавливаются, исходя из допущения вероятности пожара. Как мы увидели, она далеко не нулевая.

Источник бесперебойного возгорания?

Пожар, ставший причиной выхода из строя ЦОДа SBG2 компании OVH в Страсбурге 10 марта, произошел из-за возгорания системы ИБП. Это первые выводы по итогам предварительного расследования инцидента, по праву ставшего самым масштабным происшествием подобного рода в отрасли за последние годы.

Впрочем, подозрение сразу пало на ИБП: системы бесперебойного питания из дата-центра SBG2 были переданы полиции и страховой компании для совместного расследования вместе с предохранителями почти сразу после ликвидации огня. Гипотезу поддерживал основатель и владелец OVH Октав Клаба — в одном из сообщений в Twitter он рассказал о тайминге событий, который говорит в пользу именно этой версии.

ИБП-7, который обслуживал SBG2, загорелся через несколько часов после завершения ТО с заменой некоторых компонентов и перезапуска. После огонь охватил ИБП-8, что в сумме и привело к катастрофическим последствиям. Провайдер также сообщил о повторном, гораздо менее масштабном, возгорании в помещении с отключенными батареями ИБП через несколько дней после ликвидации основного пожара.

Хотя нет конкретной информации об ИБП и типах батарей, можно предположить, что в OVH использовались литиевые батареи. Для всех, кто знаком с литиевыми батареями в ИБП, известен один из недостатков: их практически невозможно потушить; реакции нагрева продолжаются и после отключения питания, что подтверждается как раз повторным возгоранием в отключенном виде.

Имя производителя и модель этих батарей мы вряд ли узнаем ввиду потенциальных репутационных рисков производителя, однако вряд ли в столь крупном ЦОДе использовалось бы некачественное оборудование или неправильно проводилось техобслуживание.

«В ЦОДе нечему гореть!» ©

В отрасли распространено мнение о том, что в ЦОДе нечему гореть. Кратковременные возгорания ввиду коротких замыканий быстро затухают, в основном, кроме выделения дыма, не причиняя вреда. Но в дата-центре нечему гореть ровно до тех пор, пока не горит сам дата-центр.

Риски пожара в ЦОДе почти всегда связаны со сценариями возгорания «оболочки». Практически все известные инциденты с пожарами случались во внешних контурах ЦОДов, которые не были охвачены внутренними системами пожаротушения.

Внутри дата-центра системы довольно эффективны: в серверной огонь потушится довольно быстро за счет использования специальных средств подавления огня — несколько высокоэффективных газов, тонкораспыленная вода и прочие — с прицелом на минимизацию потенциального ущерба оборудованию. Но если загорится крыша, будет проливаться весь ЦОД, обесточиваться стойки, есть риски потери информации и повреждения оборудования.

Uptime ни при чем 

Любопытно, что и международные отраслевые стандарты ничего вам не гарантируют. Одна из самых авторитетных организаций отрасли — Uptime Institute — не сертифицирует элементы дата-центров, отвечающие за пожаробезопасность, поскольку регулирование в области определяется локальными нормативами и взаимодействием с регулятором каждой конкретной страны

Например, на уровне использования проводки, кабелей существуют международные стандарты; при строительстве дата-центра они так или иначе соблюдаются и контролируются. А вот материал стен Uptime уже не регулирует, если местные пожарные не возражают — можно строить хоть из дерева.

Возможно, именно это допущение привело к катастрофе на OVH. В дискуссиях пострадавшая площадка не раз называлась объектом «предыдущего поколения». Имелось в виду само здание пострадавшего ЦОДа, построенное в 2011 году. В здании удивляет толщина стен и перекрытий между помещениями и этажами, которые зафиксированы на фото и видео моментов тушения пожара. Они кажутся слишком тонкими и неспособными предотвратить распространение сильного огня из его очага. А по первым сообщениям с места пожара стало понятно, что прибывшие на место инцидента пожарные попросту не смогли даже войти в здание и приступить к ликвидации огня из-за сильнейшего задымления.

То есть можно предположить, что, помимо недостаточной толщины конструктивных элементов и неправильной организации пространства, к катастрофе могли привести и материалы, использованные при строительстве помещений. Вероятно, горевшая обшивка стен была сделана из пластика: это привело к задымлению, невозможности подобраться к источнику огня и быстрому выгоранию нескольких модулей внутри ЦОДа. Если бы стены и перекрытия были сделаны из железобетона, даже в случае возгорания ИБП подобного развития событий бы не произошло.

Когда хорошо иметь план Б

Любые сложные технические системы будут время от времени давать отказы из-за совокупности самых разных причин. Проще говоря, «несчастные случаи случаются». Никакой провайдер не может полностью гарантировать, что однажды что-то не пойдет не так. Самое правильное, что в этой ситуации может сделать клиент ЦОДа — не бежать прочь от любых дата-центров, а продумать все варианты географически распределенного резервного копирования и аварийные планы восстановления данных.

Эти вопросы всегда будут оставаться в зоне ответственности клиента — другое дело, что хороший провайдер расскажет об подобном заранее и предложит опции.

Кстати, именно этого в случае OVH, видимо, сделано не было. Когда в результате пожара пострадали около 3,6 млн веб-сайтов, хостившихся на площадках компании в Страсбурге, многие клиенты дата-центра искренне удивились, узнав, что план аварийного восстановления (DRP) для владельцев выделенных серверов в ЦОДе на случай пожара был, оказывается, их обязанностью. А если они им не озаботились, то никто не вернет им их ИТ-системы и данные. По умолчанию такие сервисы, как правило, не предоставляются.

«Некоторые клиенты не понимают точно, что они покупают в дата-центре»,  прокомментировал критику Клаба.

Он пообещал, однако, в будущем предоставление бесплатного резервного копирования всем клиентам OVH, а не только пользователям облачной платформы.

Последствия для отрасли

OVH извлекла уроки из случая и анонсировала проверку всех блоков ИБП на всех площадках, стратегию избыточной безопасности (oversecure), а также сообщила о планах запуска лаборатории по исследованию причин и путей предотвращения пожаров в ЦОДах.

Вероятно, всю отрасль дата-центров в ближайшее время ждет волна аудитов, проверок со стороны клиентов в части систем пожарной безопасности дата-центров, вызванная широкой оглаской данного инцидента. Однако, как бы неприятен и масштабен ни был случай, как бы ни были шокированы клиенты по всему миру, не стоит ожидать серьезных изменений в отрасли. Маловероятно, что кто-то смог бы построить на 100% отказоустойчивые ЦОДы и обеспечить надежность большую, чем достигнуто сегодня в среднем по отрасли.

Определенные изменения могут произойти в области бэкапа и аварийного восстановления, но здесь все будет упираться в экономическую целесообразность.

Если стоимость ответственности перед клиентами в случае аварии ниже, чем стоимость поддержки двух систем на двух площадках в течение 10 лет, далеко не каждый бизнес выберет второй вариант. Он предполагает умножение всей инфраструктуры на 2, изменение архитектуры приложений и сети. Сложный проект, на который решится не каждый ЦОД.

С другой стороны, для крупных компаний с зависимой от ИТ бизнес-моделью стоимость простоя может достигать $300 000 в час, по данным Gartner. Поэтому таким компаниям можно посоветовать взять калькулятор и скрупулезно высчитать вероятность подобного коллапса, стоимость дублирования и DRP. Очевидно, по мере роста критичности данных, которые хранит бизнес в ЦОДах и облаках, будет нарастать популярность мультиклауда.

Снижения интереса к дата-центрам и облачным платформам из-за катастроф и технических сбоев не произойдет, но количество грамотных клиентов, которые не хотят «складывать яйца в одну корзину» и будут продумывать заранее все риски и сценарии развития событий, определенно, вырастет.

Другие новости и публикации

Статья
09.08.2022
ИБ в условиях дефицита: стратегия большого перехода
Новость
01.08.2022
Linxdatacenter – в топ-10 крупнейших поставщиков услуг ЦОД
Новость
25.07.2022
Linxdatacenter запускает собственные PaaS-инструменты
Новость
20.07.2022
Петербургское облако Linxdatacenter прошло аттестацию по ...
Статья
30.06.2022
Как мы оптимизировали управление ЦОДами клиента
Новость
27.06.2022
Linxdatacenter: рынок российских облаков вырастет в 2022 ...
Новость
26.05.2022
Анна Мальми назначена региональным директором Linxdatacen...
Статья
20.05.2022
Облачный край: что происходит на российском рынке
Новость
13.05.2022
Новым генеральным директором Linxdatacenter назначен Андр...
Статья
03.05.2022
Блок на моноблок: модульная ИБП-революция в ЦОДах

Вас также могут заинтересовать

Linx Outsourcing
Аудит, модернизация и оптимизация ваших серверных мощностей
Подробнее
Аутсорсинг управления дата-центром
Linx Network
Обеспечьте отказоустойчивость и бесперебойную работу сети
Подробнее
Сетевые услуги
Linx DraaS
Аварийное восстановление ИТ-инфраструктуры. Защитите ИТ-системы уже сегодня!
Подробнее
Аварийное восстановление DRaaS

Напишите нам

Как мы оптимизировали управление ЦОДами клиента

Дата-центр – комплексный ИТ- и инженерный объект, требующий профессионализма на всех уровнях управления: от руководителей до технических специалистов и исполнителей эксплуатационных работ. Рассказываем, как мы помогли клиенту навести порядок в операционном управлении в корпоративных ЦОДах.
 

Тарас Чирков, руководитель ЦОД Linxdatacenter в Санкт-Петербурге 

Константин Нагорный, главный инженер ЦОД Linxdatacenter в Санкт-Петербурге 

Дата-центр – комплексный ИТ- и инженерный объект, требующий профессионализма на всех уровнях управления: от руководителей до технических специалистов и исполнителей эксплуатационных работ. Рассказываем, как мы помогли клиенту навести порядок в операционном управлении в корпоративных ЦОДах.  

В главной роли – управление 

Самое современное и дорогое ИТ-оборудование не принесет ожидаемой экономической пользы, если не будут выстроены правильные процессы эксплуатации инженерных систем ЦОДа, где оно располагается.  

Роль надежных и производительных дата-центров в современной экономике постоянно растет вместе с требованиями к их бесперебойной работе. Однако на этом направлении существует большая системная проблема.  

Высокий уровень «аптайма» – безаварийной работы дата-центра без простоев – очень сильно зависит от команды инженеров, которая занимается управлением площадки. А единой формализованной школы управления ЦОДами не существует.  

Нет какого-то сводного канона с правилами, применимыми для любого дата-центра. Есть стандарты международной отраслевой организации Uptime Institute, но они устанавливают рамки и вектор развития, к каждому конкретному дата-центру они будут применяться по-разному.  

В масштабах страны  

На практике в России ситуация с эксплуатацией ЦОДов выглядит так.  

Дата-центры из сегмента коммерческих как правило имеют сертификаты, подтверждающие компетенции в сфере управления. Далеко не все и не всегда, но сама специфика бизнес-модели, когда провайдер отвечает перед клиентом качеством сервиса, деньгами и репутацией на рынке, обязывает владеть предметом. 

Сегмент корпоративных ЦОДов, которые обслуживают собственные потребности компаний, по показателям качества эксплуатации заметно отстает от коммерческих дата-центров. К внутреннему заказчику относятся не так тщательно, как к внешнему клиенту, далеко не в каждой компании понимают потенциал хорошо настроенных управленческих процессов. 

Наконец, государственные ведомственные ЦОДы – в этом отношении они часто представляют собой неизвестную территорию в силу закрытости. Международный аудит таких объектов по понятным причинам невозможен. Российские госстандарты только разрабатываются.  

Все это выливается в ситуацию «кто во что горазд». «Разношерстный» состав команд эксплуатации из специалистов с разным бэкграундом, различные подходы к организации корпоративной архитектуры, взгляды и требования в отношении ИТ-департаментов.  

Факторов, приводящих к такому положению дел, много, один из главных – отсутствие систематизированной документации по выстраиванию эксплуатационных процессов. Есть пара вводных статей Uptime Institute, которые дают представление о проблеме и путях ее преодоления. Но дальше необходимо выстраивать систему своими силами. А на это ресурсов и компетенций хватит далеко не у каждого бизнеса.  

Между тем, даже небольшая систематизация процессов управления по лучшим отраслевым практикам всегда дает отличный результат в том, что касается повышения отказоустойчивости инженерных и ИТ-систем.  

Кейс: через тернии к относительному порядку 

Проиллюстрируем на примере реализованного проекта. К нам обратилась крупная международная компания с сетью собственных дата-центров. Запрос был на помощь в оптимизации процессов управления тремя площадками, где на серверах развернуты ИТ-системы и приложения, абсолютно критичные для бизнеса.  

Компания недавно прошла аудит головного офиса и получила список несоответствий корпоративным стандартам с предписанием их устранить. Для этого в качестве консультанта привлекли нас как носителя отраслевых компетенций: мы развиваем собственную систему управления ЦОДами и ведем просветительскую работу о роли качества эксплуатационных процессов уже несколько лет.  

Началось общение с командой клиента. Специалисты хотели получить выстроенную систему эксплуатации инженерных систем ЦОДов, зафиксированную в документации по процессам мониторинга, обслуживания и устранению неполадок. Все это должно было обеспечить оптимизацию инфраструктурной составляющей с точки зрения непрерывности работы ИТ-оборудования.  

И здесь началось самое интересное.  

Познай себя 

Чтобы оценить уровень работы ЦОДов с точки зрения соответствия стандартам, нужно знать точные требования бизнеса к ИТ-системам: каков уровень внутренних SLA, допустимый период простоя оборудования и т.д.  

Сразу же выяснилось – ИТ-департамент не знает, что именно хочет бизнес. Не было внутренних критериев качества сервиса, не было и понимания логики устройства собственной инфраструктуры.  

Коллеги просто не представляли, каково допустимое время простоя операций, завязанных на ИТ, каково оптимальное время восстановления систем в случае аварии, как устроена архитектура собственных приложений. Например, пришлось разбираться, будет ли критичным для работы приложения «падение» одного из ЦОДов, или в нем нет компонентов, влияющих на приложение.  

Не зная таких вещей, рассчитать какие-то конкретные требования к эксплуатации невозможно. Клиент осознал проблему и усилил координацию между ИТ и бизнесом, чтобы выработать внутренние требования и наладить взаимосвязи для выстраивания работы.  

Когда было достигнуто понимание архитектуры ИТ-систем, команда смогла суммировать требования к службе эксплуатации, подрядчикам и к уровню надежности оборудования.  

Улучшения в процессе 

Наши специалисты выезжали на площадки для оценки инфраструктуры, читали имеющуюся документацию, проверяли уровень соответствия проектов ЦОДов фактической реализации.  

Отдельным направлением стали опросы ответственных сотрудников и их руководителей. Они рассказывали, что и как они делают в различных рабочих ситуациях, как устроены ключевые процессы эксплуатации инженерных систем.  

После начала работ и знакомства со спецификой задачи клиент немного «сдал назад»: мы услышали просьбу «просто написать всю необходимую документацию», по-быстрому и без глубокого погружения в процессы.  

Однако правильная оптимизация управления «инженеркой» ЦОДа предполагает выполнение задачи научить людей правильно оценивать процессы и писать под них уникальную документацию исходя из специфики конкретного объекта.  

Придумать рабочий документ за конкретного начальника участка службы эксплуатации невозможно – если только не проработать в паре с ним на площадке безотрывно несколько месяцев. Поэтому такой подход был отклонен: мы находили лидеров на местах, которые были готовы учиться сами и вести за собой подчиненных.  

Объяснив алгоритм создания документов, требования к их содержанию и принципы организации экосистемы инструкций, шесть последующих месяцев мы контролировали процесс детального написания документации и поэтапный переход персонала к работе по-новому. 

Далее последовал этап первичной поддержки работ по обновленным регламентам, который в удаленном формате продолжался один год. Затем мы перешли к тренингам и учениям – единственный путь закрепления нового материала на практике.  

Что сделано 

В процессе работ нам удалось решить несколько серьезных вопросов.  

Прежде всего, мы избежали ведения двойной документации, которой опасались сотрудники клиента. Для этого соединили в новых регламентах нормативные требования, применяющиеся к различным инженерным системам стандартно (электрика, охлаждение, контроль доступа), с отраслевыми best practices, создав прозрачную структуру документации с простой и логичной навигацией.  

Принцип «просто найти, просто понять, легко запомнить» дополнился тем, что новая информация привязывается к старому опыту и знаниям сотрудников. 

Далее мы перетряхнули штат инженеров службы эксплуатации: несколько человек оказались полностью неготовыми к переменам. Сопротивление некоторых успешно преодолевалось по ходу проекта через демонстрацию преимуществ, но определенный процент сотрудников оказался необучаем и невосприимчив к новому.  

Но нас удивило легкомысленное отношение компании к своей ИТ-инфраструктуре: от отсутствия резервирования критичных систем до хаоса в структуре и управлении.  

За 1,5 года процессы управления инженерными системами были прокачаны до уровня, который позволил специалистам компании успешно отчитаться «за качество» перед аудиторами из головного офиса.  

При поддержке темпов развития эксплуатационной составляющей компания сможет самостоятельно пройти любую существую сертификацию ЦОДов от ведущих международных агентств.  

Выводы 

В целом перспективы консалтинга в сфере операционного управления дата-центрами, по нашему мнению, самые яркие.  

Процесс цифровизации экономики и госсектора идет полным ходом. Да, сейчас будет много корректировок запуска новых проектов и планов по развитию старых, но сути это не изменит – эксплуатацию нужно улучшать хотя бы для повышения КПД уже построенных площадок.  

Главная проблема здесь: многие руководители не понимают, по какому тонкому льду они идут, не уделяя этому моменту должного внимания. Человеческий фактор по-прежнему остается главным источником самых неприятных аварий и сбоев. И это нужно объяснять.  

Государственные проекты в сфере дата-центров также становятся более актуальны сейчас и требуют повышенного внимания с точки зрения эксплуатации: сфера государственных ИТ-систем растет. Здесь также потребуется разработка и ввод системы стандартизации и сертификации площадок.  

Когда требования к государственным ЦОДам в РФ на уровне законодательного акта будут сведены в стандарт, его можно будет применять и для коммерческих дата-центров, в том числе и для размещения государственных ИТ-ресурсов.  

Работы по этому направлению ведутся, мы участвуем в этом процессе в рамках консультаций с Минцифры и наращивая компетенции по преподаванию на курсах по эксплуатации дата-центров в АНО ЦОД. Опыта по таким задачам в России не много, и мы считаем, что должны им делиться с коллегами и клиентами. 

Эти ЦОДы в огне: почему пожар на OVH никак не повлияет на отрасль

БЭСТ, оператор системы денежных переводов и платежей.

Бизнес-вызов

Компания столкнулась с проблемой постоянного флага BGP-сессии с оборудованием Linxdatacenter. После изучения проблемы стало ясно, что на один из хостов в его сети происходила DDoS-атака.

Из-за распределенного характера атаки отфильтровать трафик было невозможно. Инженеры предложили решение, связанное с сокрытием хоста от внешней сети, но этот вариант не подходил заказчику. Атака прекратилась после внесения изменений в конфигурацию сервера, однако возобновилась на следующий день. Ее мощность достигла 5,5 Гбит/с, из-за чего перегружались «стыки» с интернет-провайдерами, что сказывалось на других пользователях облака Linxdatacenter. Чтобы обеспечить стабильную работу, было решено обратиться к надежному поставщику защиты от DDoS.

Решение

Чтобы обеспечить непрерывную доступность ресурсов, размещенных в облаке Linxdatacenter, весь трафик клиента был направлен через систему antiDDoS от StormWall. Атаку удалось погасить в течение получаса. Для предотвращения дальнейших кибератак все соединения сервисов клиента с интернетом были организованы через сеть StormWall.

Клиент:

БЭСТ, оператор системы денежных переводов и платежей.

Бизнес-вызов

Компания столкнулась с проблемой постоянного флага BGP-сессии с оборудованием Linxdatacenter. После изучения проблемы стало ясно, что на один из хостов в его сети происходила DDoS-атака.

Из-за распределенного характера атаки отфильтровать трафик было невозможно. Инженеры предложили решение, связанное с сокрытием хоста от внешней сети, но этот вариант не подходил заказчику. Атака прекратилась после внесения изменений в конфигурацию сервера, однако возобновилась на следующий день. Ее мощность достигла 5,5 Гбит/с, из-за чего перегружались «стыки» с интернет-провайдерами, что сказывалось на других пользователях облака Linxdatacenter. Чтобы обеспечить стабильную работу, было решено обратиться к надежному поставщику защиты от DDoS.

Решение

Чтобы обеспечить непрерывную доступность ресурсов, размещенных в облаке Linxdatacenter, весь трафик клиента был направлен через систему antiDDoS от StormWall. Атаку удалось погасить в течение получаса. Для предотвращения дальнейших кибератак все соединения сервисов клиента с интернетом были организованы через сеть StormWall.

Спасибо за ваш запрос, мы свяжемся с вами в ближайшее время!