Александр Широков
Специалист по охране труда и пожарной безопасности Linxdatacenter
04.06.2020

Remote Hands, или Как работают дата-центры в условиях пандемии

Эпидемия COVID-19 на наших глазах меняет привычный уклад в самых разных областях жизни: Росавиация устанавливает новые правила авиаперелетов, кинотеатры готовятся к «шахматной» рассадке зрителей, а в магазины мы уже давно ходим вооруженными СИЗ и придерживаясь безопасного расстояния от других людей

Александр Широков

Специалист по охране труда и пожарной безопасности Linxdatacenter

Эпидемия COVID-19 на наших глазах меняет привычный уклад в самых разных областях жизни: Росавиация устанавливает новые правила авиаперелетов, кинотеатры готовятся к «шахматной» рассадке зрителей, а в магазины мы уже давно ходим вооруженными СИЗ и придерживаясь безопасного расстояния от других людей.

Эти изменения затронули и дата-центры, где постоянно присутствует технический персонал, а периодически и клиенты, обслуживающие свое оборудование. Как теперь будет выглядеть работа дата-центра в России, рассказывает Александр Широков, cпециалист по охране труда и пожарной безопасности на примере ЦОД Linxdatacenter.

Оставайтесь дома

Прежде всего отметим, что дата-центры относятся к предприятиям непрерывного действия и продолжали функционировать в полном объеме в условиях распространения коронавируса, когда многие компании остановили свою деятельность. ЦОДы всегда функционируют по схеме 365×7×24, а в текущих условиях, когда спрос на ИТ-ресурсы заметно вырос, их бесперебойная работа важна как никогда.

Чтобы максимально обезопасить людей, наш бизнес и бизнес наших клиентов, мы ввели новые инструкции по работе обеих российских площадок в Москве и Санкт-Петербурге.

Что изменилось для нас и для клиентов?

Сотрудники, присутствие которых на рабочих местах не было обязательным для обеспечения непрерывности работы ЦОДов, были переведены на удаленную работу.

В дата-центрах остались работать только те сотрудники, чье присутствие было необходимо для обеспечения непрерывности сервисов. Для них были введены дополнительные меры защиты:

  1. Строгое соблюдение дистанции как в рабочее, так и в свободное время.
  2. Отмена деловых встреч, экскурсий и командировок.
  3. Ежедневное измерение температуры тела на рабочих местах: если температура превышает значение 37,3°С, сотрудник или посетитель не допускается в ЦОД, ему рекомендовано обратиться к врачу.
  4. Соблюдение правил личной гигиены:
    • использование автоматов для надевания бахил;
    • использование санитайзеров для дезинфекции рук на входе в ЦОД и в течение рабочего дня;
    • регулярное мытье рук с использованием жидкого мыла и одноразовых полотенец;
    • избегание тактильных контактов;
    • минимизация очного общения в пользу телефонной, интернет связи и т. п.;
    • использование средств индивидуальной защиты (перчатки, маски) в случае, если очного контакта избежать не удается.
  5. Регулярное проветривание помещений дата-центров.
  6. Дезинфекция полов, ручек дверей, рабочих поверхностей, телефонов и клавиатуры компьютеров.

Крайне удачно незадолго до начала эпидемии мы завершили переход на новую систему мониторинга ЦОДа (BMS), главной «фишкой» которой стало удобное мобильное приложение для дежурных инженеров.

Теперь абсолютно все ключевые характеристики ЦОДа сгруппированы и представлены на одном экране смартфона/ монитора ответственного инженера, при этом реализована привязка к топографии ЦОДа. Специалисты дата-центра могут мониторить и контролировать состояние любого оборудования в машзалах из любой точки, а рабочие чаты в MS Teams ускоряют процессы, привязывая переписку дежурных инженеров к BMS.

Предыдущая BMS была намного менее удобная, не имела мобильного приложения и требовала постоянного физического присутствия инженеров в дата-центре. Останься мы с такой BMS сейчас, во время эпидемии, нам было бы намного сложнее реализовать принципы удаленной работы и социального дистанцирования людей.

Отсюда вывод — постоянное улучшение процессов при помощи ИТ может принести вам совершенно непрогнозируемую выгоду, там, где вы этого совсем не ждете.

Remote Hands для посетителей

Для снижения потока технических специалистов заказчиков на площадки дата-центров мы рекомендовали клиентам использовать услугу Remote Hands при выполнении внеплановых работ по дистанционному техобслуживанию и апгрейду оборудования: с начала периода самоизоляции и до ее отмены эта услуга предоставляется для таких задач бесплатно.

Статистически наибольшая посещаемость в наших ЦОДах наблюдается в понедельник и вторник. Мы попросили клиентов по возможности планировать свои визиты на другие дни недели, чтобы сократить количество людей, одновременно находящихся в ЦОДах.

В связи с вводом «масочного режима» с 12 мая доступ на площадки возможен только при наличии масок и перчаток.

Вирусная революция документооборота

Другое заметное влияние COVID-19 на рабочие процессы дата-центров коснулось документооборота в компании.

Так, вся клиентская документация направляется, начиная с марта 2020 года, на электронную почту ответственным лицам в формате PDF. Оригиналы документов будут предоставлены после нормализации эпидемиологической ситуации в стране, либо по срочному запросу контрагента в случае необходимости.

Также мы попросили контрагентов рассмотреть возможность оперативного перехода на работу посредством ЭДО. Linxdatacenter использует систему ЭДО «Контур Диадок» на протяжении последних двух лет. Эпидемия ускорила переход на электронный документооборот многих наших контрагентов: оказалось, что в критических условиях препятствий для ЭДО никаких нет!

Кадровый вопрос

Важную роль в COVID-адаптации компании сыграл отдел HR. Работа с сотрудниками, оказавшимися перед необходимостью сохранять продуктивность в условиях самоизоляции, потребовала отдельного фокуса.

Мы запустили марафон активностей для сотрудников, состоящий из нескольких модулей.

«А вам слабо?»

Задача сотрудников, принимающих участие в этом модуле, — снять короткое видео с демонстрацией своих навыков или достижений с призывом повторить или превзойти их уровень в ответном видео. В съемках могут быть задействованы члены семьи, домашние животные — в общем, те, кто разделяет с сотрудником компании бремя изоляции. По завершении — голосование за самое крутое видео.

«Наш ответ коронавирусу»

Чисто спортивный модуль, простой и понятный: бьем рекорды по количеству отжиманий и приседаний. Участники через WhatsApp сообщают координатору, сколько упражнений за день они сделали. По результатам месяца подводятся итоги и определяется победитель.

«Ученье — свет»

Марафон онлайн-тренингов, обучений и прочитанных книг. В течение апреля участники сообщают координатору о всех пройденных образовательных мероприятиях и литературе, прочитанной за месяц. В целом, в зачет идет любая активность в сфере интеллектуального развития. В конце месяца определяется наиболее продвинувшийся в этом направлении сотрудник.

«#Моеудаленноерабочееместо и #мойудаленныйрабочийlook»

«Ревизия» удаленных домашних офисов сотрудников компании. Участники делятся с координатором фотографиями рабочего места на «удаленке» с любимыми вещами, которые не дают скучать во время вынужденного отсутствия в офисе и помогают сохранять продуктивность. Модуль завершает голосование за самое креативное фото.

«5 o’clock tea»

Известно, что люди получают порцию эндорфинов, встречаясь в офисе с дружелюбными коллегами, болтая о прошедших выходных и обедая вместе. Чтобы немного разнообразить рабочие будни, наш HR отдел организовывает «5 o’clock tea»: онлайн-встречи за чашкой чая или кофе, на которых кто-то из сотрудников делится с другими полезной и интересной информацией — например, о прочитанной познавательной книге — или проводит мастер-класс, и мы обсуждаем услышанное. Темы самые разные: от вопросов экологии и здорового питания до последних изменений в законодательстве, так что каждый может почерпнуть для себя интересную информацию и высказать собственное мнение.

Удаленная работа лишает нас «гормонов счастья», поэтому крайне важно для сохранения психологического здоровья людей находить способы пообщаться вне рабочего контекста.

COVID-итоги

Конечно, лучше бы все оставалось по-прежнему, и необходимость переходить на аварийный режим работы ни у кого бы не возникала. Однако жизнь есть жизнь: нужно уметь обращать минусы в плюсы, и в этом отношении уже сейчас можно отметить положительное влияние новых реалий на процессы в дата-центрах.

Самоизоляция помогла нам обкатать сценарии переноса в онлайн-пространство максимального количества рабочих процессов: современные инструменты взаимодействия и совместной работы позволяют добиваться в этом направлении хороших результатов.

Скорее всего, большинство нововведений останется с нами навсегда. Сотрудники и клиенты дата-центров привыкнут к максимально удаленному решению всех вопросов, все перейдут на обмен документами в электронном виде. Требования к дезинфекции, соблюдению дистанции и индивидуальной защите в ЦОДах усилятся, а дата-центры продолжат тестировать и внедрять новые инструменты с одной целью: чтобы на площадках присутствовало как можно меньше людей, а оборудование и сервисы работали как точнейшие часы.

Другие новости и публикации

Вас также могут заинтересовать

Linx Outsourcing
Аудит, модернизация и оптимизация ваших серверных мощностей
Подробнее
Аутсорсинг управления дата-центром
Linx Network
Обеспечьте отказоустойчивость и бесперебойную работу сети
Подробнее
Сетевые услуги
Linx DraaS
Аварийное восстановление ИТ-инфраструктуры. Защитите ИТ-системы уже сегодня!
Подробнее
Аварийное восстановление DRaaS

Напишите нам

Как мы оптимизировали управление ЦОДами клиента

Дата-центр – комплексный ИТ- и инженерный объект, требующий профессионализма на всех уровнях управления: от руководителей до технических специалистов и исполнителей эксплуатационных работ. Рассказываем, как мы помогли клиенту навести порядок в операционном управлении в корпоративных ЦОДах.
 

Тарас Чирков, руководитель ЦОД Linxdatacenter в Санкт-Петербурге 

Константин Нагорный, главный инженер ЦОД Linxdatacenter в Санкт-Петербурге 

Дата-центр – комплексный ИТ- и инженерный объект, требующий профессионализма на всех уровнях управления: от руководителей до технических специалистов и исполнителей эксплуатационных работ. Рассказываем, как мы помогли клиенту навести порядок в операционном управлении в корпоративных ЦОДах.  

В главной роли – управление 

Самое современное и дорогое ИТ-оборудование не принесет ожидаемой экономической пользы, если не будут выстроены правильные процессы эксплуатации инженерных систем ЦОДа, где оно располагается.  

Роль надежных и производительных дата-центров в современной экономике постоянно растет вместе с требованиями к их бесперебойной работе. Однако на этом направлении существует большая системная проблема.  

Высокий уровень «аптайма» – безаварийной работы дата-центра без простоев – очень сильно зависит от команды инженеров, которая занимается управлением площадки. А единой формализованной школы управления ЦОДами не существует.  

Нет какого-то сводного канона с правилами, применимыми для любого дата-центра. Есть стандарты международной отраслевой организации Uptime Institute, но они устанавливают рамки и вектор развития, к каждому конкретному дата-центру они будут применяться по-разному.  

В масштабах страны  

На практике в России ситуация с эксплуатацией ЦОДов выглядит так.  

Дата-центры из сегмента коммерческих как правило имеют сертификаты, подтверждающие компетенции в сфере управления. Далеко не все и не всегда, но сама специфика бизнес-модели, когда провайдер отвечает перед клиентом качеством сервиса, деньгами и репутацией на рынке, обязывает владеть предметом. 

Сегмент корпоративных ЦОДов, которые обслуживают собственные потребности компаний, по показателям качества эксплуатации заметно отстает от коммерческих дата-центров. К внутреннему заказчику относятся не так тщательно, как к внешнему клиенту, далеко не в каждой компании понимают потенциал хорошо настроенных управленческих процессов. 

Наконец, государственные ведомственные ЦОДы – в этом отношении они часто представляют собой неизвестную территорию в силу закрытости. Международный аудит таких объектов по понятным причинам невозможен. Российские госстандарты только разрабатываются.  

Все это выливается в ситуацию «кто во что горазд». «Разношерстный» состав команд эксплуатации из специалистов с разным бэкграундом, различные подходы к организации корпоративной архитектуры, взгляды и требования в отношении ИТ-департаментов.  

Факторов, приводящих к такому положению дел, много, один из главных – отсутствие систематизированной документации по выстраиванию эксплуатационных процессов. Есть пара вводных статей Uptime Institute, которые дают представление о проблеме и путях ее преодоления. Но дальше необходимо выстраивать систему своими силами. А на это ресурсов и компетенций хватит далеко не у каждого бизнеса.  

Между тем, даже небольшая систематизация процессов управления по лучшим отраслевым практикам всегда дает отличный результат в том, что касается повышения отказоустойчивости инженерных и ИТ-систем.  

Кейс: через тернии к относительному порядку 

Проиллюстрируем на примере реализованного проекта. К нам обратилась крупная международная компания с сетью собственных дата-центров. Запрос был на помощь в оптимизации процессов управления тремя площадками, где на серверах развернуты ИТ-системы и приложения, абсолютно критичные для бизнеса.  

Компания недавно прошла аудит головного офиса и получила список несоответствий корпоративным стандартам с предписанием их устранить. Для этого в качестве консультанта привлекли нас как носителя отраслевых компетенций: мы развиваем собственную систему управления ЦОДами и ведем просветительскую работу о роли качества эксплуатационных процессов уже несколько лет.  

Началось общение с командой клиента. Специалисты хотели получить выстроенную систему эксплуатации инженерных систем ЦОДов, зафиксированную в документации по процессам мониторинга, обслуживания и устранению неполадок. Все это должно было обеспечить оптимизацию инфраструктурной составляющей с точки зрения непрерывности работы ИТ-оборудования.  

И здесь началось самое интересное.  

Познай себя 

Чтобы оценить уровень работы ЦОДов с точки зрения соответствия стандартам, нужно знать точные требования бизнеса к ИТ-системам: каков уровень внутренних SLA, допустимый период простоя оборудования и т.д.  

Сразу же выяснилось – ИТ-департамент не знает, что именно хочет бизнес. Не было внутренних критериев качества сервиса, не было и понимания логики устройства собственной инфраструктуры.  

Коллеги просто не представляли, каково допустимое время простоя операций, завязанных на ИТ, каково оптимальное время восстановления систем в случае аварии, как устроена архитектура собственных приложений. Например, пришлось разбираться, будет ли критичным для работы приложения «падение» одного из ЦОДов, или в нем нет компонентов, влияющих на приложение.  

Не зная таких вещей, рассчитать какие-то конкретные требования к эксплуатации невозможно. Клиент осознал проблему и усилил координацию между ИТ и бизнесом, чтобы выработать внутренние требования и наладить взаимосвязи для выстраивания работы.  

Когда было достигнуто понимание архитектуры ИТ-систем, команда смогла суммировать требования к службе эксплуатации, подрядчикам и к уровню надежности оборудования.  

Улучшения в процессе 

Наши специалисты выезжали на площадки для оценки инфраструктуры, читали имеющуюся документацию, проверяли уровень соответствия проектов ЦОДов фактической реализации.  

Отдельным направлением стали опросы ответственных сотрудников и их руководителей. Они рассказывали, что и как они делают в различных рабочих ситуациях, как устроены ключевые процессы эксплуатации инженерных систем.  

После начала работ и знакомства со спецификой задачи клиент немного «сдал назад»: мы услышали просьбу «просто написать всю необходимую документацию», по-быстрому и без глубокого погружения в процессы.  

Однако правильная оптимизация управления «инженеркой» ЦОДа предполагает выполнение задачи научить людей правильно оценивать процессы и писать под них уникальную документацию исходя из специфики конкретного объекта.  

Придумать рабочий документ за конкретного начальника участка службы эксплуатации невозможно – если только не проработать в паре с ним на площадке безотрывно несколько месяцев. Поэтому такой подход был отклонен: мы находили лидеров на местах, которые были готовы учиться сами и вести за собой подчиненных.  

Объяснив алгоритм создания документов, требования к их содержанию и принципы организации экосистемы инструкций, шесть последующих месяцев мы контролировали процесс детального написания документации и поэтапный переход персонала к работе по-новому. 

Далее последовал этап первичной поддержки работ по обновленным регламентам, который в удаленном формате продолжался один год. Затем мы перешли к тренингам и учениям – единственный путь закрепления нового материала на практике.  

Что сделано 

В процессе работ нам удалось решить несколько серьезных вопросов.  

Прежде всего, мы избежали ведения двойной документации, которой опасались сотрудники клиента. Для этого соединили в новых регламентах нормативные требования, применяющиеся к различным инженерным системам стандартно (электрика, охлаждение, контроль доступа), с отраслевыми best practices, создав прозрачную структуру документации с простой и логичной навигацией.  

Принцип «просто найти, просто понять, легко запомнить» дополнился тем, что новая информация привязывается к старому опыту и знаниям сотрудников. 

Далее мы перетряхнули штат инженеров службы эксплуатации: несколько человек оказались полностью неготовыми к переменам. Сопротивление некоторых успешно преодолевалось по ходу проекта через демонстрацию преимуществ, но определенный процент сотрудников оказался необучаем и невосприимчив к новому.  

Но нас удивило легкомысленное отношение компании к своей ИТ-инфраструктуре: от отсутствия резервирования критичных систем до хаоса в структуре и управлении.  

За 1,5 года процессы управления инженерными системами были прокачаны до уровня, который позволил специалистам компании успешно отчитаться «за качество» перед аудиторами из головного офиса.  

При поддержке темпов развития эксплуатационной составляющей компания сможет самостоятельно пройти любую существую сертификацию ЦОДов от ведущих международных агентств.  

Выводы 

В целом перспективы консалтинга в сфере операционного управления дата-центрами, по нашему мнению, самые яркие.  

Процесс цифровизации экономики и госсектора идет полным ходом. Да, сейчас будет много корректировок запуска новых проектов и планов по развитию старых, но сути это не изменит – эксплуатацию нужно улучшать хотя бы для повышения КПД уже построенных площадок.  

Главная проблема здесь: многие руководители не понимают, по какому тонкому льду они идут, не уделяя этому моменту должного внимания. Человеческий фактор по-прежнему остается главным источником самых неприятных аварий и сбоев. И это нужно объяснять.  

Государственные проекты в сфере дата-центров также становятся более актуальны сейчас и требуют повышенного внимания с точки зрения эксплуатации: сфера государственных ИТ-систем растет. Здесь также потребуется разработка и ввод системы стандартизации и сертификации площадок.  

Когда требования к государственным ЦОДам в РФ на уровне законодательного акта будут сведены в стандарт, его можно будет применять и для коммерческих дата-центров, в том числе и для размещения государственных ИТ-ресурсов.  

Работы по этому направлению ведутся, мы участвуем в этом процессе в рамках консультаций с Минцифры и наращивая компетенции по преподаванию на курсах по эксплуатации дата-центров в АНО ЦОД. Опыта по таким задачам в России не много, и мы считаем, что должны им делиться с коллегами и клиентами. 

Remote Hands, или Как работают дата-центры в условиях пандемии

БЭСТ, оператор системы денежных переводов и платежей.

Бизнес-вызов

Компания столкнулась с проблемой постоянного флага BGP-сессии с оборудованием Linxdatacenter. После изучения проблемы стало ясно, что на один из хостов в его сети происходила DDoS-атака.

Из-за распределенного характера атаки отфильтровать трафик было невозможно. Инженеры предложили решение, связанное с сокрытием хоста от внешней сети, но этот вариант не подходил заказчику. Атака прекратилась после внесения изменений в конфигурацию сервера, однако возобновилась на следующий день. Ее мощность достигла 5,5 Гбит/с, из-за чего перегружались «стыки» с интернет-провайдерами, что сказывалось на других пользователях облака Linxdatacenter. Чтобы обеспечить стабильную работу, было решено обратиться к надежному поставщику защиты от DDoS.

Решение

Чтобы обеспечить непрерывную доступность ресурсов, размещенных в облаке Linxdatacenter, весь трафик клиента был направлен через систему antiDDoS от StormWall. Атаку удалось погасить в течение получаса. Для предотвращения дальнейших кибератак все соединения сервисов клиента с интернетом были организованы через сеть StormWall.

Клиент:

БЭСТ, оператор системы денежных переводов и платежей.

Бизнес-вызов

Компания столкнулась с проблемой постоянного флага BGP-сессии с оборудованием Linxdatacenter. После изучения проблемы стало ясно, что на один из хостов в его сети происходила DDoS-атака.

Из-за распределенного характера атаки отфильтровать трафик было невозможно. Инженеры предложили решение, связанное с сокрытием хоста от внешней сети, но этот вариант не подходил заказчику. Атака прекратилась после внесения изменений в конфигурацию сервера, однако возобновилась на следующий день. Ее мощность достигла 5,5 Гбит/с, из-за чего перегружались «стыки» с интернет-провайдерами, что сказывалось на других пользователях облака Linxdatacenter. Чтобы обеспечить стабильную работу, было решено обратиться к надежному поставщику защиты от DDoS.

Решение

Чтобы обеспечить непрерывную доступность ресурсов, размещенных в облаке Linxdatacenter, весь трафик клиента был направлен через систему antiDDoS от StormWall. Атаку удалось погасить в течение получаса. Для предотвращения дальнейших кибератак все соединения сервисов клиента с интернетом были организованы через сеть StormWall.

Спасибо за ваш запрос, мы свяжемся с вами в ближайшее время!