Linxdatacenter: ЦОД в телефоне

Евгений Макарьин рассказывает о процессе адаптации некоторых ИТ-инструментов управления ЦОДом, взаимодействием с клиентами и сотрудникам на примере работы компании в период перехода на удаленную работу и режим самоизоляции

Какие ИТ-инструменты мы внедрили в дата-центре из-за карантина

Дата-центры не останавливали свою работу даже в разгар самоизоляции. Чтобы люди могли заказывать продукты онлайн, бизнес – общаться и работать удаленно, а медики и ученые – анализировать данные для борьбы с заболеваниями, инженеры в ЦОДах постоянно дежурят и контролируют работу оборудования. Карантин повлиял и на нас, причем изменения коснулись не только бэк-офиса и процессов работы с клиентами, но и ИТ-инфраструктуры. Рассказываем, какие ИТ-инструменты пришлось оперативно адаптировать в период самоизоляции и почему они останутся с нами и после снятия ограничений.

One Drive: от физических дисков к облакам

Изменение принципов совместной работы с документами в дата-центре началось с проектного отдела. Вся работа офиса с файлами по клиентским проектам дата-центра традиционно велась в общей сетевой папке. При этом мы нередко сталкивались с тем, что из-за одновременной работы нескольких сотрудников с одним и тем же файлом возникал конфликт версий, и приходилось либо «вставать в очередь», либо сводить все версии в одну – возникала двойная работа. Кроме того, удаленный доступ к файлам из-за пределов офиса (необходимый сейчас) возможен только через VPN. Соответственно, если нет доступа в интернет или он нестабилен, то добраться до нужных документов проблематично.

Данные ограничения приводили к задержкам, путанице, подвисанию некоторых задач.

Проблему решили с помощью сервисов Microsoft 365, а именно хранилища OneDrive, которое позволяет работать с файлами локально на ноутбуке, синхронизируя их с общим разделом на SharePoint.

На SharePoint залили документы по проектам с сетевого диска. Сотрудникам дали инструкцию по настройке OneDrive for Business под рабочей учетной записью. Далее оставалось только нажать кнопку «Синхронизировать» на панели управления в SharePoint.

Готово! OneDrive создаст папку на локальном диске, куда будет складывать актуальные версии папок и файлов. Причём в настройках OneDrive можно выбрать: реально загружать сразу все документы на жёсткий диск или создать структуру папок и ярлыки файлов, а загружать их только по запросу от пользователя. Второй вариант подходит в том случае, если Интернет работает стабильно и доступа к документам из самолёта/поезда не предполагается.

В случае любого изменения файлов на сервере, при наличии доступа в интернет, все автоматически синхронизируется с локальной папкой OneDrive.

Преимущества

Опишем самые важные для нас преимущества:

Скорость кооперации: создавая новый файл прямо в Word/Excel/PowerPoint, можно выбрать, с кем им поделиться. В OneDrive удобно редактировать документ одновременно – не нужно вносить правки в своей версии, а потом сравнивать их с правками и комментариями коллег. Прямо внутри документа можно в комментариях отметить @коллегу, он или она получит об этом уведомление в почту и сразу сможет найти те моменты, в которых требуется помощь или участие.
Удобное редактирование через веб-интерфейс, если по какой-то причине приходится работать с рабочей станции без установленного пакета MS Office. При этом доступно редактирование через классическое приложение, если веб-версия непривычна.
Непрерывность бизнес-процессов и безопасность: регулярное автоматическое сохранение в облаке минимизирует вероятность потери внесенных изменений.
Трекинг изменений делает возможным откат к предыдущим версиям.
Наконец, мобильность – вся функциональность доступна в смартфоне с Push-уведомлениями о новых событиях.

Недостатки, ограничения и вызовы

Сложностей немного, но они есть.

Не вся функциональность доступна в веб-версии (макросы, например).
Если с вами делятся ссылкой без предоставления персонального доступа к файлу, открывать его в толстом клиенте надо не в один клик, а как минимум в два.
Функционал публичного доступа к файлу интуитивно понятен, но есть шанс, забыв поставить одну галочку, быть подвергнутым бомбардировке запросами на доступ от людей, которым эта ссылка была отправлена.

Конечно, инерция пока что сильна: несмотря на все преимущества организации работы в OneDrive, мы видим, что после начала работы дальнейшие изменения в документ часто вносятся путем сохранения его на локальном/сетевом диске с последующей пересылкой файла по электронной почте. По всей видимости, это делается потому, что редактирование файла через веб не всем привычно.

В целом мы получили инструмент, пользоваться которым удобно и легко не только во время карантина, но и при обычном режиме работы.

ЦОД в телефоне

Мы давно хотели реализовать еще одну «фишку» – на этот раз в системе мониторинга инженерных систем ЦОДа. А именно: скомпоновать на одной странице основные параметры ЦОД, чтобы одного взгляда на экран было достаточно для оценки состояния основных систем, а дежурный инженер мог это делать из любой точки.
Это удобно в принципе, а в условиях наступившей всеобщей «удаленки» и социального дистанцирования оказалось просто бесценно. Ведь хотя дата-центры и относятся к непрерывному производству, мы постарались максимально сократить присутствие сотрудников на площадках.

В итоге такое одностраничное мобильное приложение для мониторинга ЦОД мы придумали буквально «на ходу». Наша версия One page базируется на двух главных принципах:

Таблица, сверстанная под вертикальный формат экрана смартфона. Вся важная информация при этом умещается на один экран. Над таблицей приводится «сводка» активных инцидентов.
Расположение ячеек в таблице повторяет архитектуру ЦОДа – физическую или логическую). Последовательность отражает зрительные ассоциации персонала дата-центра – как будто они физически мониторят все помещения и системы. Это упрощает поиск информации.

Веб-интерфейс, доступный с любого устройства из любой точки мира, – это разительный контраст с «толстым» клиентом, полностью закрытым для пользователей извне.

Теперь у любой страницы в системе мониторинга дата-центра есть уникальный адрес, что позволяет делиться не только прямым адресом страницы или устройства, но и ссылками на уникальные графики/ отчеты. Доступ в систему происходит через LDAP-аутентификацию при помощи Active Directory, что усиливает уровень ее защищенности.

Качество контроля повышается и благодаря функциональности рабочих чатов. Они ускоряют рабочие процессы, позволяя «привязать» переписку дежурных инженеров к системе мониторинга. Мы, например, используем приложение Microsoft Teams, которое позволяет вести внутреннюю переписку и получать на телефон все сообщения из системы в виде всплывающих Push-уведомлений, что избавляет дежурного от необходимости постоянно смотреть в экран телефона.

PRTG-мониторинг

Еще одна система удаленного контроля в ЦОДах Linxdatacenter – PRTG (Paessler Router Traffic Grapher), используемая для мониторинга сети и рабочих нагрузок на ИТ-системы.

Это продвинутый трекер для сбора информации о потоках данных, проходящих через конкретные устройства. Поддерживает SNMP, Netflow и множество других протоколов, а самое главное – предоставляет возможности доступа к статистике в базе данных в виде наглядных графиков и таблиц.

Сетевым специалистам компании доступны данные о переданных пакетах и времени пинга с просмотром результатов в режиме реального времени или за определенный промежуток времени в прошлом на разных устройствах. Следить за результатами мониторинга можно также через веб-интерфейс программы.

Программа позволяет осуществлять мониторинг работы виртуальных машин (ВМ) и физического оборудования ЦОДа. PRTG поддерживает работу с большим количеством сенсоров в стойках с серверами: к примеру, если «вылетает» диск, специалисты немедленно об этом узнают.

Динамика загрузки ВМ и их кластеров размечена цветом: принцип «светофора» в действии. Зеленый маркер – все работает в штатном режиме, желтый – высокие значения загрузки мощностей, красный – или очень высокие значения по загрузке, или ресурс недоступен.

Поддерживается сбор данных о нагрузке как на сеть, так и на подсистемы памяти и процессор.

Недавно решение получило апгрейд до версии Enterprise с поддержкой многосерверных панелей управления в режиме реального времени, мониторингом бизнес-сервисов и автоматизированным управлением уведомлениями.

Дополнительная ценность, которую обеспечивает решение, – это мониторинг SLA. В систему можно завести целевые показатели уровня предоставляемых сервисов для каждого определенного сервиса, и на основе этих вводных решение рассчитывает и отображает производительность и доступность всех ИТ- и сетевых ресурсов, соотнося их с заданным SLA.

Оповещения о приближении к критически низким показателям производительности дают нам время для реагирования и исправления, что позволяет не допускать нарушений SLA.

Выводы

В кризис нагрузки на все системы ЦОДа растут: клиенты потребляют больше сетевых и ИТ-ресурсов по многим причинам (переход на удаленку, рост потребления контента, замещение командировок ВКС-совещаниями и т.д.).

В этот период значимость качественного управления ресурсами дата-центра вырастает, и мы уже неоднократно убедились в ценности внедрения всех описанных ИТ-инструментов. Наш вывод: постоянные небольшие улучшения полезны и в мирное время, а уж в кризисный период их польза неоценима.