Тарас Чирков
Руководитель ЦОДа Linxdatacenter в Санкт-Петербурге
21.10.2020

Нет предела совершенству: как мы обновили сертификацию ЦОДа по стандарту Uptime M&O

Тарас Чирков

Руководитель ЦОДа Linxdatacenter в Санкт-Петербурге

ЦОД Linxdatacenter в Санкт-Петербурге подтвердил свое соответствие стандартам Uptime Institute в области операционного управления. Мы обновили действие сертификата Management & Operations Stamp of Approval, заметно улучшив свои показатели по сравнению с первым аудитом. Рассказываем, как нам это удалось и к чему мы будем стремиться в своем развитии далее.

Что это и как работает

Uptime Institute, согласно определению на сайте самой организации, — это «неангажированная консалтинговая организация, чья деятельность направлена на улучшение производительности, эффективности и надежности ключевой инфраструктуры бизнеса посредством инноваций, сотрудничества и независимой сертификации производительности».

www.uptimeinstitute.com

За официальной формулировкой скрывается простая бизнес-модель. Эксперты института обладают огромным опытом работы в сфере оценки инженерной инфраструктуры дата-центров и качества их операционных процессов и применяют свои знания и отраслевые стандарты к практикам конкретных ЦОДов. Площадки проходят сертификацию, получая по ее итогам определенный балл – оценку уровня соответствия.

Сертификация Uptime Institute признана во всем мире. Организация создала и занимается развитием отраслевых стандартов Tier для проектирования, строительства и эксплуатации ЦОДов, а также Management & Operations Stamp of Approval. Он используется для оценки процессов управления и эксплуатации ЦОДов в перспективе обеспечения отказоустойчивости инфраструктуры.

Сертификация по уровням Tier I и Tier II– это базовый уровень требований к надежности и отказоустойчивости инженерных систем объекта. В России практически все сертифицированные Uptime дата-центры – это Tier III.

Management & Operations Stamp of Approval нацелен на решение проблем эксплуатации инфраструктуры коллективом ЦОДа.

M&O как защита от человеческого фактора

Согласно статистике, около 40% компаний, которые пережили масштабный сбой на уровне ИТ-инфраструктуры, уходят из бизнеса в течение 2-х лет. По мере цифровой трансформации простои и сбои в работе по вине ИТ-составляющей бизнеса будут бить по репутации и конкурентоспособности все больнее с каждым годом, если не месяцем.

Можно сказать, что сегодня вряд ли кто-то знает лучше, чем Uptime Institute, что и как чаще всего выходит из строя в типичном ЦОДе. И если стандарт инженерного обеспечения Tier раскрывает эту тему со стороны «железа», то сертификация Management & Operations помогает улучшить работу дата-центров по другому направлению.

Этот стандарт стал итогом разбора специалистами Uptime Institute 6000 кейсов по отказам дата-центров, собранных ими за 20 лет наблюдений. Выяснилось, что более 75% сбоев обусловлено человеческим фактором.

Unplash.com

Человеческий фактор включает в себя ошибки оператора, но, что более важно, также говорит о принятии неверных управленческих решений в отношении комплектования штата, выстраивания процессов обслуживания, обучения и общей тщательности выполнения работы. Независимо от топологии инфраструктуры дата-центра, человеческий фактор представляет наибольший риск для его работоспособности.

Эксперты Uptime Institute считают, что правильно управляемый дата-центр может достигать уровня доступности, превышающего уровень, ожидаемый от имеющейся инфраструктуры, за счет надлежащего количества и качества квалифицированного персонала, использующего в своей практике соответствующие процессы и процедуры.

Для минимизации ошибок персонала и руководства дата-центров и был разработан стандарт, включающий в себя перечень категорий с требованиями Uptime по стандартизации процессов эксплуатации и управления персоналом дата-центра. Список категорий составлен в соответствии со значимостью вклада в общую статистику отказов: кадровые ресурсы и организация штата (35 баллов), техническое обслуживание (30 баллов), обучение (20 баллов), планирование, координация и управление (10 баллов), условия труда (5 баллов).

Как показала практика членов профессионального сообщества, систематический подход к организации труда в дата-центре, будь то обучение персонала, наличие инструкций, регламентное обслуживание или описание действий в чрезвычайных ситуациях, сокращает количество отказов минимум в 3 раза.

Три кита

Институт внедрил метод измерения эффективности сотрудников ЦОДа, основанный на трех принципах операционной устойчивости — проактивность, практичность и информированность. Для того чтобы профессиональное поведение считалось эффективным, необходимо соблюдение всех трех принципов.

Проактивный подход заключается в том, чтобы спрогнозировать наступление события и проработать все соответствующие процессы и процедуры его отработки, при этом постоянно совершенствуя действия.

Практичность состоит в способности постоянного соблюдения на площадке всех установленных процессов и процедур. Когда определенная задача или процедура всегда выполняется одинаково, независимо от конкретного исполнителя, это свидетельствует о должной реализации этого принципа.

Информированность определяется тем, все ли сотрудники дата-центра осведомлены об установленных процессах и процедурах, имеют ли они доступ к полной информации о своих задачах на площадке. Также сотрудники обязаны знать, где, в случае наступления внештатной ситуации, можно найти все необходимые инструкции и требования по каждому вмененному в их обязанности процессу.

Россия ЦОДовая – держава мировая

По данным Uptime Institute, в нашей стране работает примерно 2,5% всего объема эксплуатируемых серверов в мире. При этом, на РФ приходится 5% всех выданных сертификатов Uptime. Можно сказать, что Россия по этому показателю как минимум находится на среднемировом уровне, или даже немного превышает его.

Главная аудитория организации в РФ – крупные ЦОДы, что связано чисто с экономическими причинами. Ценообразование на сертификацию зависит от размеров объекта, пусть и нелинейно. Например, сертификация крупного корпоративного ЦОДа обходится в 0,01% от стоимости площадки, что при тщательности и глубине тестирования окупится довольно быстро и многократно.

Linxdatacenter.com

Процедуры сертификации позволяют глубже понять особенности работы площадки на всех уровнях: от собственников и высшего руководства дата-центра до тех, кто управляет работой отдельных систем на каждом конкретном участке.

Маркетинговая ценность сертификации – огромна: даже те руководители потенциальных клиентов ЦОДа, кто далек от детального понимания сути процесса, знают, что сертификат Uptime означает «этой площадке можно доверять». На потребительском уровне она ассоциируется с понятием «качество».

M&O и мы

Первый аудит Uptime Institute с оценкой квалификации персонала ЦОДа Linxdatacenter в Санкт-Петербурге, а также аттестацией процессов эксплуатации оборудования и политик, регламентирующих функционирование объекта, был проведен в 2018 году. Если по итогам первой аттестации Linxdatacenter набрал 84 балла из 100 возможных, то в 2020 году мы получили оценку в 95,1.

Linxdatacenter.com

Это не только серьезный прогресс в соревновании с самими собой, но и значительное превышение средних показателей дата-центров, регулярно проходящих сертификацию Uptime Institute. Средний показатель повторной аттестации, когда ЦОД провел работу над ошибками – 93,7.

Данный результат свидетельствует о том, что эксплуатация дата-центра по-прежнему осуществляется с высокой эффективностью, а внедренные методы позволяют минимизировать риск сбоев по вине человеческого фактора.

Что порекомендовали

Совершенство недостижимо – поэтому мы получили от специалистов Uptime несколько рекомендаций по дальнейшим улучшениям.

Так, деятельность по техобслуживанию осуществляется с использованием чек-листов и процедурных методик. Чек-листы для оперативных групп очень подробны, но в них нет полей для отметки выполненных шагов.

Выполненные шаги отмечаются только в чек-листах для поставщиков. Институт рекомендовал, чтобы мы добавили дополнительные поля в существующие чек-листы для обеспечения более строгого контроля за профилактическим обслуживанием, гарантируя выполнение всех шагов в соответствии с методиками для гарантии последовательности и уменьшения вероятности человеческих ошибок.

Unsplash.com
Процедура контроля качества должна быть формализована и осуществляться на регулярной основе.

Второй момент: большинство операционных процессов у нас описаны в различных письменных документах. Для их регулирования Uptime рекомендует создать матрицу или блок-схемы ответственных и подотчетных лиц, а также информированного выполнения для всех процессов, связанных с эксплуатацией, поддержкой и обеспечением безопасности в дата-центре.

Возможно, для удовлетворения обеих рекомендаций нужно будет разработать электронный формат контроля за выполнением различных процедур, чтобы ответственный специалист проставлял отметки о выполнении в чек-боксах цифрового документа.

За что похвалили

Цитата из заключения комиссии Uptime Institute: «Компания добилась в своей практике эффективного сочетания компетенций технических специалистов по эксплуатации объектов Linxdatacenter и аутсорсинговых поставщиков, которые безупречно взаимодействуют друг с другом для обеспечения успешной эксплуатации и обслуживания дата-центра.

Качество укомплектованности штата компании позволяет выполнять любые задачи на площадке в случае экстренного или незапланированного отсутствия определенных специалистов».

За 10 лет работы ЦОДа Linxdatacenter, сталкиваясь с потенциальными угрозами и аварийными ситуациями, команда приобрела ценный опыт по координации действий в стрессовых условиях. Комиссия отметила, что этот опыт нашел отражение в документации по процедурам аварийной эксплуатации (EOP – Emergency Operations Procedures).

Высокую оценку также получили наши проекты по апгрейду инженерных систем дата-центра.

Мы последовательно совершенствовали целый комплекс подсистем и групп процессов управления ЦОДом, от профилактического ухода за дизель-генераторными установками and анализа качества поставляемого топлива для них, контроля уровня давления и «подпора» воздуха в серверных в помещениях и предотвращения загрязнения воздуха, до серьезной модернизации и повышения точности системы управления зданием (BMS), а также внедрения в эксплуатацию широкого спектра компонентов системы LOTO.

Linxdatacenter.com

Также были реализованы дополнительные программы диагностического обслуживания. Контроль подачи питания системе резервных батарей позволяет своевременно выявлять дефектные юниты и производить их замену с тем, чтобы предотвратить перезарядку или недозарядку цепочек ИБП.

Регулярные измерения и отслеживание изменений уровней вибраций оборудования поддерживают износ критических компонентов систем охлаждения и вентиляции под единым контролем и повышают доступность ресурсов площадки.

Работа на опережение

Некоторые практики Linxdatacenter – в частности, методика контроля качества топлива, система регулярной проверки знаний у дежурных инженеров – были особо отмечены экспертной комиссией и включены в состав обучающих курсов Uptime Institute по эксплуатации ЦОД в качестве best practices.

Также, на настоящий момент ЦОД Linxdatacenter в Санкт-Петербурге остается единственным коммерческим дата-центром в России с действующим сертификатом Management & Operations Stamp of Approval. Главный итог прохождения сторонних аудитов, особенно в соответствии с требованиями Uptime Institute – процесс подготовки к аттестации позволяет мобилизовать ресурсы команды настолько, что наш ЦОД стал в значительной мере опережать запросы со стороны проверяющих эксплуатацию.

News and publications

You may also be interested in

Write to us

How we optimized customer data center management

Data center is a complex IT and engineering object, which requires professionalism at all levels of management: from managers to technical specialists and executors of maintenance works. Here's how we helped our client put operational management in corporate data centers in order.
 

Taras Chirkov, Head of Data Center in St. Petersburg  in St. Petersburg 

Konstantin Nagorny, chief engineer of data center in St. Petersburg.  in St. Petersburg 

Data center is a complex IT and engineering object, which requires professionalism at all levels of management: from managers to technical specialists and executors of maintenance works. Here's how we helped our client put operational management in corporate data centers in order.  

Management is in the lead 

The most advanced and expensive IT equipment will not bring the expected economic benefits if proper processes of engineering systems operation in the data center, where it is located, are not established.  

The role of reliable and productive data centers in today's economy is constantly growing along with the requirements for their uninterrupted operation. However, there is a big systemic problem on this front.  

A high level of "uptime" - failure-free operation of a data center without downtime - depends very much on the engineering team that manages the site. And there is no single formalized school of data center management.  

And there is no single formalized school of data center management.    

Nationwide  

In practice, the situation with the operation of data centers in Russia is as follows.  

Data centers in the commercial segment usually have certificates confirming their management competence. Not all of them do, but the very specifics of the business model, when a provider is responsible to the client for the quality of service, money and reputation in the market, obligates them to own the subject. 

The segment of corporate data centers that serve companies' own needs lags far behind commercial data centers in terms of operational quality. The internal customer is not treated as carefully as the external customer, not every company understands the potential of well-configured management processes. 

Finally, government departmental data centers - in this regard, they are often unknown territory due to their closed nature. An international audit of such facilities is understandably impossible. Russian state standards are just being developed.  

This all translates into a "who knows what" situation. "Diverse" composition of operation teams composed of specialists with different backgrounds, different approaches to the organization of corporate architecture, different views and requirements to IT departments.  

There are many factors that lead to this state of affairs, one of the most important is the lack of systematic documentation of operational processes. There are a couple of introductory articles by Uptime Institute which give an idea of the problem and how to overcome it. But then it's necessary to build the system by your own efforts. And not every business has enough resources and competence for that.  ⠀⠀  

Meanwhile, even a small systematization of management processes according to industry best practices always yields excellent results in terms of improving the resilience of engineering and IT systems.  

Case: through thorns to the relative order 

Let's illustrate by the example of an implemented project. A large international company with its own data center network approached us. The request was for help to optimize the management processes at three sites where IT systems and business-critical applications are deployed.  

The company had recently undergone an audit of its headquarters and received a list of inconsistencies with corporate standards with orders to eliminate them. We were brought in as a consultant for this as a bearer of industry competence: we have been developing our own data center management system and have been educating on the role of quality in operational processes for several years.  

Communication with the client's team began. The specialists wanted to get a well-established system of data center engineering systems operation, documented on the processes of monitoring, maintenance and troubleshooting. All this had to ensure optimization of the infrastructure component in terms of IT equipment continuity.  

And here began the most interesting part.  

Know thyself 

To assess the level of data centers in terms of compliance with standards, you need to know the exact requirements of the business to IT systems: what is the level of internal SLA, the allowable period of equipment downtime, etc.  

It became clear right away that the IT department did not know exactly what the business wanted. There were no internal criteria of service quality, no understanding of the logic of their own infrastructure.  

Colleagues simply had no idea what the permissible downtime for IT-related operations was, what the optimal system recovery time in case of a disaster was, or how the architecture of their own applications was structured. For example, we had to figure out whether a "crash" of one of the data centers would be critical to the application, or if there were no components affecting the application.  

Without knowing such things, it is impossible to calculate any specific operational requirements. The client recognized the problem and increased coordination between IT and the business to develop internal requirements and establish relationships to align operations.  

Once an understanding of the IT systems architecture was achieved, the team was able to summarize the requirements for operations, contractors, and equipment reliability levels.  

Improvements in the process 

Our specialists traveled to sites to assess infrastructure, read existing documentation, and checked the level of compliance of data center projects with actual implementation.  

Interviews with the responsible employees and their managers became a separate area of focus. They told what and how they do in different work situations, how the key processes of engineering systems' operation are arranged.  

After starting the work and getting acquainted with the specifics of the task the client "gave up" a little: we heard the request "just to write all the necessary documentation", quickly and without deep diving into the processes.  

However, proper optimization of data center "engineering" management implies the task to teach people to properly assess the processes and write unique documentation for them based on the specifics of the object.  

It is impossible to come up with a working document for a specific maintenance area manager - unless you work with him at the site continuously for several months. Therefore this approach was rejected: We found local leaders who were willing to learn themselves and lead their subordinates.  

Having explained the algorithm of documents creation, requirements to their contents and principles of instructions ecosystem organization, for the next six months we controlled the process of detailed writing of documentation and step-by-step transition of the personnel to work in a new way. 

This was followed by a phase of initial support for work on the updated regulations, which lasted one year in a remote format. Then we moved on to training and drills - the only way to put the new material into practice.  

What's been done 

In the process, we were able to resolve several serious issues.  

First of all, we avoided double documentation, which the client's employees feared. To this end, we combined in the new regulations the regulatory requirements applied to various engineering systems as standard (electrics, cooling, access control), with industry best practices, creating a transparent documentation structure with simple and logical navigation.   

The principle of "easy to find, easy to understand, easy to remember" was complemented by the fact that the new information was linked to the old experience and knowledge of the employees. 

Next, we reshuffled the staff of service engineers: several people turned out to be completely unprepared for the change. The resistance of some was successfully overcome in the course of the project through the demonstration of benefits, but a certain percentage of employees turned out to be untrained and unresponsive to new things.  

But we were surprised by the company's frivolous attitude to its IT infrastructure: from the lack of redundancy of critical systems to the chaos in the structure and management.  

In 1.5 years the engineering systems management processes have been pumped up to the level that allowed the company's specialists to successfully report "for quality" to the auditors from the headquarters.  

With the support of the operating component development pace the company will be able to pass any existing certification of data centers from leading international agencies.  

Summary 

In general, the prospects of consulting in the field of operational management of data centers, in our opinion, are the brightest.  

The process of digitalization of the economy and the public sector is in full swing. Yes, there will be a lot of adjustments in the launch of new projects and plans for the development of old ones, but this will not change the essence - the operation should be improved at least to improve the efficiency of already built sites.  

The main problem here: many managers do not understand what thin ice they are walking on, not paying proper attention to this point. The human factor is still the main source of the most unpleasant accidents and failures. And it needs to be explained.  

Government data center projects are also becoming more relevant now and require increased attention in terms of operations: the scope of government IT systems is growing. Here, too, the development and introduction of a system of standardization and certification of sites will be required.  

When the requirements to public data centers in Russia at the level of legislation will be reduced to a standard, it can be applied to commercial data centers, including for the placement of public IT resources.  

The work in this area is ongoing, we are participating in this process in consultation with the Ministry of Digital and by building competencies for teaching courses on data center operation at the ANO Data Center. There is not much experience on such tasks in Russia, and we believe that we should share it with colleagues and clients. 

Нет предела совершенству: как мы обновили сертификацию ЦОДа по стандарту Uptime M&O

BEST, money transfer and payments operator

business challenge

The customer faced a technical issue with a persistent BGP session flag with Linxdatacenter hardware. We examined the problem and found out that one of customer’s hosts was under a DDoS attack.

Because of the distributed nature of the attack, traffic couldn’t be filtered effectively, and disconnecting the host from the external network wasn’t an option. The attack stopped after changes in the server configuration, but resumed the day after. A 5.5 Gbps attack overloaded the junctions with internet providers, affecting other Linx Cloud users. To mitigate the effects of the attack, we employed a dedicated DDoS protection service.

Solution

To ensure the continuous availability of resources hosted in Linx Cloud, we rerouted all the customer’s traffic through StormWall Anti-DDoS system. The attack was stopped within half an hour. To prevent future cyberattacks, we organized all connections to the customer’s resources through the StormWall network.

client:

BEST, money transfer and payments operator

business challenge

The customer faced a technical issue with a persistent BGP session flag with Linxdatacenter hardware. We examined the problem and found out that one of customer’s hosts was under a DDoS attack.

Because of the distributed nature of the attack, traffic couldn’t be filtered effectively, and disconnecting the host from the external network wasn’t an option. The attack stopped after changes in the server configuration, but resumed the day after. A 5.5 Gbps attack overloaded the junctions with internet providers, affecting other Linx Cloud users. To mitigate the effects of the attack, we employed a dedicated DDoS protection service.

Solution

To ensure the continuous availability of resources hosted in Linx Cloud, we rerouted all the customer’s traffic through StormWall Anti-DDoS system. The attack was stopped within half an hour. To prevent future cyberattacks, we organized all connections to the customer’s resources through the StormWall network.

Thank you for your inquiry, we will get back to you shortly!