Платежные системы крайне сложно устроены, но проблемы с карточными платежами мы замечаем очень редко. Все потому, что неисправности и сбои круглосуточно отслеживает специальная структура в составе НСПК — ситуационный центр. Банки.ру изучил, как он работает и как выглядит изнутри.
Человек с красной повязкой
Тут прохладно и тихо, никто не бегает в запарке и не кричит в трубку телефона. Длинную сторону комнаты полностью занимает видеостена, отображающая множество графиков и текстовой информации в реальном времени. Два ряда рабочих столов с компьютерами, телефонами и микрофонами системы конференц-связи. Второй ряд расположен чуть выше, чтобы оттуда хорошо было видно видеостену. За столами сидят негромко переговаривающиеся дежурные.
Один из специалистов замечает в потоке данных аномалию и берет трубку телефона, чтобы связаться со службой поддержки банка-участника. За его спиной тут же встает старший смены — дежурный с красной повязкой на руке — и вполголоса дает указания. Ситуация быстро разрешается, все снова спокойно.
Помимо основного зала, где отслеживаются метрики, касающиеся платежных операций, имеется комната поменьше, с одним рядом рабочих столов. Тут контролируется работа инфраструктуры — аппаратуры операционно-платежного и клирингового центра (ОПКЦ) и сетей связи. В двух центрах обработки данных (ЦОД) также есть дежурные ситуационного центра (СЦ). Они отслеживают работу оборудования, размещенного в соответствующих ЦОД.
В ситуационном центре имеются душевая и столовая, а в коридоре установлены турник и даже беговая дорожка, на которых засидевшиеся на месте сотрудники могут размять мышцы.
Кто за что отвечает
Платежная инфраструктура состоит из нескольких участков, входящих в зоны ответственности разных организаций. Так, банки отвечают за работу конечных устройств (терминалов, банкоматов), ОПКЦ НСПК — за обработку платежей и передачу их от эквайера эмитенту. Провайдеры связи обеспечивают каналы связи между ОПКЦ и банками, а также между банками и конечными устройствами.
«Мы не можем видеть состояние каналов между банком-эквайером и его терминалами, — рассказал Банки.ру руководитель операционно-технологического департамента НСПК Максим Завгородний. — Проблемы на этом участке мы можем определить лишь косвенно. К примеру, если сбой связи между банком-эквайером и терминалами носит масштабный характер, мы заметим аномальное снижение эквайрингового трафика и определим инцидент. Такие случаи в нашей практике были».
Организационно ситуационный центр объединяет два подразделения компании. Логически выделяются следующие направления в СЦ:
— группа мониторинга на уровне приложений, процессов, транзакционной активности. Контролирует различные метрики, касающиеся обработки операций всех платежных систем, работающих через ОПКЦ;— группа инфраструктурного и сетевого мониторинга. Контролирует работоспособность серверного оборудования, сети передачи данных, каналов связи;
— группа дежурных в ЦОД НСПК. Их задача — контроль работоспособности оборудования, размещенного в ЦОД НСПК;
— группа второй линии поддержки авторизационной системы ОПКЦ. Задача специалистов этой группы — контроль и поддержание работоспособности авторизационной системы, оперативное решение возникающих проблем при обработке авторизаций.
Помимо задач мониторинга, сотрудники всех групп выполняют регламентные работы в своей зоне ответственности.
Всего по всем подразделениям в каждый момент времени дежурит не менее 12 специалистов. «Здоровье» всех систем, задействованных в обработке операций, от сетевого до прикладного уровня, отслеживается с помощью комплекса специализированного программного обеспечения для мониторинга и ситуационных центров. Некоторые компоненты разработаны специалистами НСПК, часть является программным обеспечением с открытым кодом.
Внимательные люди
Процедура набора сотрудников в ситуационный центр НСПК весьма непроста и проходит в несколько этапов. Набираются люди с опытом работы в сфере информационных технологий, окончившие технические вузы, обладающие базовыми навыками программирования и работы с Linux/Unix-системами. Берут и студентов старших курсов. Главное — навыки, опыт, стрессоустойчивость.
После приема на работу начинается обучение сотрудника. Длится оно около двух месяцев. Первый месяц — обучение работе со специализированным программным обеспечением, процедурам взаимодействия с банками и смежными подразделениями НСПК, правилам отработки инцидентов. Второй месяц занимает стажировка. Новичок учится применять полученные знания на практике, под контролем старшего своей смены.
Заступив на смену, дежурный входит в автоматизированную систему «Портал дежурной службы» (разработка НСПК), в которой получает свою роль на текущую смену. В системе он видит перечень своих обязанностей, а также необходимую в работе информацию. Каждый специалист умеет выполнять задачи любой роли в рамках своего подразделения. Например, в группе мониторинга уровня приложений таких ролей пять. При каждом выходе на смену дежурный получает новую роль. Это предотвращает «замыливание глаз», когда из-за монотонности повторяющихся действий человек становится невнимательным.
Смена дежурного СЦ длится 23 часа, за ней следует трое суток отдыха. На смену дежурные заступают не одновременно: одна смена начинается утром, вторая — вечером. Таким образом, в каждый момент времени в центре работают люди с разной степенью усталости.
Перечень регламентных процедур, выполняемых дежурными СЦ за смену, собран в чек-лист, который на данный момент состоит более чем из 40 пунктов. Выполнение каждого пункта чек-листа фиксируется в системе «Портал дежурной службы» и контролируется сотрудником в роли «контролер».
По словам Максима Завгороднего, «преимущественно ситуационный центр НСПК имеет дело с инцидентами в зоне ответственности банков. Наиболее часто проблемы возникают в программном обеспечении, реже — на каналах связи. В этих случаях задача дежурного — связаться с соответствующими службами организаций, в чьей зоне ответственности произошел инцидент, и передать им имеющуюся у НСПК информацию для разбора инцидента».
В сложных случаях планируется организация видеоконференций между ситуационным центром НСПК и службой поддержки вовлеченной в инцидент организации, причем картинка может выводиться как на монитор компьютера дежурного, так и на видеостену, чтобы сотрудники ситуационного центра могли участвовать в обсуждении проблемы.
Если инцидент произошел в зоне ответственности НСПК, то, в зависимости от присвоенного ему класса критичности, он эскалируется на вторую линию поддержки, инженеры которой подключаются к анализу и решению проблемы незамедлительно. В самых сложных случаях привлекается третья линяя поддержки — это профильные инженеры, глубоко понимающие работу прикладных систем и компонент инфраструктуры.
Почти как на флоте
Важным элементом подготовки сотрудников являются учения. По словам «идеолога» СЦ, заместителя генерального директора НСПК Сергея Бочкарева, в необходимости регулярных учений он убедился на своем опыте во время службы на Северном флоте. «Постоянные тренировки, действия, доведенные до автоматизма, позволяют действительно надеяться на профессиональные и слаженные действия дежурных служб при возникновении аварийной ситуации. Поэтому без учений никак», — рассказал Бочкарев порталу Банки.ру.
Во время учений моделируется инцидент с одним из банков. Для этого пишется сценарий инцидента и конфигурируется имитационный стенд, подающий достоверно выглядящую информацию для сотрудников СЦ. Дежурных об учениях не предупреждают, но по итогу учений проводится анализ эффективности и корректности действий.
«В этом году мы планируем расширить практику учений, чтобы задействовать в них одновременно все подразделения ситуационного центра, — говорит Максим Завгородний. — Возможно, привлечем к участию и банки, их дежурные службы. Сейчас разрабатываем регламенты и готовим программное обеспечение для реалистичного моделирования инцидентов».
Михаил ДЬЯКОВ, Banki.ru
Комментарии
Интересно, четко, развернуто.
Спасибо!
Может ПО лучше отлаживать? Службу тестов создать, здесь подсократить тогда получится. То на то и выйдет по затратам. А то борьба то с последствиями, заметили, починили, а банк с клиентами объясняйся чегой-то у них двойные списания прошли, кто то в Овер влетел, а кто то в минуса по разнице курсов.
Всё дело в том, что программное обеспечение - это такой страшный зверь, с которым никогда не знаешь, когда вылезет очередной баг или обнаружится очередная дыра. Сегодня можно всё довести до идеала, а завтра всё посыпется.