За прошлый год электронная система Сбербанка — самая большая и дорогая в стране — «падала» несколько раз, лишая клиентов шансов воспользоваться своими кредитками. Forbes выяснил, почему это происходило и как нашли проблему.
Вечером 17 декабря 2012 года держатели карт Сбербанка не могли расплатиться ими в магазинах и ресторанах, банкоматы в отделениях не работали, некоторые перезагружались, остальные просто выдавали сообщение о невозможности проведения операций. Через час проблема была решена, и осталась практически незамеченной — газеты написали небольшие сообщения, а еще через день история забылась. Оставшаяся почти незамеченной публикой проблема внутри Сбербанка выглядела совсем по-другому. Глава крупнейшего банка страны Герман Греф лично приехал в офис, чтобы заняться поиском ошибки в новейшем оборудовании, только-только начавшем работать в полную силу, рассказывают сотрудники Сбербанка.
К этому моменту Сбербанк уже четвертый год занимался централизацией бизнес-процессов. У банка 350 млн счетов, по которым совершается 160 млн транзакций ежедневно и 35 000 транзакций в минуту. Объединение и централизация всех процессов требовало все больше и больше вычислительных ресурсов. Собеседник Forbes в руководстве госбанка, согласившийся рассказать, как все было, ставит одну бутылку с водой на другую, показывая, что именно они делали внутри банка.
«Ресурсы, которые были на тот момент, нас не удовлетворяли, потому что если поставишь следующий модуль, все развалится», -говорит он и водружает четвертую бутылку наверх пирамиды. Бутылка падает.
«Мы пришли к тому, что надо менять инфраструктуру», — резюмирует менеджер банка.
Сбербанк изучил имеющиеся предложения на рынке и пришел к выводу, что готовой системы нет ни у одного производителя. Было решено купить серверы у IBM, на них установили программное обеспечение Oracle, которая, по мнению Сбербанка, производит лучшую систему управления базами данных. К этом прибавили программы от Symantec и дисковые массивы Hewlett Packard. Все программы и оборудование были самыми последними, новейшими разработками. Только за 9 месяцев прошлого года Сбербанк потратил на IT 31,2 млрд рублей, еще 26,8 млрд рублей за 2011 год — это крупнейший IT-бюджет среди всех российских банков.
«У нас было все самое лучшее, но когда оно начало работать вместе, то стало выдавать странности», — говорит собеседник Forbes, отмечая, что сбоев было гораздо больше, чем видели клиенты — за прошлый год у Сбербанка было 8 крупных сбоев, не считая проблем в регионах.
Но откатить все назад Сбербанк не мог, надо было двигаться вперед, решая проблемы одну за другой. «Две лаборатории IBM и одна Oracle весь год работали только на нас, IBM поставила нам 20 серверов бесплатно, с условием, что мы расплатимся, когда перестанет сбоить, Oracle прислал лучших «архитекторов», — вспоминает собеседник Forbes.
Система продолжала сбоить, в частности крупный сбой случился 6 июня, когда клиенты банка 3 часа не могли ни расплатиться своими картами, ни снять с них деньги. По словам топ-менеджера, банк увидел проблему еще в ноябре 2011 года, тогда же стало понятно, что она может привести к серьезному падению. После этого было принято решение снизить мощность системы. «Но хотелось запустить на полную мощность, и 27 июня 2012 года это случилось: мы опустили флажок и все полетело так быстро, что мы не могли нарадоваться. А 6 июля все, что «летало», разбилось в один момент — за 10 минут, мы даже не успели отреагировать», — вспоминает собеседник Forbes. Все настройки опять вернули к первоначальным, десять дней система проработала нормально, но на 11-й снова упала. Ошибку искали полгода и наконец нашли. Что это была за ошибка, Сбербанк не раскрывает, ссылаясь на соглашение с вендорами. Со слов менеджера банка известно лишь, что это был сбой в системе управления базами данных.
Oracle, поставлявший Сбербанку программное обесепеечние, не ответил на запрос Forbes.
Новый сбой случился в декабре 2012 года. В субботу, 15 декабря, в 22:10 перестал работать процессинг. Сбербанк простоял около часа, но этого, по уверениям собеседника Forbes, почти никто не заметил. Кроме, видимо, Грефа, который как и два дня спустя приезжал лично разбираться с проблемой. Поставщики программного обеспечения получили «логи» — записи, сделанные системой в момент падения — но ошибку найти не смогли. Сбербанк отключил систему и снова ее включил — это как раз и заняло примерно час. Оператор видит, что нагрузка начинает расти по экспоненте, а еще через какое-то время система становится настолько занятой своими внутренними процессами, что перестает реагировать на оператора. И в этот момент ее можно только выключить и снова включить, это и есть время простоя. Так и сделали в тот раз, рассказыват собеседник Forbes.
Прошло два дня. В понедельник, 17 декабря, и опять в 22:10 процессинг вновь остановился. И снова Греф примчался на работу среди ночи, чтобы возглавить поиск «бага». Но тут Сбербанку повезло — сотрудник японской компании Hitachi обнаружил, что ровно в 22:10 внутри системы запускается процедура оптимизации дискового пространства от Symantec. Вообще-то эта программа запускалась каждый день, но обычно она просто «просыпалась», смотрела вокруг, видела, что оптимизировать нечего, и «засыпала» вновь. Однако накануне субботы 15 декабря Сбербанк решал другую проблему с базами данных, и программа Symantec, «проснувшись», обнаружила возможности оптимизации, которую она и запустила. Но программа вступила в конфликт с таким же софтом от другого поставщика — Hewlett Packard — и обрушила систему.
В Symantec отказались от комментариев.
Обнаруживший ошибку российский программист из японской компании получил в награду часы Сбербанка, а глава банка Герман Греф извлек урок. В январе этого года он предложил вывести ответственного за автоматизацию Сбербанка старшего вице-президента Виктора Орловского из правления банка, заниматься информационными системами будет другой человек — Виктор Кулик, отвечающий за риски. Орловский же сосредоточится на инновационных проектах и венчурном фонде.
И еще Сбербанк начинает экономить на IT — в 2013 году бюджет на эти нужды впервые будет дефицитным.
Пресс-служба Сбербанка на момент сдачи материала комментарии предоставить не смогла.
Елена ТОФАНЮК