1
  1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
Приветствуем вас,Гость, на форуме IFUD.WS. Обязательно рекомендуется к прочтению правила форума http://ifud.ws/threads/obnovleno-pravila-foruma.7759

Ит-Директор «Сбербанка» Раскрыл Причины Масштабного Сбоя

Тема в разделе "Новости IT", создана пользователем FTALP, 9 июл 2012.

  1. TopicStarter Overlay
    FTALP

    FTALP Гость


    Сбой, в результате которого клиенты «Сбербанка» три часа не могли воспользоваться картами и онлайн-банкингом, был вызван ошибкой в СУБД.

    Вечером в пятницу, 6 июля, «Сбербанк» прекратил обслуживание всех дебетовых и кредитных карт, а также системы интернет-банкинга. Please login or register to view linksдлился с 17 до 20 часов.

    Старший вице-президент, ИТ-директор «Сбербанка» Виктор Орловский Please login or register to view links о произошедшем сбое попросил прощения за доставленные неудобства «у всех вас, тех кто не смог в эти три часа получить сервис», и рассказал детали возникшего инцидента.

    Процессинг «Сбербанка» (система называется Way4), по словам Орловского, работает на базе данных Oracle (11 версии) и обслуживает 70 млн карт, по которым проводится около 15 млн онлайн-транзакций в день.

    «Oracle пишет логи в онлайн журналы, которые затем автоматически (типа FIFO буфера) сбрасываются на диски. Таким образом, журналы никогда не переполняются», – объяснил он.

    «По какой-то причине (пока не понятно по какой) СУБД перестал удалять события из журналов. После чего не прошел один из checkpoint-ов в системе, и она перестала отвечать на действия администратора, – сообщил ИТ-директор. – Систему перевели на резервный комплекс и запустили recovery базы».

    Но recovery, по словам Орловского, «остановился посередине пути и не был завершен». Процедуру возобновили «в полуручном режиме, убрав параллельную (многопроцессорную) обработку». «Поэтому получилось долго – последовательная обработка recovery и большой объем данных, требующих «наката» в базу», – добавил он.

    Для выяснения причин произошедшего с базой данных специалисты «Сбербанка» в субботу, 7 июля, обрабатывали «все системные логи – что достаточно трудоемко и не тривиально». «Причину обязательно установим. Нам это крайне важно», – пообещал Орловский.

    На вопрос читателей CNews об архитектуре системы Орловский рассказал: «У нас используется IBM P 795 c AIX7, базы Oracle 11.2.02 пока без RAC (на RAC переходим в октябре). ГЕО кластер. Дисковые массивы HP».

    В ходе дискуссии с читателями CNews ИТ-директор «Сбербанка» сообщил, что специалисты банка без тестирования ничего не внедряют и ни одной настройки не меняют.

    Также он сказал, что к расследованию инцидента подключились сотрудники разработчика СУБД: «Сейчас на конференции с Oracle сижу… вроде как разработчики – должны знать, как их система работает…».

    В ходе дискуссии читатели CNews посоветовали «Сбербанку» нанять «хорошего админа и хорошего DBA»: «Они, правда, обычно не умеют ходить к 9-00, не любят костюмы и посиделки после 19-00. Но при всей не корпоративности такие люди легко держат в отличном состоянии базы на терабайты и десятки серверов».

    «Если таких адимнов знаете, посылайте на мой мейл. Обещаю не брить, не мыть и галстуки не надевать. Главное, чтобы дело знал», – предложил Виктор Орловский, оставив в комментарии адрес электронной почты.

    На призывы некоторых читателей уйти в отставку ИТ-директор «Сбербанка» сказал: «Вопрос по своей отставке не комментирую, потому как все бросить и отойти в сторону – это самое легкое, что можно сделать (и всегда перовое, что приходит в голову, когда такое происходит) … А самое сложное – это взять себя в руки и найти решение, чтобы таких инцидентов не было».

    С полным текстом дискуссии можно ознакомиться Please login or register to view links.

    Please login or register to view links
     
    • Like Like x 2
    Метки:

Поделиться этой страницей

Загрузка...