Автор: Яков Гродзенский, директор департамента информационной безопасности компании «Системный софт»
Современный бизнес зависит от информационные технологий и остро нуждается в обеспечении бесперебойности процессов: даже час простоя сервисов в кредитно-финансовых или телекоммуникационных компаниях может привести к огромным убыткам. Непрерывность деловой активности напрямую связана с ИТ и критически важна для любой организации, будь то крупные ритейлеры, агентства по продаже авиабилетов или государственные структуры. В промышленности, на инфраструктурных предприятиях или в транспортной сфере все ещё серьёзнее: с внедрением цифровых технологий отказы ИТ-сервисов могут привести не только к финансовым потерям, но и к техногенным катастрофам. Разумеется, небольшим компаниям обычно нет смысла внедрять планы по обеспечению непрерывности, они решают проблемы неформально. Но для крупного бизнеса риски несравнимо более высоки.
Экскурс в историю
Впервые о бизнес-непрерывности задумались в пятидесятых годах прошлого века – инженеры стали всерьез заниматься проблемой аварийного восстановления деятельности (disaster recovery) после инцидентов. Окончательное формирование этой практики случилось в восьмидесятые годы, а следующее десятилетие, с его бурным развитием технологий, увеличило сложность используемых подходов.
Понятие непрерывности бизнеса или BCM (Business Continuity Management) пришло на смену аварийному восстановлению во второй половине девяностых, но многие специалисты до сих пор путают эти вещи. Сегодня уже недостаточно резервного копирования данных, холодной или горячей резервной площадки. Проблема бесперебойной деятельностью всей организации затрагивает производственное оборудование и технологические процессы, средства коммуникации, персонал и многое другое. Мы сосредоточимся преимущественно на ИТ-системах, поскольку их отказ может полностью парализовать деятельность компании.
Стандарты и инструменты
Существует множество международных организаций, занимающихся проблемами непрерывности бизнеса. Наиболее известным считается разработанный в BSI (British Standard Institute) стандарт BS25999. Стоит упомянуть лучшие практики британского BCI (Business Continuity Institute), а также американских DRI (Disaster Recovery Institute) и SANS (SysAdmin, Audit, Network, Security Institute) и руководства Австралийского национального агентства аудита (ANAO).
Сюда же можно добавить различные национальные, отраслевые и даже внутренние корпоративные нормативы — в этом информационном море легко утонуть. Хуже всего, что описывающие теоретические основы документы не отвечают на простой вопрос: «Как решить проблему на практике?».
Инициируем проект
Мы попытаемся свести имеющиеся методики воедино и будем рассматривать обеспечение непрерывности бизнес-процессов как проект – поэтапно. Важно понимать, что его реализация – непрерывный циклический процесс, учитывающий изменения бизнеса, российского и международного законодательства, технологические инновации.
Цель нашего проекта – создать и внедрить корпоративную программу управления непрерывностью бизнеса (BCM). Для начала нужно будет сформулировать его содержание и составить пошаговый план выполнения. Затем – определить роли членов команды, цели проекта и подумать, как проводить мониторинг и контроль. Чтобы проект не забуксовал, стоит создать специальный комитет из представителей всех заинтересованных сторон — он должен периодически собираться для обсуждения хода работы и возникающих проблем.
Работая над созданием плана, важно понять, потребуется ли для реализации проекта привлечение сторонних консультантов или удастся справиться своими силами. Стоит даже выделить менеджера по непрерывности бизнеса для управления проектом — сотрудника компании или консультанта на аутсорсе.
Анализируем воздействие на бизнес
Шаг номер один: проводим детальное изучение бизнес-процессов (Business Environment Analysis, BEA) компании и определяем требования по непрерывности.
Чаще всего отвечающий за выполнение проекта консультант проводит интервью с руководителями затронутых проектом отделов. Составляется перечень процессов и начинается работа с их владельцами: нужно определить тип воздействия процесса на бизнес, степень его зависимости от ИТ, а также максимально допустимое время простоя (Maximum Allowable Outage, MAO), по истечении которого возникает угроза утраты жизнеспособности организации.
Определив MAO для каждого бизнес-процесса, нужно обозначить допустимое время их восстановления (recovery time objective, RTO) и целевую точку восстановления (recovery point objective, RPO) — обычно это временной диапазон перед возникновением чрезвычайной ситуации, данные за который могут быть утрачены. Стоит обозначить и допустимые уровни производительности (Level of Business Continuity, LBC) в чрезвычайных ситуациях — обычно в процентах от режима штатной работы.
При оценке воздействия (Business Impact Analysis, BIA) проводится анализ влияния процессов на весь бизнес в целом. В результате должен быть составлен перечень критических процессов и их взаимозависимостей, а также определены сроки простоя и восстановления как самих процессов, так и связанных с ними информационных систем. Дальше потребуется анализ рисков (Risk Analysis, RA), во время которого оцениваются уязвимости, угрозы непрерывности процессов и эффективность их предупреждения.
Определив процессы, которые могут нарушить деятельность компании, а также возможный ущерб, мы сможем предсказать потенциальные опасности, источники угроз и собственные уязвимости.
Стратегия и планы
Шаг номер два: вырабатываем правильную стратегию непрерывности бизнеса (Business Continuity Strategy definition), затрагивающую все аспекты деятельности компании.
Для каждого направления создаётся отдельный раздел, описывающий возможные технические и организационные решения по оперативному восстановлению бизнес-процессов. Используемые ИТ-решения — это в основном горячие и холодные резервные площадки, средства динамического распределения нагрузки, а также мобильные площадки и мощности сторонних поставщиков услуг (аутсорсинг). Отличаются они в основном стоимостью и временем восстановления деятельности.
Необходимо создать планы непрерывности бизнеса (Business Continuity Plan, BCP) и восстановления инфраструктуры в чрезвычайных ситуациях (Disaster Recovery Plan, DRP), а также создать техническую и организационную системы BCM. Планы обычно предполагают наличие трёх этапов восстановления непрерывности: реагирование на инцидент, выполнение критичных для бизнеса процессов в условиях чрезвычайной ситуации и переход в режим штатной работы.
Внедрение и сопровождение
Шаг номер три: закупаем и внедряем выбранные решения.
Внедрение – сложный процесс, который может потребовать привлечение стороннего подрядчика. Но даже завершив его, не стоит почивать на лаврах – обеспечение непрерывности бизнеса, процесс непрерывный и циклический.
Корпоративную программу BCM придется не только постоянно совершенствовать, но и интегрировать в корпоративную культуру. Не удастся и ограничиться только составлением планов – их нужно будет тестировать, либо настольными проверками (Tabletop), имитациями (Imitation) или полным тестированием (Full business continuity testing). По итогам тестов составляются отчеты с используемыми сценариями и полученными результатами, а также с предложениями по улучшению имеющихся планов. Обновляют их обычно ежегодно, а иногда и чаще — в случае существенных изменений в ИТ-инфраструктуре, например, или в законодательстве.
Связь с ИБ
Специалисты разделяют планы непрерывности бизнеса и планы аварийного восстановления, однако роль политики информационной безопасности в программе BCM не всем очевидна.
Один из недавних случаев – происшествие на московской канатной дороге, деятельность которой была полностью парализована в результате кибератаки. Каким бы хорошим не был в этом случае Disaster Recovery Plan, быстро наладить работу предприятия он не помог — восстановленные из резервной копии серверы будут подвержены тем же уязвимостям. Именно поэтому в планы обеспечения непрерывности бизнеса необходимо было включить перечень действий в случае успешной атаки на ИТ-инфраструктуру, позволяющий сократить время простоя без риска для пассажиров.
В промышленности угроз намного больше. Если в качестве примера взять считающуюся в России наиболее высокоавтоматизированной нефтегазовую отрасль, то технологическими процессами на добывающих, перерабатывающих и сбытовых предприятиях фактически управляют компьютеры. Никто не снимает вручную показания аналоговых приборов, их заменили цифровые датчики и умные системы мониторинга.
Задвижки, клапаны и другие исполнительные устройства тоже стали цифровыми. Если успешная атака на АСУ ТП прервёт технологический процесс на несколько секунд, это может привести к остановке предприятия на многие часы или недели, к выходу из строя дорогостоящего оборудования и даже к серьёзным техногенным катастрофам. До недавних пор считалось, будто изоляция технологической части от сетей общего пользования делает хакерские атаки на АСУ ТП невозможными, но с развитием цифровизации производства эта изоляция уменьшается, а количество угроз растёт. Кроме промышленности есть и другие сферы деятельности, к тому же не все критичные для бизнеса сервисы могут быть изолированы.
Главный вывод – стратегия информационной безопасности должна быть тесно интегрирована в общую корпоративную программу обеспечения непрерывности бизнеса. Для этого нужны комплексные решения, способные свести воедино все инструменты, обеспечивающие доступность ресурсов и защиту от хакерских атак, конфиденциальность и целостность данных, а также автоматизированный контроль исходного кода и безопасности приложений. На этапах анализа рисков и оценки воздействия на бизнес необходимо учесть возможное наличие в информационных системах подверженных атакам злоумышленников уязвимостей, а в Business Continuity Plan придётся включить процедуры получения актуальных данных об угрозах для ИТ-инфраструктуры, их критичности и наличии исправлений. Стратегия обеспечения непрерывности бизнеса должна также предусматривать процедуры восстановления работы сервисов после успешных атак.
Источник: