По данным опроса New Relic, компании теряют до 1,9 млн долларов в час из-за таких важных событий, как сбой в работе CrowdStrike.
На экране отображается объявление о возможных поездках задержки из-за глобального сбоя в работе ИТ-систем Аэропорт Гатвик 19 июля 2024 г. в Кроули, Великобритания. Сбои в работе ИТ обходятся компаниям до 1,9 млн долларов в час, согласно отчету New Relic. Джек Тейлор/Stringer через Getty Images
Краткий обзор:
- Среднее годовое время простоя из-за сбоев в работе ИТ с высоким уровнем воздействия составляет 77 часов, а почасовая стоимость составляет до 1,9 млн долларов, согласно отчету, опубликованному во вторник New Relic. Компания по наблюдению поручила ERT опросить 1700 специалистов по технологиям в апреле и мае.
- По словам респондентов, ИТ-отделы тратят в среднем 30% своего времени на устранение перебоев — эквивалент 12 часов за 40-часовую рабочую неделю. Основными причинами незапланированных отключений, зарегистрированными за последние два года, были сбои в работе сети, проблемы со сторонними службами и человеческие ошибки.
- По словам Ника Бендерса, главного технического стратега New Relic, крупные сбои, такие как глобальное событие, вызванное некорректным обновлением систем Windows CrowdStrike в июле, могут привести к остановке работы. Но мелкие проблемы также могут нарастать как снежный ком. «Это не обязательно должен быть CrowdStrike, чтобы это был пожар с тремя сигналами тревоги», — сказал он CIO Dive. «Вы можете вывести из строя бизнес-функцию ИТ с помощью относительно небольшой технической проблемы».
Инсайт Dive:
Всего лишь автоматическое обновление программного обеспечения, отправленное вскоре после полуночи по восточноевропейскому времени 19 июля, привело к сбою миллионов компьютеров на базе Windows по всему миру. Обновление CrowdStrike было доступно всего лишь чуть больше часа, но его последствия ощущались в течение нескольких дней, поскольку несколько крупных авиакомпаний пытались перезагрузить рабочие станции и восстановить работу, отменив тысячи рейсов.
«Инцидент с CrowdStrike — это отдельный класс, поскольку он непропорционально сильно повлиял на некоторые из крупнейших компаний мира — это была «отравленная пилюля», от которой этим компаниям пришлось избавляться самостоятельно», — сказал Бендерс.
Когда руководители оценили убытки, которые достигли 5,4 млрд долларов среди компаний из списка Fortune 500 и обошлись Delta Air Lines в 500 млн долларов всего за пять дней, в центре внимания оказались вопросы устойчивости ИТ и планирования восстановления.
«Когда случается что-то вроде сбоя облачного провайдера, проблема редко бывает изначально очевидной», — сказал Бендерс. «Ваши сигналы тревоги срабатывают, загораются тикеты поддержки, и вы в хаосе, но на этом первом шаге вы просто пытаетесь охарактеризовать природу проблемы».
В то время как крупные сбои в работе поставщиков и киберсобытия, как правило, попадают в заголовки, сценарии «смерть от тысячи сокращений», включающие более мелкие перерывы, встречаются гораздо чаще. Среднее число ежегодных сбоев среди респондентов составило 232, причем более половины компаний еженедельно испытывают сбои с небольшим воздействием.
Расходы может быть трудно оценить, особенно в случае проблем с небольшим воздействием. Но минуты или часы, которые требуются инженерным группам для выявления и устранения даже незначительных сбоев в работе ИТ, складываются. В течение года команды тратят около 134 часов — что эквивалентно почти шести полным дням — на устранение сбоев ИТ на всех уровнях влияния на бизнес.
«Все сводится к деньгам», — сказал Бендерс. «Я бы взял 1000 инцидентов в неделю, если бы они стоили нулевых денег. Это вообще не инцидент».