Руководители технологических компаний переоценивают устойчивость ИТ-систем после сбоя CrowdStrike

Важные новости

По данным Cockroach Labs, почти все организации имеют известные операционные недостатки, которые делают ИТ-системы уязвимыми к перебоям в обслуживании.

Технические руководители переоценивают устойчивость ИТ после сбоя CrowdStrike

На экране отображается объявление о возможных поездках задержки из-за глобального сбоя ИТ Аэропорт Гатвик 19 июля 2024 г. в Кроули, Великобритания. После сбоя руководители технологических отделов провели переоценку устойчивости ИТ, и большинство из них не были довольны тем, что обнаружили. Джек Тейлор/Стрингер через Getty Images

Руководители технологических компаний переоценили свою операционную устойчивость ИТ-систем после глобальной волны дорогостоящих сбоев систем, вызванных неисправным обновлением безопасности CrowdStrike в июле. Большинство из них были недовольны тем, что обнаружили, согласно опросу 1000 старших архитекторов облачных вычислений и руководителей инженерных служб, проведенному Cockroach Labs и Wakefield Research в августе и сентябре.

Более 9 из 10 респондентов заявили, что знают о слабостях в работе своей организации, которые делают ИТ-системы уязвимыми для дорогостоящих перерывов в обслуживании. Почти половина признала, что они не сделали достаточно для повышения устойчивости. Каждая опрошенная компания сообщила о потерях доходов из-за сбоев в работе в прошлом году.

«Сбои в работе ИТ широко распространены», — сказал Спенсер Кимбалл, генеральный директор Cockroach Labs, CIO Dive. «Но проблема CrowdStrike была настолько очевидной и предотвратимой, что люди поняли, что у них есть слепые пятна, когда дело касается критических уязвимостей».

Событие CrowdStrike застало руководителей врасплох. Хотя оно длилось менее двух часов, обновление вывело из строя миллионы систем на базе Windows, практически остановив операции в крупных авиакомпаниях и прервав банковские функции по всему миру, пока технологические команды спешили отреагировать.

Широкий охват CrowdStrike на континентах и ​​в отраслях усилил разрушительное воздействие сбоя. Кадры застрявших пассажиров, уставившихся на сообщения об ошибках на мониторах аэропортов, наглядно продемонстрировали стоимость.

«Когда вы делаете что-то действительно большим, все, что может пойти не так, идет не так в 100% случаев», — сказал Кимбалл. «Вы не можете запустить что-то в масштабе и не быть готовым к тому, что машины, системы питания и сетевое оборудование выйдут из строя — иногда это может произойти из-за того, что экскаватор случайно врежется в оптоволоконный кабель и все сломается».

Стресс-тесты

IT-неполадки носят эндемический и постоянный характер. Компании сталкиваются в среднем с 86 отключениями в год, и более половины из них сообщают о еженедельных сбоях в обслуживании, говорится в отчете. Среднее время восстановления составило 196 минут или более трех часов.

«Это приводит к большой потере производительности и большому стрессу для инженеров, у которых есть пейджеры и которые должны проводить вскрытие», — сказал Кимбалл.

Для географически распределенной операции проблемы многообразны.

United Airlines направила команды в сотни аэропортов для перезагрузки более 26 000 устройств Windows в течение нескольких дней после сбоя CrowdStrike, который произошел рано утром в пятницу, 19 июля. Как рассказал CIO Dive директор по информационным технологиям Джейсон Бирнбаум, для выполнения этой задачи сотрудникам пришлось выезжать на объекты, где в выходные отсутствовала выездная поддержка.

Реакция United, которая тем не менее привела к отмене почти 1500 рейсов, но смогла восстановить работу в течение четырех дней, не является чем-то необычным.

Cockroach Labs обнаружила, что более 9 из 10 компаний вынуждены откладывать основную работу на случай незапланированных отключений. Две трети респондентов сообщили о снижении приоритетности повседневного обслуживания ИТ и административных задач из-за сбоев, практика, которая может привести к более серьезным проблемам и росту расходов при будущих отключениях.

Отсутствие финансирования для стратегического планирования для предотвращения отключений равносильно бросанию кубика и ставит ИТ-отделы в шаткое положение. Если они не смогут поддерживать работоспособность систем, на кону могут оказаться рабочие места, сказал Кимбалл.

Более трети респондентов заявили, что бюджетные ограничения сдерживают инициативы по обеспечению готовности, а 4 из 5 выразили обеспокоенность тем, что значительное отключение или простой поставят под угрозу их рабочие места.

Финансовые последствия

Стоимость простоя варьируется в зависимости от масштаба и серьезности инцидента, а также готовности организации. Компании, опрошенные Cockroach Labs, сообщили об убытках от 10 000 долларов за ограниченный инцидент до более 1 миллиона долларов за более крупные сбои.

Аналогичный опрос 1700 специалистов в области технологий, проведенный New Relic за несколько месяцев до события CrowdStrike, показал, что простои могут стоить до 1,9 миллиона долларов в час.

Один и тот же инцидент может иметь разные последствия даже в одной отрасли.

Delta Air Lines, один из наиболее пострадавших внутренних перевозчиков в дни после июльского события, оценила CrowdStrike в 500 миллионов долларов. Авиакомпания пытается взыскать эту сумму с CrowdStrike через суд. CrowdStrike ответила встречным иском в прошлом месяце, переложив ответственность обратно на Delta.

Напротив, United не сообщала о конкретных потерях от сбоя в июле. Погода и другие неожиданные события достаточно распространены в авиационной отрасли, поэтому компания включает операционные неудачи в свои квартальные прогнозы, сказал финансовый директор компании Майк Лескинен во время октябрьской конференции по доходам.

Скотт Кирби, генеральный директор United Airlines, подробно остановился на философии компании «никаких оправданий». «Легко заставить MBA где-нибудь в кабинете прийти в 9 утра в понедельник в кондиционированный офис и подсчитать, сколько стоит какое-то событие, находящееся вне вашего контроля», — сказал он во время конференции по доходам. «Если у вас есть мантра «никаких оправданий», и вы не позволяете людям даже подсчитывать эти цифры, это заставляет их искать инновации».

По данным Cockroach Labs, большинство компаний не готовы выдержать влияние крупного сбоя. Только пятая часть респондентов опроса заявила, что их организация полностью готова к таким событиям, и только у одной трети есть полный план реагирования.

«Лучшие компании имеют долгосрочный план постоянного и действительно решительного развития своих ИТ-практик и устойчивости», — сказал Кимбалл.

Новости сегодня

Последние новости