Интервью Хаос CrowdStrike был вызван программным обеспечением, работающим в ядре Windows после того, как обновление сработало. eBPF — полезный инструмент для трассировки ядра и обеспечения наблюдаемости, но могло ли оно смягчить последствия инцидента с CrowdStrike?
«Это интересно», — сказал Том Уилки, технический директор компании Grafana Labs, специализирующейся на обеспечении наблюдаемости, в интервью The Register, — «потому что в среде выполнения eBPF была уязвимость, которая вызвала аналогичное отключение, которое также было вызвано CrowdStrike в определенном ядре Red Hat».
Датчик Falcon от CrowdStrike также связан с паническими сбоями и сбоями ядра Linux
ЧИТАТЬ ДАЛЬШЕ
Уилки ссылается на инцидент в июне, когда Red Hat предупредила своих клиентов о проблеме, связанной с датчиком Falcon от CrowdStrike. Проблема померкла по сравнению с тем, что произошло несколько недель спустя, когда обновление CrowdStrike оставило 8,5 миллионов компьютеров Windows по всему миру в синем экране загрузки.
eBPF позволяет программному обеспечению работать на виртуальной машине (ВМ) в ядре Linux, позволяя разработчикам добавлять возможности во время выполнения. Теория гласит, что программа eBPF не может вызвать сбой ядра, поскольку она работает в песочнице и проверяется верификатором на безопасность. Из-за низкого уровня, на котором работают некоторые программы, это популярный способ реализации наблюдаемости и безопасности.
Работа по внедрению технологии для Windows продолжается.
«Так что eBPF может быть решением», — продолжил Уилки, — «но он также был исторической причиной этих проблем. Я имею в виду, что по сути внедрение кода в работающие ядра — рискованное занятие. Это была проблема CrowdStrike. И в eBPF все еще могут быть ошибки; гарантии безопасности, предлагаемые средой выполнения eBPF и верификатором eBPF, не идеальны».
«Концепция eBPF хороша, но реализация — как и все реализации — имеет ошибки. Теперь, можно ли поймать что-то вроде инцидента CrowdStrike с eBPF? Да. Вероятно. Но, честно говоря, вы также можете поймать его, просто проведя лучшее тестирование, и это мой совет. Улучшите гигиену разработки программного обеспечения. И это урок, который CrowdStrike уже усвоила».
Генеральный директор Crowstrike Джордж Курц сказал на конференции Goldman Sachs Communacopia and Technology в начале этого месяца, что странный инцидент стал причиной июльской катастрофы.
«Итак, в этом конкретном случае у нас было изменение конфигурации, которое выглядит так, будто нет никакого кода, это просто конфигурация, которую потребляет датчик. И мы прошли процесс проверки и проверили все это. Они действительно работали. Проблема в том, что у нас их было 21, а датчик понял 20. И это простое объяснение того, что произошло.
«Итак, что мы изменили с точки зрения процесса? Ну, теперь мы проводим изменения конфигурации не только через проверку, но и через все различные процессы контроля качества кода, которые у нас есть, а затем развертываем это поэтапно, а также предоставляем клиентам выбор того, как они хотят развертывать этот контент».
В разговоре с нами перед нью-йоркской конференцией ObservabilityCON на этой неделе, в ходе которой Grafana Labs объявит об улучшениях своих приложений Explore и адаптивных функций, Уилки также высказал мысли на другую современную тему: репатриация в облако и финансирование разработки с открытым исходным кодом.
Запуск пользователей в облаке является центральным элементом миссии Grafana. Уилки говорит, что компания продолжает наблюдать рост использования своего облака — как с точки зрения количества пользователей, так и доходов — но происходит ли репатриация? «Я бы согласился с этим мнением», — признает он.
«Похоже, что за последний год или два на рынке произошел сдвиг, как после нулевых процентных ставок, когда люди более критически смотрят на экономику облака и понимают, что многие SaaS и Infrastructure-as-a-Service просто нежизнеспособны с точки зрения затрат».
В недавнем представлении в Управление по конкуренции и рынкам Великобритании облачный гигант AWS предупредил, что он сталкивается с жесткой конкуренцией со стороны той самой локальной инфраструктуры, которую он отверг как устаревшую не так много лет назад.
По словам Уилки, решение Grafana Labs заключается в том, чтобы сделать свое облако более привлекательным. У него есть локальная версия, но такие функции, как адаптивные метрики и журналы, доступны только в облаке. Уилки говорит, что клиенты считают более экономически выгодным использовать облако Grafana Labs для многих приложений, чем пытаться развернуть свое собственное — ну, он бы так и сделал, мы предполагаем.
Что приводит нас к тому, что Grafana Labs остается жизнеспособным бизнесом и решает, какие сервисы сделать открытыми, а какие оставить проприетарными.
… люди более критически смотрят на экономику облака и понимают, что многие SaaS и инфраструктура как услуга просто нежизнеспособны с точки зрения затрат
Уилки объясняет: «Мы называем это „тестом на запах“. Если функция будет использоваться в целом очень большой группой людей, мы сделаем ее с открытым исходным кодом; если она понравится только небольшой группе предприятий или крупным организациям, то мы рассмотрим возможность сохранения ее в качестве коммерческой дифференциации».
Он приводит пример: «У Grafana более 200 источников данных, к которым вы можете подключить Grafana практически где угодно, и около 170 из них имеют открытый исходный код. Тридцать из них — это коммерческие интеграции, которые мы продаем как часть Grafana Enterprise».
«Хорошим примером коммерческой интеграции может быть Datadog. Одним из наших самых популярных корпоративных источников данных является Datadog. Если вы платите Datadog за хранение своих показателей и хотите визуализировать их в Grafana, вы также можете заплатить нам немного денег! Кажется, это честный обмен ценностями».
Уилки также ссылается на проекты Grafana с открытым исходным кодом. Клиент может создавать решения с их помощью, но, повторяя комментарии, сделанные в El Reg Келси Хайтауэр, Grafana была бы более чем счастлива продать им управляемую услугу, требующую кредитной карты для запуска в течение нескольких минут. ®