Backblaze отмечает рост количества отказов дисков и спрашивает, может ли ИИ помочь

Важные новости

Backblaze видит рост показателей отказов дисков и спрашивает, может ли ИИ помочь

Backblaze опубликовала последний отчет, в котором подробно описаны показатели отказов множества дисков, используемых в ее службах хранения и резервного копирования, и изучает последние тенденции в показателях, а также рассматривает, может ли ИИ снизить эти показатели отказов.

Как поставщик услуг хранения данных, Backblaze отслеживает целый парк дисков различных марок и моделей в своих центрах обработки данных. Без учета загрузочных устройств это составило 284 876 жестких дисков на конец второго календарного квартала 2024 года.

Однако компания вычла некоторые модели накопителей, включая те, которые не имели по крайней мере 100 единиц в эксплуатации и те, которые не накопили 10 000 или более дней работы накопителей в течение квартала, оставив 284 386 накопителей, разделенных на 29 различных моделей, для анализа.

При всей шумихе вокруг ИИ в последнее время неизбежно возник вопрос о том, можно ли его использовать для прогнозирования отказов жестких дисков. Фактически, предиктивное обслуживание долгое время рассматривалось как вариант использования машинного обучения в ИТ и других областях инженерии.

Для жестких дисков это может включать обучение Backblaze LLM с использованием данных Drive Stats для определенного типа диска за последний год, а затем проверку того, может ли этот диск использовать вывод для предоставления вероятности отказа определенного устройства с течением времени.

Однако, по словам главного евангелиста Backblaze в области облачного хранения данных и автора отчета Энди Кляйна, один аспект, который не ясен, заключается в том, можно ли то, что ИИ узнает об одном варианте накопителя, применить к другому, поскольку профиль отказа для каждого из них может радикально отличаться от других. Кляйн ссылается на диаграмму змеи (последнее изображение в этой статье), чтобы проиллюстрировать это; Может ли LLM, обученный на данных с дисков Seagate емкостью 4 ТБ (черная линия), предсказать отказы любого из дисков HGST емкостью 4 ТБ (фиолетовая и коричневая линии)?

В течение следующих нескольких месяцев Backblaze намерена рассмотреть научные статьи и исследования, в которых рассматривалась возможность использования ИИ/МО для прогнозирования отказов дисков, чтобы попытаться пролить свет на этот вопрос.

Что касается дискового парка объемом 284 КБ и более, Backblaze обнаружила, что общий годовой коэффициент отказов (AFR) во втором квартале составил 1,71 процента, что ниже показателя в 2,28 процента, зарегистрированного за аналогичный период прошлого года, но выше показателя в 1,41 процента, зафиксированного в первом квартале этого года.

Backblaze отмечает рост количества отказов дисков, спрашивает если искусственный интеллект может помочь

«Хотя квартальное увеличение было немного неожиданным, ожидаются квартальные колебания AFR», — отметил Кляйн.

Backblaze сообщает, что HGST емкостью 12 ТБ Drive (HUH721212ALN604) дал повод для беспокойства, достигнув AFR 7,17 процента во втором квартале. 

Кляйн говорит, что квартальные показатели отказов для этого устройства нехарактерны, но теперь они появились около года назад. В результате AFR за весь срок службы вырос с 0,99 процента до 1,57 процента для этого варианта, и компания пристально следит за развитием событий.

Другим примечательным открытием является то, что две модели дисков не имели отказов в течение квартала, обе модели — продукты Seagate (14 ТБ ST14000NM000J и 16 ТБ ST16000NM002J). Однако у них относительно небольшое количество дисков, работающих с Backblaze.

Backblaze сообщает, что самая старая модель накопителя данных, которая все еще находится в производстве, — это Seagate (ST4000DM000) на 4 ТБ, но данные на них планируется перенести на более новые (и, предположительно, более крупные) накопители в течение следующего квартала или двух.

Однако самый старый отдельный накопитель данных, который все еще находится в эксплуатации, — это накопитель HGST на 4 ТБ (HMS5C4040ALE640), который проработал девять лет, 11 месяцев и 23 дня на конец второго квартала. Хранилище Backblaze, в котором находится этот накопитель, сейчас находится в процессе миграции.

По словам Кляйна, цель Backblaze при сборе всей этой статистики — разработать профиль отказов для данного диска с течением времени, что поможет компании разработать стратегии замены и миграции.

На следующих диаграммах показаны изменения в течение срока службы. AFR для находящихся в эксплуатации моделей приводов, отработавших не менее одного миллиона дней эксплуатации по состоянию на конец второго квартала 2024 года.

На первой диаграмме средний возраст в месяцах отображается в зависимости от годовой частоты отказов для 14 различных дисков, средний возраст которых составляет 60 месяцев или меньше. На второй диаграмме показаны девять типов, для которых средний возраст превышает 60 месяцев, причем это разделение выбрано, поскольку этот период времени является типичным гарантийным сроком для жестких дисков корпоративного класса.

Backblaze видит, что частота отказов дисков растет, спрашивает, может ли ИИ помочь

На первой диаграмме диски в квадранте I рассматриваются Backblaze как хорошо работающие, с AFR менее 1,5 процента, в то время как диски в квадранте II имеют показатели отказов выше 1,5 процента, но все еще приемлемые. Диски в квадранте IV относительно новые и только начинают устанавливать свой профиль отказов. Хотя в квадранте III нет дисков, это не должно вызывать беспокойства, поскольку некоторые модели дисков могут демонстрировать более высокие показатели отказов на ранней стадии.

Backblaze видит рост показателей отказов дисков и спрашивает, может ли ИИ помочь

На второй диаграмме диски распределены по всем четырем квадрантам, причем квадрант I представляет те, которые работают хорошо, как и прежде, в то время как квадранты II и III — это «диски, о которых нам нужно беспокоиться», по словам Кляйна, а модели квадранта IV пока выглядят хорошо.

Однако для того, чтобы лучше проиллюстрировать изменение частоты отказов с течением времени, Backblaze придумала новый график. Узрите змеиную диаграмму! Она показывает частоту отказов за весь срок службы каждой из девяти моделей старше 60 месяцев с течением времени, начиная с 24 месяцев, чтобы сделать диаграмму менее запутанной.

Результаты показывают, что различные типы распределяются либо по квадрантам I, либо по квадрантам II, когда их средний возраст превышает 60 месяцев, причем пять из девяти моделей находятся в квадранте I по состоянию на второй квартал 2024 года.

Backblaze видит, что частота отказов дисков растет, спрашивает, может ли ИИ помочь

Линии с почти вертикальными линиями (красная, коричневая и фиолетовая) указывают на то, что их показатели отказов были постоянны с течением времени. Однако синие и серые линии представляют модели дисков, которые увеличили свои показатели отказов по мере своего старения.

Несмотря на это, Кляйн говорит, что синяя линия (Seagate ST800DM002) в основном представляет нормальный профиль отказов, так как его показатель отказов за первые 60 месяцев постоянно составлял около 1 процента.

Из тех моделей дисков, которые оказались в квадранте II, три имеют схожие профили отказов; они достигли определенной точки своего жизненного цикла, и их кривая начала изгибаться вправо по мере ускорения их показателя отказов. Черная линия представляет диск Seagate емкостью 4 ТБ, который, по словам Кляйна, «агрессивно мигрирует» и заменяется другими дисками.

Как всегда, Backblaze предоставляет свой полный набор данных Drive Stats бесплатно, чтобы любой желающий мог загрузить и проанализировать его самостоятельно. Единственным условием является то, что при использовании данных вы должны указывать Backblaze как источник, и вы не можете продавать данные. ®

Новости сегодня

Последние новости