Huawei Cloud создала сетевой монитор, настолько чувствительный, что он обнаружил влияние одного неисправного чипа

Важные новости

Huawei Cloud создала сетевой монитор настолько чувствительный, что он заметил воздействие один неисправный чип» /></p>
<p>Sigcomm 2024 Компания Huawei Cloud разработала инструмент мониторинга сети, который при использовании в производстве в трех собственных регионах смог наблюдать за большей частью ее инфраструктуры, чем существующие инструменты, и выявил проблемы, которые раньше ускользали от человеческих усилий.</p>
<p>Инструмент называется RD-Probe и подробно описан в документе [PDF], представленном во вторник на конференции SIGCOMM 2024 в Сиднее.</p>
<p>В статье объясняется, что сетевой мониторинг жизненно важен, но его трудно достичь в гипермасштабе. Авторы — некоторые из Huawei, а другие из Школы компьютерных наук Пекинского университета — ссылаются на исследование AWS [PDF], в котором говорится, что облако Amazonian имеет 1087 внутрирегиональных комбинаций каналов-путей и 10176 межрегиональных комбинаций каналов-путей (а также показывает, что сети центров обработки данных Huawei Cloud включают более 100 000 коммутаторов и миллион серверов). Мониторинг всей этой инфраструктуры и всех этих путей — в виртуализированной среде, которая использует случайность для балансировки нагрузки — очень затрудняет сбор достаточного количества данных о том, что происходит на уровне 2.</p>
<p>RD-Probe — это попытка Huawei Cloud решить эту проблему. Разработчики инструмента решили контролировать каждый физический порт уровня 2, поскольку это означает, что они могут наблюдать за состоянием работы коммутационных фабрик. Авторы пишут, что если рассматривать только уровень 3, то некоторые порты не будут контролироваться.</p>
<p>Мониторинг физических портов также помогает достичь большего покрытия, чем это возможно при наблюдении за виртуальными сетями, которые по своей природе абстрагируют некоторые ресурсы, используемые для их работы. Это нежелательно, поскольку без всестороннего покрытия инструменты сетевого мониторинга будут иметь слепые зоны, которые означают, что проблемы будут пропущены.</p>
<p>В статье отмечается, что RD-Probe «бесшовно интегрируется с существующей архитектурой мониторинга» и «только изменяет модули генерации задач и обработки данных».</p>
<p>Инструмент начинает со случайной генерации зондов, а затем делает это снова детерминированно. Эта двухфазная схема снова выполняется во имя достижения требуемого покрытия мониторинга.</p>
<p>Выделенный кластер из 16 узлов, в котором каждый сервер запускает неназванный восьмиядерный процессор 2,80 ГГц с 64 ГБ памяти, генерирует зонды. Данные, генерируемые зондами, обрабатываются потоковым кластером из 48 узлов, в котором каждая машина использует 16-ядерный процессор 2,80 ГГц с 32 ГБ памяти.</p>
<p>В течение месяца использования RD-Probe Huawei Cloud обнаружил «множество ранее незамеченных проблем».</p>
<p>К счастью, большинство из них «вызывали только симптомы медленного сбоя или периодическую потерю пакетов» и были обнаружены до того, как пользователи почувствовали ухудшение качества обслуживания. Это порадовало Huawei, поскольку авторы статьи оценили проблему как «трудно обнаруживаемую при ручном осмотре».</p>
<p>Неисправности, обнаруженные RD-Probe и пропущенные другими инструментами, включали:</p>
<ul>
<li>Неисправный чип в блоке обработки линии основного коммутатора, используемого в службе хранения объектов, что привело к потере входящих пакетов и невозможности сообщить о проблеме на уровень управления;</li>
<li>Неправильная балансировка нагрузки, из-за которой трафик проходил только через локальный порт, а не через стековые кабели;</li>
<li>Использование неверных значений для некоторых маршрутов BGP, что привело к медленному трафику.</li>
</ul>
<p>Исследователи Huawei довольны RD-Probe, поскольку он улучшил покрытие мониторинга сети с 80,9 процента ресурсов до 99,5 процента и «выявил несколько ранее незамеченных проблем, допуская при этом многочисленные сбои».</p>
<p>В ближайшее время концерн планирует внедрить его в большем количестве облачных регионов.</p>
<p>Но в статье Авторы также отмечают, что RD-Probe не учитывает трафик Север-Юг и не может отфильтровывать сбои на стороне сервера. Исправление этих проблем остается в списке дел Huawei. ®</p>
</div></div><div class=

Новости сегодня

Последние новости