AMD делает ставку на стоечные вычисления, чтобы повысить эффективность искусственного интеллекта в 20 раз к 2030 году

Важные новости

AMD bets on rack-scale compute to boost AI efficiency 20x by 2030

Учитывая, что закон Мура находится на последнем издыхании, а энергопотребление центров обработки данных вызывает все большую обеспокоенность, AMD ставит перед собой новую амбициозную цель — повысить энергоэффективность своих чипов в 20 раз до 2030 года. И it рассматривает стоечную архитектуру как ключевой момент для достижения этой цели.

«Что здесь нелогично… «чем больше устройство, тем оно эффективнее», — говорит старший вице-президент AMD Сэм Наффцигер в интервью El Reg. «Но мы получаем то, что раньше представляло собой целую линейку вычислительных устройств в одном корпусе».

Компания AMD одной из первых применила эту логику к своим процессорам, применив чиплетную архитектуру, которая позволила ей преодолеть ограничения по сетке и повысить производительность от каждого потребленного ватта.Конечной кульминацией этой философии стали APU и графические процессоры AMD серии MI300, которые представляли собой плотный «сэндвич» из трехмерных вычислений, матриц ввода-вывода и промежуточных устройств.

Спасение стоечных весов

Теперь AMD выходит за рамки набора микросхем и даже узлов и нацелена на повышение эффективности стоечных весов в ближайшие несколько лет.

«Только так мы сможем добиться дальнейших значительных улучшений, если сможем разрабатывать архитектуры практически на уровне центров обработки данных», — сказал Наффцигер.

AMD не первая, кто пришел к такому выводу. В прошлом году на выставке GTC компания Nvidia представила свою первую стоечную систему GB200 NVL72. Традиционно в графических системах обеих компаний использовались высокоскоростные межсоединения, такие как NVLink или InfiniBand, для объединения ресурсов, в результате чего четыре или восемь ускорителей функционировали как один большой процессор.С GB200 NVL72 Nvidia расширила масштабируемую сеть до уровня стойки, используя 18 чипов-коммутаторов NVLink, чтобы 72 графических процессора Blackwell Monster мощностью 120 кВт работали как единое целое.Весной этого года Nvidia обнародовала свои планы по расширению этой архитектуры до 144, а в перспективе и до 576 графических процессоров и до 600 кВт мощности.Однако идея возникла гораздо раньше.

«Rack scale — это действительно новое изобретение масштабируемой мультипроцессорной системы, которую IBM использовала в 80-х годах с разделяемыми пространствами памяти, загрузкой и хранением», но вместо нескольких десятков мэйнфреймов System/370 мы теперь говорим о десятках, а возможно, и сотнях графических процессоров, утверждает Наффцигер.

Первая вычислительная платформа AMD для стоечных вычислений должна появиться в следующем году с выпуском модели MI400. Наффцигер предполагает, что она будет работать по той же базовой формуле, что и системы NVL от Nvidia, хотя в ней будет использоваться универсальный ускоритель UALink, а не NVLink interconnect. Однако в будущем дизайн может немного отличаться.

В частности, Наффцигер ожидает, что фотонные межсоединения смогут заменить медь в тканях массового производства в течение следующих пяти лет. Объединенная оптика (CPO) уже давно обещала большую пропускную способность и охват по сравнению с медными кабелями или трассировками, но ее применение сдерживалось повышенным энергопотреблением, связанным с лазерами.

«Все зависит от экономики, и мы находимся на том этапе, когда экономика будет отдавать предпочтение оптике», — сказал Наффцигер.

Несмотря на все преимущества оптики в комплекте, она не идеальна. 

«Существуют датчики температуры, чувствительные к оптическому излучению», — сказал Наффцигер. «Здесь гораздо больше поводов для беспокойства, чем в электрическом пространстве… Теперь нам нужно проложить оптоволоконное соединение и убедиться, что оно механически прочное и не подвержено вибрации».

Возможно, это объясняет, почему Nvidia сосредоточила свои первые усилия в области фотоники на создании масштабируемых сетей Ethernet и InfiniBand, а не на создании специализированных межкристальных соединений. Большинство крупномасштабных фотонных коммутаторов уже требуют широкого использования энергоемкой подключаемой оптики. Итак, для своей первой партии фотонных коммутаторов Nvidia использует технологию CPO, чтобы устранить необходимость в этих устройствах.

Однако для своей коммутационной сети NVLink компания, похоже, планирует увеличить плотность стоек до 600 кВт к 2027 году, чтобы перейти на медь.

Совместная разработка аппаратного и программного обеспечения будет иметь ключевое значение

Поскольку AMD готовится к расширению производства, Наффцигер отмечает, что технологические процессы и усовершенствования в полупроводниковой упаковке будут по-прежнему играть важную роль в достижении ее цели 20×30.»Все еще существуют остатки закона Мура», — сказал он. «Мы должны использовать новейшие технологические узлы».

Несмотря на то, что технологические процессы не сокращаются так быстро, как это было раньше, все еще существуют улучшения, особенно в том, что касается памяти.

Наффцигер указал на 3D—укладку и настройка базовой матрицы для памяти с высокой пропускной способностью (HBM) как потенциального средства снижения энергопотребления на бит и снижения общего энергопотребления.

На сегодняшний день на долю HBM приходится значительная часть энергопотребления ускорителя. Возможно, вы помните, что с увеличением объема памяти с 192 ГБ на MI300X до 256 ГБ на MI325X энергопотребление увеличилось на 250 Вт. Поэтому, по крайней мере, стоит изучить любые технологии упаковки, которые позволяют увеличить пропускную способность и емкость при одновременном снижении энергопотребления.

По словам Наффцигера, «самые значительные улучшения будут достигнуты в результате совместной разработки аппаратного и программного обеспечения. Отдача от аппаратного обеспечения снижается».

AMD отстает в разработке программного обеспечения, особенно когда речь заходит о низкоуровневых разработках. Однако за полтора года, прошедших с момента дебюта MI300X, ситуация значительно улучшилась.Компания Chip shop инвестировала значительные ресурсы в оптимизацию своего программного обеспечения ROCm для широкого спектра популярных платформ логического вывода и обучения, включая vLLM, SGLang и PyTorch.Эти усилия были подкреплены несколькими приобретениями, в том числе Nod.ai, Mipsology и Brium. AMD также стремилась привлечь талантливых специалистов в области искусственного интеллекта. Совсем недавно Шарон Чжоу, генеральный директор стартапа Lamini, ориентированного на AMD, который помогает компаниям настраивать LLMS для уменьшения галлюцинаций, объявила о своих планах присоединиться к разработке программного обеспечения для искусственного интеллекта House of Zen в среду.

«Когда мы говорим о задаче масштабирования в стойке, перед нами определенно открываются большие возможности в области архитектуры системы, проектирования системы, улучшения компонентов, интеграции, снижающей стоимость связи», — сказал Наффцигер. «Но мы должны оптимально распределить нагрузку на это оборудование».

Поддержка FP8, а теперь и FP4 — лишь один из примеров этого. С точки зрения модели, эти типы данных с более низкой точностью имеют ряд преимуществ, часто приводящих к незначительному снижению качества вывода при меньшем объеме занимаемой памяти. Между тем, уменьшение точности вдвое обычно удваивает производительность ускорителя с плавающей запятой.Однако программному обеспечению может потребоваться некоторое время, чтобы адаптироваться к этим новым типам данных. С момента запуска MI300X и до того момента, когда популярный механизм логического вывода vLLM расширил аппаратную поддержку для реализации AMD FP8, прошла большая часть года.Программное обеспечение может быть ключом к раскрытию всего потенциала кремниевых процессоров AMD, но оно также создает проблемы при измерении производительности, особенно когда речь идет о рабочих нагрузках ИИ.Экосистема ИИ развивается невероятно быстро. За считанные месяцы модель может превратиться из ультрасовременной в устаревшую. «Мы не можем предположить, что Llama 405B появится в 2030 году и будет иметь какое-либо значение», — сказал Наффцигер.

Таким образом, для достижения цели AMD 20×30 она будет использовать комбинацию показателей производительности графического процессора, HBM и пропускной способности сети, которые по-разному учитываются при выводе данных и обучении для отслеживания прогресса. ®

Новости сегодня

Последние новости