Ускорители Blackwell от Nvidia представлены на рынке чуть более шести месяцев, и AMD заявляет, что уже достигла паритета производительности, выпустив в четверг графические процессоры серии MI350.
Графические процессоры, основанные на совершенно новой CDNA 4 и усовершенствованной чиплетной архитектуре, призваны поколебать позиции Nvidia на рынке инфраструктуры искусственного интеллекта, обеспечивая производительность до 10 петаФЛОПС при разреженном FP4 (вдвое больше, если вам удастся найти рабочую нагрузку, которая может использовать преимущества разреженности) на MI355X, 288 ГБ HBM3E и пропускная способность памяти 8 Тбит/с.
Для тех, кто следит за результатами, последние разработки AMD Instincts нацелены на то, чтобы соответствовать самым мощным графическим процессорам Nvidia Blackwell по производительности с плавающей запятой и пропускной способности памяти – двум наиболее важным показателям, когда речь заходит об обучении ИИ и выводах.
Это подтверждается результатами тестов AMD, которые показывают, что пара MI355X работает рука об руку с суперчипом Nvidia GB200 с двумя графическими процессорами в Llama 3.1 405B. Как и в случае со всеми тестами, поставляемыми поставщиками, отнеситесь к ним со всей серьезностью.
Вот краткое описание компонентов AMD серии MI350 — нажмите, чтобы увеличить
На самом деле, по крайней мере на бумаге, новейшие чипы AMD не так уж сильно уступают Nvidia с 288 ГБ памяти. Графические процессоры Blackwell Ultra были анонсированы весной этого года. Когда поставки компонентов начнутся в следующем квартале, они не только сократят разрыв в объеме памяти, но и обеспечат на 50 процентов более высокую производительность по сравнению с моделями AMD серии MI350, хотя и только для высокопроизводительных FP4. На FP8, FP16 или BF16 AMD и Nvidia находятся в тупике.
И, говоря о тепловыделении, при мощности 1,4 кВт вам понадобится контур жидкостного охлаждения, чтобы справиться с тензорными ядрами MI355X и раскрыть весь его потенциал.
Для тех, для кого жидкостное охлаждение нецелесообразно, AMD также предлагает MI350X., который обеспечивает около 8% пиковой производительности при чуть более разумной TDP в 1 кВт. Однако в реальном мире нам говорят, что разница в производительности на самом деле приближается к 20 процентам, поскольку больший предел мощности детали с жидкостным охлаждением позволяет ей работать дольше.
На этой ноте давайте поближе познакомимся с кремнием, обеспечивающим новейшие разработки AMD.
Разбираем кремниевый сэндвич-процессор AMD нового поколения
Откиньте теплораспределитель любого из чипов, и вы увидите знакомый набор вычислительных матриц, окруженных памятью с высокой пропускной способностью.
На неопытный взгляд, голый кремний серии MI350 выглядит чертовски похоже на Blackwell от Nvidia или даже на Gaudi3 от Intel. Именно так выглядят ускорители искусственного интеллекта в 2025 году. Однако, как это часто бывает, внешний вид может вводить в заблуждение, и это, безусловно, относится к линейке Instinct от AMD.
Вместо двух вычислительных матриц размером с сетку, которые мы видим в ускорителях Intel и Nvidia, в ускорителях AMD Instinct используется комбинация 2.5-мерной упаковки TSMC и технологии гибридного соединения 3D для объединения нескольких небольших вычислительных блоков и блоков ввода-вывода в одну большую кремниевую подсистему.
Графические процессоры серии AMD MI350 оснащены восемью графическими плитками XCD установленный поверх пары модулей ввода–вывода и питаемый восемью модулями HBM3E общей емкостью 288 ГБ — нажмите, чтобы увеличить
В случае с серией MI350 он очень похож на то, что мы видели с оригинальным MI300X в 2023 году. Он оснащен восемью матрицами XCD GPU, изготовленными по 3-нм технологическому процессу TSMC, которые расположены вертикально поверх пары 6-нм матриц ввода-вывода.
Каждый вычислительный чиплет теперь содержит 36 вычислительных модулей CDNA 4 (CU), 32 из которых фактически активны и поддерживаются 4 МБ общего кэша L2, что в общей сложности составляет 256 CU на восьми чиплетах, в то время как 288 ГБ памяти HBM3E чипа поддерживаются 256 МБ «Кэш «Бесконечность».
Вот более подробный обзор того, как устроены чипы AMD серии MI350 — нажмите, чтобы увеличить
Между тем, пакет Infinity Fabric–Advanced interconnect, используемый для передачи скорость передачи данных между блоками ввода-вывода была увеличена до 5,5 Тбит/с при разделенной пополам пропускной способности по сравнению с 2,4 Тбит/с и 3 Тбит/с в прошлом поколении.
По словам сотрудника AMD и главного архитектора Instinct SoC Алана Смита (Alan Smith), это расширенное межсоединение позволило снизить количество энергии на бит, необходимое для обмена данными между чипами.
Масштабируемое внедрение
Несмотря на то, что графические процессоры AMD, возможно, и сократили отставание в производительности от ускорителей Nvidia Blackwell, компании еще предстоит пройти долгий путь в разработке систем.В отличие от ускорителей Nvidia Blackwell, которые можно приобрести в форм–факторах rackscale, HGX и PCIe, ускорители AMD серии MI350 будут предлагаться только в конфигурации с восемью графическими процессорами.
«Мы посчитали, что архитектура с восемью графическими процессорами с прямым подключением по-прежнему хорошо подходит для большого количества моделей, которые будут представлены в 2025-2026 годах», — заявил корпоративный вице-президент Джош Фридрих прессе в преддверии мероприятия AMD по развитию искусственного интеллекта в четверг. «Мы посчитали, что это более революционное изменение в фирменной архитектуре стоечного типа, и мы хотели избежать проблем, которые могут возникнуть в результате преждевременного внедрения».
Как вы можете видеть на рисунке ниже, в конструкцию устройства входят восемь чипов серии MI350, подключенных через Технология Infinity Fabric от AMD с универсальной масштабируемой топологией. Затем графические процессоры подключаются к паре процессоров x86 вместе с восемью сетевыми адаптерами со скоростью 400 Гбит/с через коммутаторы PCIe 5.0.
Графические процессоры серии MI350 от AMD имеют довольно стандартную конфигурацию. конфигурация с восемью графическими процессорами, подключенными к равному количеству сетевых адаптеров со скоростью 400 Гбит/с, и парой процессоров x86 – нажмите, чтобы увеличить
Каждая система будет обеспечивать до 2,25 ТБ памяти HBM3E и от 147 до 160 петаФЛОПС разреженных вычислений FP4, в зависимости от того, выберете ли вы liquid или Windows. воздушное охлаждение.Естественно, AMD хотела бы, чтобы ее ускорители Instinct работали в паре с процессорами Epyc и сетевыми адаптерами Pensando Pollara 400, но ничто не мешает производителям создавать системы на базе процессоров Intel или сетей ConnectX InfiniBand. Фактически, именно такую конфигурацию Microsoft использовала для своих экземпляров ND-MI300X-v5.
С выпуском устройств серии MI350 компания AMD переходит к более плотному размещению в стойках. По мере увеличения энергопотребления графических процессоров мы наблюдаем тенденцию к увеличению размеров серверных корпусов, в некоторых из которых до десяти стоек. Но с переходом на жидкостное охлаждение AMD ожидает, что плотность вычислений достигнет 16 узлов и 128 ускорителей на стойку.
С переходом на жидкостное охлаждение AMD заявляет, что теперь можно разместить столько же ускорителей MI355X в одной стойке» height=»363″ width=»648″/>
поскольку 128 своих ускорителей MI355X объединены в одну стойку – нажмите, чтобы увеличить
AMD не предоставила конкретных данных о энергопотреблении на системном уровне, но, основываясь на том, что мы видели в системах Nvidia HGX, мы ожидаем, что оба они потребляют где-то от 14 до 18 кВт..
Даже в случае с воздушным охлаждением AMD ожидает увидеть стойки с восемью узлами и 64 ускорителями, что почти наверняка потребует использования теплообменников на задней панели.
Эти более высокие показатели плотности стоек задают тон для первых стоечных систем AMD, которые планируется выпустить вместе с чипами серии MI400 в следующем году.
Доступность
Компания AMD сообщает, что ее ускорители серии MI350 уже поставляются заказчикам, и ожидает масштабного развертывания в облачных и гиперразмерных центрах обработки данных, включая вычислительный кластер искусственного интеллекта в Oracle OCI, содержащий 131 072 ускорителя.
По нашим оценкам, готовая система будет способна производить более 2,6 зеттаФЛОПС при максимальной производительности FP4-процессора AMD MI355Xs.
Тем временем, для тех, кто хочет внедрить системы на месте, Dell, HPE и Supermicro будут предлагать системы серии MI350. ®