Комментарий После бума ИИ доходы Nvidia резко возросли до такой степени, что она на короткое время стала самой дорогой корпорацией в мире.
Этот рост был в основном обусловлен спросом на графические процессоры для ее центров обработки данных для обучения и запуска постоянно растущего каталога лучших, более умных и крупных моделей ИИ. Но как бы инвесторам ни хотелось верить, что империя графических процессоров генерального директора Дженсена Хуанга продолжит расти, удваиваясь квартал за кварталом, ничто не длится вечно.
Как предсказал Тимоти Прикетт Морган из The Next Platform в подкасте Kettle на прошлой неделе на The Register, доходы Nvidia однажды выйдут на плато.
Если бы будущее Nvidia вращалось исключительно вокруг продажи графических процессоров и ничего больше, это могло бы быть большим делом. Но, как Хуан часто напоминает людям, Nvidia — это в той же степени программный бизнес, что и аппаратный.
Открытие новых рынков
С самого начала Nvidia осознала ценность программного обеспечения для продвижения графических процессоров. Во время беседы у камина с журналисткой Лорен Гуд на SIGGRAPH на прошлой неделе Хуан довел эту мысль до сознания людей.
«Каждый раз, когда мы представляем библиотеку, специфичную для домена, она выводит ускоренные вычисления на новый рынок», — пояснил он. «Речь идет не только о создании ускорителя, вам нужно построить весь стек».
Первый релиз архитектуры унифицированных вычислительных устройств Nvidia — более известной сейчас как CUDA — вышел в 2007 году и предоставил интерфейс API для распараллеливания неграфических рабочих нагрузок на GPU. Хотя это все еще требовало от разработчиков и исследователей рефакторинга кода, улучшения по сравнению с процессорами общего назначения было трудно игнорировать.
Это было особенно актуально для тех, кто был в сообществе HPC — одном из первых рынков, на которые Nvidia вышла за пределы своих старых территорий игр и профессиональной графики. В конце 2012 года инвестиции Nvidia в программное обеспечение помогли вывести суперкомпьютер Titan Национальной лаборатории Оук-Ридж на первое место в Top500.
Спустя семнадцать лет после своего первоначального выпуска CUDA является лишь одним из постоянно растущего списка вычислительных фреймворков, адаптированных для определенных рынков — от глубокого обучения до вычислительной литографии и эмуляции квантовых вычислений.
Эти фреймворки помогли Nvidia создать рынки для своих ускорителей, где ранее их практически не было.
Выход за рамки поддержки
Программное обеспечение — не такое уж секретное оружие Nvidia, но до недавнего времени это оружие принимало форму поддержки. За последние два года мы увидели, как стратегия программного обеспечения чемпиона по ускорителям осмысленно приняла модель ценообразования по подписке.
В начале 2022 года, за несколько месяцев до того, как ChatGPT от OpenAI положил начало золотой лихорадке ИИ, финансовый директор Nvidia Колетт Кресс подробно описала дорожную карту GPU-гиганта, основанную на подписке, которая, по ее мнению, в конечном итоге принесет триллион долларов дохода.
В то время Кресс предсказала, что 150 миллиардов долларов из этой возможности будут получены за счет программного пакета Nvidia AI Enterprise. Даже сейчас, когда он публикует кварталы с оборотом в 26 миллиардов долларов, бизнес все еще далек от этой цели в триллион долларов, но мы начинаем лучше понимать, как он может расти.
С точки зрения программного обеспечения, большая часть работы по поддержке ИИ уже проделана. Nvidia вложила огромные ресурсы в разработку таких инструментов, как cuDNN, TensorRT LLM и Triton Inference Service, чтобы максимально использовать свое оборудование при запуске моделей ИИ.
Однако это всего лишь части головоломки, которые необходимо тщательно собрать и настроить для извлечения этой производительности, и настройка будет разной для каждой модели. Требуется определенный уровень знакомства с моделью, программным обеспечением и базовым оборудованием, который вряд ли будет у предприятий.
Создание простой кнопки ИИ
На своем мероприятии GTC прошлой северной весной Nvidia представила новое предложение, разработанное для снижения барьера для принятия и развертывания генеративного ИИ в масштабе. Эта технология — называемая Nvidia Inference Microservices, или сокращенно NIM — по сути, состоит из контейнерных моделей и инструментов, которые поставляются со всем необходимым для их запуска в предварительно настроенном виде.
Контейнеры NIM можно развернуть практически в любой среде выполнения, которая поддерживает графические процессоры Nvidia. Это может показаться не таким уж захватывающим, но в этом и суть. Оркестровка контейнеров — не самая простая проблема для решения, просто спросите разработчиков Kubernetes. Так зачем изобретать велосипед, если можно использовать существующие инструменты и сервисы, в которые клиенты уже вложили средства?
Реальная ценность NIM, похоже, исходит от инженеров Nvidia, которые настраивают такие вещи, как TensorRT LLM или Triton Inference Server, для определенных моделей или вариантов использования, например, для расширенной генерации поиска (RAG). Если вы не знакомы, вы можете найти наше практическое руководство по RAG здесь, но вывод в том, что Nvidia играет в системного интегратора не только с помощью своего оборудования, но и с помощью своего программного обеспечения.
NIM — это не просто умная упаковка. Работая над общим API для того, как модели и инструменты должны взаимодействовать друг с другом, Nvidia может предоставить клиентам шаблоны, разработанные для решения определенных вариантов использования.
Ценовая лестница Nvidia
Более низкий барьер для принятия и развертывания вывода ИИ имеет преимущества как для лицензирования ПО, так и для продаж оборудования. С точки зрения ПО лицензия AI Enterprise, необходимая для развертывания NIM в производстве, обойдется вам в 4500 долларов за GPU в год или в 1 доллар за GPU в час.
Таким образом, чтобы развернуть модель Meta Llama 3.1 405B с NIM, вам не только нужно будет арендовать или купить систему с 8x H100 или H200 — минимум, необходимый для запуска модели без использования более агрессивных уровней квантования, — но вам также придется платить 36 000 долларов в год или 8 долларов в час за лицензионные сборы.
Если предположить, что срок службы составит шесть лет, то это составит от 180 000 до 420 480 долларов в виде лицензионных доходов — на систему — в зависимости от того, платите ли вы авансом или почасово. И реалистично, предприятиям, желающим развернуть ИИ, понадобится больше одной системы как для избыточности, так и для масштабирования.
Такая разница в цене может сделать выбор в пользу годовой лицензии очевидным. Но помните, что мы говорим о микросервисах, которые при правильной реализации должны иметь возможность масштабироваться в зависимости от спроса.
Но, предположим, что Llama 3.1 405B — это немного избыточно для ваших нужд, и запуск меньшей модели — гораздо менее дорогой L40S или даже L4S — может быть достаточным. Структура ценообразования Nvidia настроена таким образом, чтобы подталкивать клиентов к более мощным и способным ускорителям.
Лицензия AI Enterprise стоит одинаково независимо от того, используете ли вы восемь L40S или восемь H200. Это создает сценарий, в котором вполне может оказаться более экономичным купить или арендовать меньшее количество высокопроизводительных графических процессоров и запустить модель с более высокими размерами пакетов или очередей, поскольку ваши лицензионные сборы будут ниже в течение всего срока службы развертывания.
< p>А поскольку отдельные экземпляры A100 и H100 становятся все более распространенными (например, Oracle Cloud Infrastructure объявила о доступности на прошлой неделе), предприятия могут принять это во внимание при оценке общей стоимости такого развертывания.
План для конкуренции
Если NIM получат широкое распространение, они могут быстро стать основным драйвером роста для Nvidia.
Немного математики на салфетке говорит нам, что если бы NIM помогли Nvidia прикрепить AI Enterprise к каждому из двух миллионов графических процессоров Hopper, которые, как ожидается, будут поставлены в 2024 году, она бы получила еще от 9 до 17,5 миллиардов долларов годового дохода от подписки. Реалистично, этого не произойдет, но даже если она сможет получить часть от этого, мы все равно говорим о миллиардах долларов годового дохода.
Это не значит, что у NIM нет проблем. По сравнению с обучением ИИ, вывод не особенно придирчив. Существует несколько исполнителей моделей, которые поддерживают вывод на Nvidia, AMD и даже на универсальных процессорах. NIM, для сравнения, работают только на оборудовании Nvidia, что может оказаться ограничением для клиентов, желающих использовать системы оркестровки контейнеров, такие как Kubernetes, для развертывания и обслуживания своих моделей в масштабе.
Это, вероятно, не будет большой проблемой, пока Nvidia по-прежнему контролирует львиную долю рынка инфраструктуры ИИ, но, несомненно, станет большим красным флагом для клиентов, опасающихся привязки к поставщику.
Это также может привлечь внимание не только акционеров, но и Министерства юстиции. Говорят, что Министерство юстиции уже готовит антимонопольное дело против гиганта GPU.
Тем не менее, если вы просто хотите упростить развертывание моделей в различных облачных и локальных инфраструктурах, ничто не мешает кому-либо создавать собственные эквиваленты NIM, настроенные на предпочитаемое им оборудование или программное обеспечение. На самом деле удивительно, что больше разработчиков еще не сделали чего-то подобного. Мы легко можем представить, как AMD и Intel выводят на рынок аналогичные услуги — потенциально даже подрывая Nvidia, предлагая их бесплатно.
В конечном итоге успех NIM от Nvidia может зависеть от того, насколько эффективнее или производительнее будет их настройка и насколько проще их будет сшивать. ®