Meta представляет Chameleon, мультимодальную модель раннего слияния

Важные новости

Meta представляет Chameleon, раннюю версию -fusion мультимодальная модель

Хамелеон представляет все модальности — изображения, текст и код — в виде дискретных токенов и использует единую архитектуру на основе преобразователя, которая обучается с нуля сквозным способом на ~10T. токены чередующихся смешанно-модальных данных. В результате Chameleon может как анализировать, так и генерировать произвольные смешанно-модальные документы. Текстовые токены представлены зеленым цветом, а токены изображений — синим. Фото: arXiv (2024 г.). DOI: 10.48550/arxiv.2405.09818

Исследователи искусственного интеллекта из Meta, компании, которой принадлежат Facebook, Instagram, WhatsApp и многие другие продукты, спроектировали и создали мультимодальную модель, способную конкурировать с аналогами Google Gemini.

Новая система под названием Chameleon построена на ранней архитектуре слияния и благодаря этому способна объединять несколько входных данных способами, недоступными большинству других систем.

Группа под названием Chameleon Team написала статью, описывающую свою новую модель. , включая его архитектуру и то, насколько хорошо она показала себя во время тестирования. Он размещен на сервере препринтов arXiv.

Мультимодальные модели искусственного интеллекта, как следует из их названия, представляют собой приложения, которые могут принимать более одного типа входных данных во время запроса: пользователь может, например, отправить изображение лошади, а также спросить, сколько представителей ее породы выиграли конкурс. Кентукки Дерби.

На сегодняшний день большинство таких моделей обрабатывают такие данные как отдельные объекты на ранней стадии обработки, а затем объединяют их вместе для поиска ассоциаций — метод, называемый поздним слиянием.

<р>Было обнаружено, что такой подход работает хорошо, но имеет ограничения в отношении интеграции. Чтобы преодолеть эту проблему, команда Meta основала свою модель на архитектуре раннего слияния.

Такая архитектура позволила команде с самого начала переплетать ассоциации. Они достигли этого, преобразовав изображения в токены, аналогично тому, как LLM анализируют слова. Команда также добавила возможность использовать единый словарь токенов из разных источников, включая изображения, код или текст – и они утверждают, что это позволило применять преобразующие вычисления со смешанными типами входных данных.

Исследователи отмечают что в отличие от Gemini, Chameleon является сквозной моделью, что сделало ненужной необходимость в декодерах изображений. Они также разработали и использовали новые типы методов обучения, позволяющие их модели работать с несколькими типами токенов — те, которые включали двухэтапное обучение и огромный набор данных, содержащий примерно 4,4 триллиона текстов, изображений или пар токенов вместе с чередующимися данными. Система обучалась с использованием 7 миллиардов, а затем 34 миллиардов параметров в течение 5 миллионов часов на высокоскоростном графическом процессоре.

Результатом, как утверждает исследовательская группа, является модель, которая может принимать только текст, только изображения, или комбинацию того и другого и возвращать разумные ответы и ассоциации с большей точностью, чем его конкуренты.

Дополнительная информация: Chameleon: Mixed-Modal Early-Fusion Foundation Модели, arXiv (2024 г.). DOI: 10.48550/arxiv.2405.09818

Информация журнала: arXiv

Новости сегодня

Последние новости