Новая технология улучшает способность ИИ отображать трехмерное пространство с помощью 2D-камер

Важные новости

Новая техника улучшает ИИ возможность отображать трехмерное пространство с помощью 2D-камер» /></p>
<p> MvACon Credit: Liu et al. </p>
<p>Исследователи разработали метод, который позволяет программам искусственного интеллекта (ИИ) лучше отображать трехмерные пространства, используя двумерные изображения, снятые несколькими камерами. Поскольку этот метод эффективно работает при ограниченных вычислительных ресурсах, он обещает улучшить навигацию беспилотных транспортных средств.</p>
<p>«Большинство автономных транспортных средств используют мощные программы искусственного интеллекта, называемые преобразователями зрения, для получения 2D-изображений с нескольких камер и создания трехмерного представления пространства вокруг автомобиля», — говорит Тяньфу Ву, автор статьи об этой работе и доцент кафедры электротехники и электротехники. компьютерная инженерия в Университете штата Северная Каролина. «Однако, хотя каждая из этих программ искусственного интеллекта использует свой подход, все еще есть значительные возможности для улучшения».</p>
<p>«Наша технология, называемая многовидовой внимательной контекстуализацией (MvACon), представляет собой легко подключаемое дополнение, которое можно использовать в сочетании с существующими искусственными интеллектами-преобразователями зрения, чтобы улучшить их способность отображать трехмерные пространства», — говорит Ву. «Преобразователи зрения не получают никаких дополнительных данных со своих камер, они просто могут лучше использовать эти данные».</p>
<p>MvACon эффективно работает, модифицируя подход, называемый вниманием «Patch-to-Cluster». (PaCa), который Ву и его коллеги выпустили в прошлом году. PaCa позволяет ИИ-трансформерам более эффективно и результативно идентифицировать объекты на изображении.</p>
<p>«Ключевым достижением здесь является применение того, что мы продемонстрировали с помощью PaCa, к задаче картографирования трехмерного пространства с помощью нескольких камер», — говорит Ву.< /п> <р>Чтобы проверить производительность MvACon, исследователи использовали его в сочетании с тремя ведущими преобразователями машинного зрения — BEVFormer, вариантом BEVFormer DFA3D и PETR. В каждом случае преобразователи зрения собирали 2D-изображения с шести разных камер. Во всех трех случаях MvACon значительно улучшил производительность каждого преобразователя изображения.</p>
<p>«Производительность особенно улучшилась при обнаружении объектов, а также скорости и ориентации этих объектов», — говорит Ву. «И увеличение вычислительных потребностей при добавлении MvACon к преобразователям машинного зрения было практически незначительным.</p>
<p>«Наши следующие шаги включают тестирование MvACon на дополнительных наборах эталонных данных, а также тестирование его на реальном видеовходе от автономных транспортных средств. Если MvACon продолжит превосходить существующие преобразователи машинного зрения, мы надеемся, что он получит широкое распространение».</p>
<p>Документ «Внимательная многовидовая контекстуализация для многопроекционного обнаружения трехмерных объектов» будет опубликован. будет представлен 20 июня на конференции IEEE/CVF по компьютерному зрению и распознаванию образов, которая проходит в Сиэтле, штат Вашингтон.</p>
<p>Первым автором статьи является Сяньпэн Лю, недавний аспирант Университета Северной Каролины. Соавторами статьи выступили Це Чжэн и Чен Чен из Университета Центральной Флориды; Мин Цянь и Нань Сюэ из Ant Group, а также Чжэбин Чжан и Чэнь Ли из Исследовательского центра OPPO в США.</p>
<p >
<p><strong>Дополнительная информация:</strong> Сяньпэн Лю и др., Многоракурсная Внимательная контекстуализация для многоракурсного обнаружения трехмерных объектов (2024 г.), предоставлено Университетом штата Северная Каролина.</p>
</div></div><div class=

Новости сегодня

Последние новости