Обнаружено, что два типа LLM способны сравняться с людьми или превзойти их в тестах по теории разума

Важные новости

«Обнаружено,

Производительность человека (фиолетовый), GPT-4 (темно-синий), GPT-3.5 (голубой) и LLaMA2-70B (зеленый) на батарее тестов по теории разума. a. Исходные тестовые задания для каждого теста, показывающие распределение результатов тестов по отдельным сеансам и участникам. б — Межквартильные диапазоны средних баллов по исходным опубликованным заданиям (темные цвета) и новым заданиям (бледные цвета) по каждому тесту. Фото: Природа человеческого поведения (2024 г.). DOI: 10.1038/s41562-024-01882-z

Международная группа психологов и нейробиологов экспериментально обнаружила, что два типа LLM способны сравняться с людьми или превзойти их в тестах теории разума. Об их исследовании сообщается в журнале Nature Human Behavior., группа провела тесты на теорию разума для добровольцев и сравнила средние результаты с результатами двух типов LLM.

За последние несколько лет большие языковые модели (LLM), такие как ChatGPT, улучшились до такой степени, что что теперь они стали доступны для всеобщего пользования. Они также неуклонно росли в своих способностях. Одна из новых возможностей — определять настроение — скрытые смыслы или психическое состояние пользователя.

В этом новом исследовании исследовательская группа задалась вопросом, продвинулись ли способности студентов-магистрантов до такой степени, что они могут выполнять задачи теории разума наравне с людьми.

Задания по теории разума были разработаны психологами для измерения психическое и/или эмоциональное состояние человека во время социальных взаимодействий. Предыдущие исследования показали, что люди используют различные сигналы, чтобы сигнализировать о своем психическом состоянии другим, с целью передачи информации без конкретики.

Предыдущие исследования также показали, что люди превосходно улавливают такие сигналы, а другие животные — нет. Многие специалисты в этой области считают невозможным, чтобы компьютер мог пройти такие испытания. Исследовательская группа протестировала несколько программ LLM, чтобы увидеть, насколько хорошо они будут сравниваться с группой людей, проходящих те же тесты.

Исследователи проанализировали данные 1907 добровольцев, которые прошли стандартные тесты теории разума, и сравнили результаты с результатами нескольких LLM, таких как Llama 2-70b и GPT-4. Обе группы ответили на пять типов вопросов, каждый из которых предназначен для измерения таких вещей, как оплошность, ирония или правдивость утверждения. Каждого также попросили ответить на вопросы о «ложных убеждениях», которые часто задают детям.

Исследователи обнаружили, что LLM довольно часто сравнялись по производительности с людьми, а иногда и лучше. В частности, они обнаружили, что GPT-4 был лучшим из всех в пяти основных типах задач, в то время как результаты Llama-2 в некоторых случаях были намного хуже, чем у других типов LLM или людей, но были намного лучше в некоторых других типах. вопросов.

По мнению исследователей, эксперимент показывает, что LLM в настоящее время способны работать сравнимо с людьми в тестах на теорию разума, хотя они не предполагают, что такие модели столь же умны или умнее, чем люди, или более интуитивным в целом.

Дополнительная информация: Джеймс В.А. Страчан и др., Проверка теории разума на больших языковых моделях и людях, Природа Поведение человека (2024). DOI: 10.1038/s41562-024-01882-z

Информация журнала: Природа человеческого поведения

Новости сегодня

Последние новости