Эффективность ряда моделей GPT и LLaMA с возрастающей сложностью. Источник: Nature (2024). DOI: 10.1038/s41586-024-07930-y
Группа исследователей ИИ из Политехнического университета Валенсии в Испании обнаружила, что по мере того, как популярные LLM (большие языковые модели) становятся больше и сложнее, они все реже признаются пользователю в том, что не знают ответа.
В своем исследовании, опубликованном в журнале Nature, группа протестировала последнюю версию трех самых популярных чат-ботов ИИ на предмет их ответов, точности и того, насколько хорошо пользователи обнаруживают неправильные ответы.
Поскольку LLM стали мейнстримом, пользователи привыкли использовать их для написания статей, стихотворений или песен, а также для решения математических задач и других задач, и вопрос точности стал более важным. В этом новом исследовании исследователи задавались вопросом, становятся ли самые популярные LLM более точными с каждым новым обновлением и что они делают, когда ошибаются.
Чтобы проверить точность трех самых популярных LLM, BLOOM, LLaMA и GPT, группа задала им тысячи вопросов и сравнила полученные ответы с ответами более ранних версий на те же вопросы.
Они также варьировали темы, включая математику, естественные науки, анаграммы и географию, а также способность LLM генерировать текст или выполнять действия, такие как упорядочивание списка. Для всех вопросов они сначала назначили степень сложности.
Они обнаружили, что с каждой новой итерацией чат-бота точность в целом улучшалась. Они также обнаружили, что по мере того, как вопросы становились сложнее, точность снижалась, как и ожидалось. Но они также обнаружили, что по мере того, как LLM становились больше и сложнее, они, как правило, были менее открыты относительно своей собственной способности правильно ответить на вопрос.
В более ранних версиях большинство LLM отвечали пользователям, сообщая, что они не могут найти ответы или им нужна дополнительная информация. В более новых версиях LLM с большей вероятностью угадывали, что приводило к большему количеству ответов в целом, как правильных, так и неправильных. Они также обнаружили, что все LLM иногда давали неправильные ответы даже на простые вопросы, что говорит о том, что они все еще ненадежны.
Затем исследовательская группа попросила добровольцев оценить ответы из первой части исследования как правильные или неправильные и обнаружила, что большинство из них с трудом замечали неправильные ответы.
Дополнительная информация: Лексин Чжоу и др., Более крупные и более инструктируемые языковые модели становятся менее надежными, Nature (2024). DOI: 10.1038/s41586-024-07930-y
Информация журнала: Nature