Тесты показывают, что людям сложно отличить людей от ChatGPT в пятиминутном разговоре в чате

Важные новости

Люди борются отличить людей от ChatGPT за пять минут в чате, показывают тесты

Процент успешно сданных экзаменов (слева) и уверенность следователя (справа) для каждого типа свидетелей. Процент успешно пройденных проверок – это доля случаев, когда свидетель того или иного типа был признан человеком. Столбики ошибок представляют собой 95% доверительных интервалов начальной загрузки. Звездочки значимости над каждой полосой указывают, значительно ли отличался процент прохождения от 50%. Сравнения показывают значительные различия в показателях успешной сдачи экзаменов между типами свидетелей. Справа: уверенность в суждениях людей и искусственного интеллекта для каждого типа свидетелей. Каждое очко представляет собой одну игру. Точки слева и справа указывают на более высокую уверенность в вердиктах ИИ и человека соответственно. Кредит: Джонс и Берген. <р>Большие языковые модели (LLM), такие как модель GPT-4, лежащая в основе широко используемой диалоговой платформы ChatGPT, удивили пользователей своей способностью понимать письменные подсказки и генерировать подходящие ответы на разных языках. Некоторые из нас могут задаться вопросом: настолько ли реалистичны тексты и ответы, генерируемые этими моделями, что их можно принять за написанные людьми?

Исследователи из Калифорнийского университета в Сан-Диего недавно решили попытаться ответить на этот вопрос. , запустив тест Тьюринга — широко известный метод, названный в честь ученого-компьютерщика Алана Тьюринга, предназначенный для оценки степени, в которой машина демонстрирует интеллект, подобный человеческому.

Результаты этого теста изложены в документ, предварительно опубликованный на arXivсервер, предполагают, что людям трудно отличить модель GPT-4 от человека-агента при взаимодействии с ними в рамках разговора двух человек.

«Идея этой статьи на самом деле возникла из курс, который Бен проводил на программе LLM», — рассказал Tech Xplore Кэмерон Джонс, соавтор статьи.

«В первую неделю мы читали несколько классических статей о тесте Тьюринга и обсуждали, сможет ли дипломированный специалист пройти его и будет ли это иметь значение, если он сможет. Насколько я мог судить, на тот момент никто не пробовал, поэтому я решил провести эксперимент, чтобы проверить это в качестве своего классного проекта, а затем мы приступили к проведению первого публичного исследовательского эксперимента.»

Первое исследование, проведенное Джонсом под руководством Бергена, профессора когнитивных наук Калифорнийского университета в Сан-Диего, дало некоторые интересные результаты, предполагающие, что GPT-4 может выдавать себя за человека примерно в 50% взаимодействий. Тем не менее, их исследовательский эксперимент плохо контролировал некоторые переменные, которые могли повлиять на результаты, поэтому они решили провести второй эксперимент, получив результаты, представленные в их недавней статье.

«По мере прохождения процесса Проведя исследования, мы обнаружили, что другие люди также проделали большую работу в этой области, включая игру Джаннаи и др. «Человек или нет», — сказал Джонс. «Мы создали онлайн-версию игры для двух игроков, в которой участники-люди будут встречаться либо с другим человеком, либо с моделью искусственного интеллекта».

Во время каждого испытания игры для двух игроков, которую использовали Джонс и его коллеги, следователь-человек взаимодействует со «свидетелем», которым может быть либо человек, либо агент ИИ. Допрашивающий задает свидетелю ряд вопросов, чтобы попытаться определить, человек это или нет.

Людям сложно отличить людей от ChatGPT в пятиминутном разговоре в чате, показывают тесты

Подборка разговоров между следователями (зелеными) и свидетелями (серыми). Один из этих четырех разговоров ведется с человеком-свидетелем, остальные — с ИИ. Вердикты следователей и достоверные сведения приведены ниже (чтобы дать читателям возможность косвенно участвовать). [A) Вердикт: Человек (достоверность 100%). Потребовалось некоторое время, чтобы найти Google Аддис-Абебу. Основная истина: GPT-4; Б) Вердикт: ИИ (доверие 100%). Долго ждали ответов, не назвали конкретное место, где они выросли. Основная истина: Человек; В) Вердикт: Человек (100% уверенность). Он выглядит очень приземленным и говорит естественно. Основная истина: GPT-3.5; D) Вердикт: ИИ (вероятность 67%). Не приложил никаких усилий, чтобы убедить меня в том, что они люди, и ответы были странными. Основная истина: ЭЛИЗА.] Фото: Джонс и Берген.

«Беседы длились до пяти минут, и в конце следователь выносил суждение о том, считает ли он, что свидетель был человеком или искусственным интеллектом», — пояснил Джонс. «В течение пяти минут участники могли говорить о чем угодно (кроме оскорбительных высказываний, для предотвращения которых мы использовали фильтр)».

В этой компьютерной игре для двух игроков исследователи использовали три разных LLM в качестве потенциальных свидетелей, а именно модели GPT-4, GPT 3.5 и ELIZA. Они обнаружили, что, хотя пользователи часто могли определить, что модели ELIZA и GPT-3.5 были машинами, их способность выяснить, был ли GPT-4 человеком или машиной, была не лучше, чем вероятность того, что они сделают правильный выбор, выбрав случайным образом (т. е. случайно).

«Хотя реальные люди на самом деле были более успешными, убеждая допрашивающих, что они люди, в двух третях случаев, наши результаты показывают, что в реальном мире люди могут быть не в состоянии достоверно сказать, разговаривают ли они с человеком или с системой искусственного интеллекта. », — сказал Джонс.

«На самом деле, в реальном мире люди могут быть менее осведомлены о возможности того, что они разговаривают с системой ИИ, поэтому уровень обмана может быть еще выше. Я думаю, это может иметь последствия для тех вещей, которые ИИ системы будут использоваться как для автоматизации работы с клиентами, так и для мошенничества или дезинформации».

Результаты теста Тьюринга, проведенного Джонсом и Бергеном, показывают, что LLM, особенно GPT-4, имеют становятся едва отличимы от людей во время коротких разговоров в чате. Эти наблюдения показывают, что люди вскоре могут стать все более недоверчивыми к другим, с которыми они общаются в Интернете, поскольку они могут все больше не быть уверенными в том, люди они или боты.

Теперь исследователи планируют обновить и вновь открыть для общественности тест Тьюринга, разработанный ими для этого исследования, чтобы проверить некоторые дополнительные гипотезы. Их будущие работы могут собрать еще больше интересных сведений о том, в какой степени люди могут различать людей и LLM.

«Мы заинтересованы в запуске версии игры для трех человек, где следователь одновременно разговаривает с человеком и системой ИИ и должен выяснить, кто есть кто», — добавил Джонс.

«Мы также заинтересованы в тестировании других видов установок ИИ, например, предоставление агентам доступа к новостям и погоде в реальном времени или «блокнота», где они могут делать заметки, прежде чем отвечать. Наконец, мы заинтересованы в тестировании того, распространяются ли убедительные возможности ИИ на другие области, например, на убеждение людей верить лжи, голосовать за определенные политики или жертвовать деньги на какое-либо дело».

Дополнительная информация: Кэмерон Р. Джонс и др., Люди не могут отличить GPT-4 от человека в тесте Тьюринга, arXiv (2024). DOI: 10.48550/arxiv.2405.08007

Информация о журнале: arXiv

Новости сегодня

Последние новости