Цензура творчества: ограничения ChatGPT для написания сценариев

Важные новости

Цензура творчества: пределы ChatGPT для написания сценариев

На этой диаграмме показан процесс, с помощью которого исследователи проверяли ChatGPT, на примере первого эпизода «Игры престолов». Фото: Яасин Магомед, Чарли М. Кроуфорд, Санджана Гаутам, Сорель А. Фридлер, Даная Метакса

В прошлом году профсоюз Гильдии писателей Америки (WGA), представляющий писателей кино и телевидения, объявил забастовку, длившуюся почти пять лет. месяцев, отчасти для регулирования роли ИИ в написании сценариев. «Алекса нас не заменит», — гласил один из плакатов пикета.

Теперь исследователи из Penn Engineering, Хаверфордского колледжа и Пенсильванского университета представили на конференции Ассоциации вычислительной техники 2024 года по справедливости, подотчетности и прозрачности (ACM FAccT) документ, в котором указан ранее не сообщавшийся недостаток написания сценариев с использованием OpenAI ChatGPT: модерация контента. настолько усерден, что даже некоторые сценарии с рейтингом PG подвергаются цензуре, что потенциально ограничивает художественное самовыражение.

Исследование опубликовано в Конференции ACM 2024 года по справедливости, подотчетности и прозрачности.. р> <р>Руководящие принципы, установленные соглашением между WGA и Ассоциацией продюсеров кино и телевидения (AMPTP), положившим конец забастовке, разрешают определенные виды использования ИИ при написании сценариев. Хотя и WGA, и AMPTP согласились с тем, что ИИ нельзя считать писателем, они разрешили использовать ИИ в качестве инструмента творческого процесса.

Новое исследование поднимает вопросы об эффективности этого подхода, показывая, что что автоматическая модерация контента не позволяет ChatGPT создавать контент, который уже разрешен к показу по телевидению. Автоматическая модерация контента ChatGPT фильтрует такие темы, как насилие, сексуальность и разжигание ненависти, чтобы предотвратить создание неприемлемого или опасного контента.

В исследовании, в котором рассматривались как настоящие, так и сгенерированные ChatGPT сценарии для 100 самых просматриваемых телевизионных шоу IMDb, включая «Игру престолов», «Очень странные дела» и «13 причин почему», ChatGPT пометил почти 20% сценариев, созданных самим ChatGPT, как нарушение содержания, и почти 70% реальных сценариев из телешоу в списке, включая половину протестированных шоу с рейтингом PG.

«Если ИИ будет использоваться для создания культурного контента, например телевизионных сценариев, какие истории не будут рассказывать?» напишите состаршему автору статьи Данеë Метакса, Радж и Нира Сингх, доцент кафедры компьютерных и информационных наук (CIS) в Penn Engineering, и Сорель Фридлер, профессор компьютерных наук семьи Шибулал в Хаверфордском колледже.

«Мы тестировали настоящие сценарии», — говорит Фридлер, «и 69% из них не прошли через фильтры контента, включая даже некоторые фильтры с рейтингом PG. Это действительно показалось мне показателем того, что система немного переборщила с фильтрацией контента».

< р>Цензурирование творчества: ограничения ChatGPT для написания сценариев

Исследователи обнаружили, что даже шоу с рейтингом TV-PG были помечены ChatGPT как нарушающие контент. Источник: Университет Пенсильвании

Проект, вызванный забастовкой писателей, начался с того, что Фридлер и Метакса задались вопросом, может ли большая языковая модель (LLM), такая как ChatGPT, действительно создать высококачественный сценарий. «Мы начали пытаться создавать сценарии с LLM», — вспоминает Метакса, — «и обнаружили, что еще до того, как мы смогли даже дойти до вопроса о том, является ли сценарий высококачественным, во многих случаях мы вообще не могли заставить LLM сгенерировать сценарий».

В одном случае, получив подсказку, взятую из резюме эпизода «Игры престолов», ChatGPT отказался создавать сценарий и ответил красным предупреждением: «Этот контент может нарушать наши правила использования».

Чтобы изучить систему модерации контента ChatGPT, исследователи применили метод, известный как «аудит алгоритма», который делает выводы о программном обеспечении, внутренняя работа которого остается частной, путем анализа выходных данных программного обеспечения.

Команда, в которую также входил первый автор Яасин Магомед, недавний выпускник магистратуры по СНГ в Penn Engineering, Чарли М. Кроуфорд, студент Хаверфорда, и Санджана Гаутам, доктор философии. Студент факультета информатики Пенсильванского университета неоднократно обращался к ChatGPT с просьбой написать сценарии на основе краткого изложения эпизодов телешоу, взятых из базы данных Интернет-фильмов (IMDb) и Википедии.

Для каждого запроса сценария команда проверяла «конечную точку модерации контента» ChatGPT — инструмент, доступный программистам, который возвращает список из 11 категорий запрещенного контента (включая «ненависть», «сексуальный» и «членовредительство») и указывает, какие категории (если таковые имеются) были вызваны подсказкой, а также оценку от 0 до 1 уверенности ChatGPT в оценке нарушения для каждой категории.

По сути, этот подход позволил команде определить, почему определенные запросы на написание сценариев подвергались цензуре, а также сделать вывод о чувствительности настроек модерации контента ChatGPT к конкретным темам, жанрам и возрастным рейтингам.

Как признают авторы статьи , модерация контента является важной частью LLM, поскольку удаление нежелательного контента из данных обучения моделей чрезвычайно сложно. «Если вы не будете соблюдать ту или иную форму модерации контента, — говорит Фридлер, — тогда эти модели будут извергать в вас жестокие и расистские высказывания».

Тем не менее, как обнаружили исследователи, чрезмерно усердная модерация контента может легко привести к цензуре и ограничению художественного самовыражения. Обобщение более 250 000 выходных данных конечной точки модерации контента позволило исследователям наблюдать закономерности в выборе ChatGPT разрешать (или не разрешать) себе писать определенные скрипты.

Цензура творчества: ограничения ChatGPT для написания сценариев

Определенные категории были отмечены за нарушения контента чаще, чем другие; настоящие сценарии имели самые высокие показатели нарушений контента. Кредит: Университет Пенсильвании

Среди наиболее примечательных выводов исследователей — то, что разные категории потенциально вредного контента отмечаются с разной скоростью. Исследователи обнаружили, что сценарии очень часто помечались как содержащие насилие, что послужило причиной многих других выводов, таких как высокая вероятность пометки за криминальные шоу и шоу ужасов. Настоящие сценарии имели высокие относительные оценки по содержанию сексуального характера, в то время как сценарии, созданные с помощью GPT, с меньшей вероятностью создавали контент, который изначально считался неуместным сексуальным.

Во многих случаях контент считался подходящим для телезрителей— и был просмотрен. миллионами фанатов — по-прежнему было идентифицировано Open AI как нарушение содержания.

Например, телевизионные сценарии, в которых упоминается членовредительство, могут быть опасными или представлять собой форму художественного самовыражения. «Нам нужно говорить о таких темах, как членовредительство», — говорит Метакса, — «но с определенной осторожностью и нюансами, и просто не в интересах компании, производящей такого рода инструменты, прикладывать столько усилий». что ему придется действовать осторожно».

Один из аспектов ChatGPT, который исследователи надеются изучить дальше, — это степень, в которой настройки модерации контента программного обеспечения отфильтровывают контент, связанный с маргинализированными личностями. Как говорит Фридлер: «Этот тип фильтрации может отфильтровывать некоторые голоса и некоторые представления о человеческой жизни больше, чем другие».

Действительно, исследователи обнаружили, что ChatGPT с большей вероятностью помечает сценарии, описывающие женскую наготу, как неправомерно сексуальные, чем сценарии, описывающие мужскую наготу, и что ChatGPT с большей вероятностью оценивает сценарии, которые включают описания инвалидности и психических заболеваний, как жестокие, хотя исследователи говорят, что обе тенденции требуют дальнейшего изучения.

«По иронии судьбы, — говорит Метакса, — группы, которые, скорее всего, пострадают от разжигания ненависти, исходящей из LLM без ограждений, — это те же самые группы, которые пострадают от чрезмерной модерации, которая не позволяет LLM говорить об определенных типах». маргинализированных идентичностей».

В контексте недавней забастовки исследователи подтверждают необходимость как модерации контента, так и художественного выражения, ни то, ни другое, по их мнению, не следует оставлять полностью в руках автономных систем. «Модерация контента — далеко не решенная проблема и, несомненно, важная», — заключают исследователи. «Но решением этих проблем не должна быть цензура».

Это исследование было проведено в Школе инженерии и прикладных наук Пенсильванского университета, Хаверфордском колледже и Университете штата Пенсильвания.

Дополнительная информация: Яасин Магомед и др., Аудит мер по модерации контента GPT: может ли ChatGPT написать ваше любимое телешоу?, Конференция ACM 2024 года по вопросам справедливости, подотчетности и Прозрачность (2024 г.). DOI: 10.1145/3630106.3658932 Предоставлено Пенсильванским университетом.

Новости сегодня

Последние новости