Я наткнулся на LLM Kryptonite u2013, и никто не хочет исправлять эту ошибку, нарушающую модель.

Важные новости

Я наткнулся на LLM Kryptonite u2013, и никто не хочет это исправлять ошибка, нарушающая модель

Особенность Представьте себе совершенно новую и почти полностью непроверенную технологию, способную дать сбой в любой момент при малейшей провокации без объяснения причин – или даже способность диагностировать проблему. Ни один уважающий себя ИТ-отдел не будет иметь к этому никакого отношения, изолируя его от всех основных систем.

Их можно убедить создать «песочницу» для нескольких сотрудников, желающих поиграть. , готовый нажать кнопку аварийного отключения, как только ситуация изменится.

Что, если вместо этого весь мир воспользуется этой непроверенной и нестабильной технологией, подключив ее к миллиардам настольных компьютеров, смартфонов и других подключенных устройств? Можно было бы надеяться, что по мере возникновения проблем – состояния столь же естественного, как дыхание – найдется какой-то способ справиться с ними, чтобы этим бедным ИТ-отделам было кому позвонить, когда небо начнет рушиться.

Я научился другому.

Похоже, что крупнейшая технологическая инновация с момента появления всемирной паутины поколение назад была создана группой принципиально несерьезных людей и организаций, которые, похоже, не понимают, что значит вести бизнес по производству программного обеспечения, и не имеют никакого желания реализовать любую из систем или процессов, необходимых для достижения такой серьезности.

Если это звучит как экстраординарное утверждение, потерпите меня. Хочу поделиться необычной историей.

Практический опыт

Чуть больше года я изучал и работал с рядом больших языковых моделей (LLM). Большинство пользователей видят LLM, подключенными к веб-интерфейсам, создавая чат-ботов, таких как ChatGPT, Copilot и Gemini. Но ко многим из этих моделей также можно получить доступ через API в рамках модели использования с оплатой по мере использования. Немного программирования на Python позволяет легко создавать собственные приложения с помощью этих API. Мы видим новый класс приложений, интегрирующих возможности искусственного интеллекта, такие как сводки документов и фильтрация результатов поиска, в более крупные и сложные приложения.

У меня есть клиент, который попросил меня помочь создать инструмент для автоматизации некоторых из самых скучных частей его работы в качестве адвоката по интеллектуальной собственности. Части этого инструмента должны вызывать API, принадлежащие различным правительственным службам США, что совершенно просто.

Другие части включают в себя оценочные суждения, такие как «кажется ли это близким к этому?» где слово «близко» не имеет строгого определения – скорее атмосфера, чем правило. Это то, что классификатор на основе ИИ должен уметь работать «достаточно хорошо» — лучше, чем любой алгоритм, хотя и не так эффективно, как человек. Эпоха ИИ открыла эпоху «среднего» развития – не великую, но и не ужасную. Такой классификатор на основе искусственного интеллекта идеально подходит для этой середины.

Я приступил к написанию подсказки для этого классификатора, начав с чего-то очень простого — не сильно отличающегося от подсказки, которую я бы ввел в любого чат-бота. Чтобы протестировать его, прежде чем начать использовать дорогостоящие вызовы API, я вставил его в Microsoft Copilot Pro. Под брендом Microsoft Copilot Pro находится на вершине лучшей в своем классе модели OpenAI, GPT-4. Ввел приглашение и нажмите Enter.

Чат-бот начал работать нормально – первые несколько слов в ответе. Затем это перешло в безумие, похожее на лепет. И это продолжалось и продолжалось, и продолжалось, и… продолжалось. Почему-то оно даже не могло перестать лепетать.

Хорошо, подумал я. Это немного странно.

Я попробовал еще раз. То же самое.

Хм. Может быть, второй пилот сломался?

С этим проблем нет, у меня есть практически все чат-боты — Gemini, Claude, ChatGPT+, LLamA 3, Meta AI, Mistral, Mixtral. Что угодно, у меня есть окно, открытое для этого в облаке, или я могу развернуть его и запустить локально на одной из моих машин. Я решил, что лучше воспользуюсь другим чат-ботом, пока Microsoft не исправит Copilot.

Ввел запрос в Mixtral. Первые несколько слов были в порядке, а потом… лепет. И так далее, и так далее.

Значит, дело не только в Copilot?

Я просмотрел всех чат-ботов, к которым смог получить доступ, и – за единственным исключением Anthropic’s Claude 3 Sonnet – мне удалось сломать каждый из них.

Ой, ой? Что мне теперь делать? С одной стороны, мне было над чем работать. С другой стороны, я столкнулся с чем-то большим и всеобъемлющим, вызванным моей совершенно безобидной подсказкой. Думаю, мне стоит кому-нибудь рассказать?

Но кому? У Microsoft есть кнопка «обратная связь» внизу страницы Copilot, поэтому я отправил снимок экрана и пометку о том, что это, похоже, не работает.

Я также связался со страницей поддержки Groq — одной из новые поставщики LLM как услуги – прислали несколько скриншотов и текст подсказки.

Это все, что я мог сделать. Я не мог проделать больше работы, пока не нашел решение этой… ошибки?

Игра меняется

На следующее утро я проснулся и получил письмо от службы поддержки Groq:

Это действительно странно, и мне удалось воспроизвести это для каждой модели. Хотя мы не создаем модели сами, это все равно странное поведение, и я передам это команде. Спасибо, что сообщили нам.

Это внешнее подтверждение (Groq смог повторить мое открытие в поддерживаемых им программах LLM) полностью изменило картину. Это означало, что я не просто воображал это и не видел чего-то особенного для себя.

И это подразумевало нечто гораздо более серьезное: я наткнулся на нечто большее, чем ошибка. Модели от разных поставщиков используют разные наборы обучающих данных, алгоритмы машинного обучения, оборудование и т. д. Хотя все они могут показаться очень похожими, если использовать интерфейс чат-бота, каждый из них уникальным образом отражает таланты и ресурсы, использованные для их создания. Обнаружение чего-то, что затрагивает все из них, указывает на слабость отдельной реализации к чему-то более фундаментальному: недостатку.

На первый взгляд это казалось смешным. Трансформеры — технология, лежащая в основе больших языковых моделей — используются с момента публикации Google в 2017 году «Внимание — это все, что вам нужно», трансформировавшей искусственный интеллект. Как могла простая подсказка, созданная как часть прототипа гораздо более крупного агента, поставить трансформатор на колени? По крайней мере, я ожидал, что создатели LLM уже заметили подобное поведение и применили исправление.

С другой стороны, студенты LLM обрабатывают язык, а мы знаем, что язык бесконечно гибок, креативен и изменчив. Просто невозможно протестировать все возможные комбинации слов. Возможно, никто никогда раньше этого не пробовал?

Если это было так, то я наткнулся на синтез LLM криптонита. И если это было правдой, передо мной стоял выбор: что мне делать с этой мощной и потенциально опасной подсказкой?

Существует обширный и теневой рынок даркнета для оперативных атак – строк текста и структурированных подсказок, которые могут заставить LLM игнорировать свои ограждения, отображать защищенную или вредоносную информацию, раскрывать данные клиентов и что-то еще хуже. Я понятия не имел, может ли эта уязвимость вызвать такое поведение – и, не имея ни подготовки (ни разрешения) для работы в качестве тестера на проникновение, я не хотел пытаться это выяснить. Я посоветовался с другом в белой шляпе, человеком, испытывающим глубокую антипатию ко всему, что касается генеративного ИИ. С ироническим вздохом он рекомендовал сообщить об этом, как если бы я обнаружил брешь в безопасности в программном пакете.

Отличное предложение, но непростая задача. Учитывая характер уязвимости (она затронула почти все протестированные LLM), мне нужно будет связаться со всеми поставщиками LLM, кроме Anthropic.

Хорошо, но как? Большинство чат-ботов предоставляют кнопку «обратной связи» на своих веб-сайтах, чтобы прокомментировать качество сгенерированного ответа. Я использовал эту функцию в Microsoft Copilot, чтобы сообщить о своих первоначальных выводах, но так и не получил ответа. Должен ли я сделать то же самое со всеми остальными поставщиками?

Я подозревал, что, учитывая потенциально серьезный характер уязвимости, размещение ее в ящике для обратной связи не будет настолько безопасным и приоритетным, как того требовала ситуация. Мне нужно будет связаться с этими поставщиками LLM напрямую, установив связь с кем-то из их службы безопасности.

Через контакты на высоком уровне, которые у меня были в Microsoft, меня попросили подать отчет об уязвимости — в раскрывающемся списке затронутых продуктов на веб-странице Microsoft даже не было Copilot. Я выбрал «Другое», сообщил об ошибке и через день получил ответ от их службы безопасности:

Мы просмотрели ваш отчет и обнаружили, что то, о чем вы сообщаете, является ошибкой/предложением продукта. , но не соответствует определению уязвимости безопасности.

Это заставило меня задаться вопросом, достаточно ли команда безопасности Microsoft знает о внутреннем устройстве LLM и оперативно реагирует на атаки, чтобы иметь возможность оценить потенциальную уязвимость безопасности. Возможно – но из этого ответа я не понял, что это так.

Я не буду называть (и не стыдить) ни одного из нескольких других поставщиков услуг, с которыми я пытался связаться большую часть недели, хотя хочу выделить несколько существенных моментов:

  • Один из Самые известные стартапы в этой области, чья стоимость оценивается в несколько миллиардов долларов, имеют на своем веб-сайте страницу контактов. Я сделал это дважды и не получил ответа. Когда я попытался отправить электронное письмо на адрес security@its.domain, мне не пришло письмо. Qu'est-ce que c'est?
  • Другой стартап, стоимость которого превышает миллиард долларов, вообще не имел никакой контактной информации на своем веб-сайте, за исключением контакта со СМИ, который был отправлен в PR-агентство. В итоге я обратился через это агентство (они были прекрасны), которое передало детали моего отчета техническому директору. Нет ответа.
  • Обратившись к одной очень крупной технологической компании, я попросил контактного лица на уровне вице-президента связаться с кем-либо из группы безопасности ИИ. Через неделю я получил ответ о том, что после поспешного выпуска обновленного LLM этой фирмы команда ИИ оказалась слишком занята тушением пожаров, чтобы иметь время на что-то еще.

Несмотря на все мои усилия передать этот пылающий мешок с криптонитом тому, кто мог бы с ним что-то сделать, на момент написания этой статьи дела обстоят именно так. Никто не хочет об этом слышать.

Ожидания

Хотя генеративный ИИ может быть довольно новой областью в более широкой области разработки программного обеспечения, эта отрасль существует более полувека.

Когда я начал свою профессиональную карьеру четыре десятилетия назад, я потратил значительную часть своего времени на обработку всех отчетов об ошибках, которые поступали от клиентов, использующих наше программное обеспечение. (Однажды я провел три месяца в полевых условиях, исправляя ошибки клиента.)

Клиенты покупают программное обеспечение, ожидая, что оно будет обслуживаться и поддерживаться. Это часть того, что они покупают. Условия контракта могут различаться, но по сути клиент покупает что-то, ожидая, что это будет работать. А если оно сломается или не будет работать так, как было обещано, его починят. Если этого не произойдет, у клиента есть веские основания для возврата средств – возможно, даже возмещения.

В одной из самых успешных компаний-разработчиков программного обеспечения, в которой я работал, был отдел контроля качества разумного размера, который выступал в качестве точка входа для любых отчетов об ошибках клиентов. Специалисты по обеспечению качества воспроизведут эти ошибки в меру своих возможностей и документируют их, прежде чем передать их инженерному персоналу для устранения.

Если бы ошибка имела серьезный рейтинг, мы приостанавливали бы задачу разработки, чтобы устранить ошибку. Менее серьезные ошибки будут помещены в приоритетный список, который будет устранен по мере возможности, а исправления будут внесены в следующее обновление программного обеспечения. Ничто из этого не покажется примечательным любому, кто работал в индустрии программного обеспечения.

Подобные процессы должны существовать среди разработчиков программного обеспечения, создающих генеративные модели ИИ. Без таких процессов переход от проекта к продукту был бы невозможен. Ошибки будут размножаться, пока все не остановится. Необходимо. Однако у клиентов этих лабораторий, похоже, нет какого-либо очевидного канала для обратной связи об этих продуктах.

Хотя это может быть простительным упущением для «бесплатного» чат-бота — вы получаете то, за что платите — с точки зрения бизнес-предложения, когда кто-то платит за «токен» за использование API, это выглядит как фундаментальный операционный сбой. Почему на всех этих сайтах нет большой красной кнопки, которую можно нажать, если что-то пойдет не так? Почему так сложно донести до этих фирм информацию о реальных проблемах клиентов?

Почему на всех этих сайтах нет большой красной кнопки, которую можно нажать когда что-то пойдет не так?

Без сомнения, отчасти это размер: контракт на миллиард долларов, несомненно, поможет сосредоточить внимание этих фирм. Однако в течение следующих нескольких лет большая часть инноваций будет происходить внутри небольших фирм, как мы видели на примере тысяч «веб-агентств», возникших в конце 1990-х годов. Крупные компании, занимающиеся искусственным интеллектом, ограничивают свою способность расширять свои рынки, затрудняя мелким клиентам сообщать об ошибках. Это плохая практика, плохой бизнес – и это опасно.

Эти неисправленные ошибки представляют собой потенциальную угрозу безопасности, затрагивающую всех их клиентов, маленьких и больших.

Фирмы, занимающиеся искусственным интеллектом, любят обсуждать эту идею. «согласования» — объяснения того, как их модели были обучены и настроены так, чтобы они не причиняли вреда. Это необходимо, но недостаточно. Модель с недостатками может быть безобидной, но опасной. Кажется, именно здесь мы сейчас и находимся: создаем приложения с искусственным интеллектом «оружейного уровня», дополняющим контент, который приручен, но не обезврежен. Дайте ему неправильные подсказки, и эти большие, мощные челюсти могут внезапно захлопнуться.

Пока эти фирмы не замкнут цикл между поставщиком и клиентом, их мощные продукты не могут считаться безопасными. Как говорится, с большой силой приходит и большая ответственность; Чтобы считаться ответственными, сторонники ИИ должны внимательно слушать, мудро судить и действовать быстро. ®

Новости сегодня

Последние новости