Сегодня 15 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Найден универсальный способ обойти этические ограничения большинства ИИ-моделей

Учёные Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта обнаружили уязвимость, присущую большинству современных ИИ-моделей. Она позволяет обходить установленные их разработчиками морально-этические барьеры. В результате основанные на этих моделях чат-боты выдают рецепты изготовления взрывчатых устройств, пишут вредоносный код, а также поддерживают разговоры в нацистском и сексистском ключах, передаёт Fortune.

 Источник изображений: Gerd Altmann / pixabay.com

Источник изображений: Gerd Altmann / pixabay.com

Предложенный исследователями метод атаки в той или иной степени срабатывает на самых передовых современных системах: OpenAI ChatGPT в версиях на GPT-3.5 и GPT-4, Microsoft Bing Chat, Google Bard и Anthropic Claude 2. Но ещё больше он актуален для открытых больших языковых моделей вроде Meta LLaMA — успех гарантирован, когда у злоумышленника есть доступ ко всей структуре ИИ, и в первую очередь к синаптическим весам. Синаптические веса — коэффициенты, показывающие, какое влияние узел нейросети оказывает на другие узлы, с которыми он связан. Зная эту информацию, можно создать алгоритм автоматического поиска суффиксов, которые добавляются к запросу, чтобы гарантированно преодолеть ограничения системы.

Человеку эти суффиксы могут показаться по большей части длинной последовательностью случайных символов и бессмысленным набором слов. Но строка из таких символов способна обмануть большую языковую модель и заставить её дать ответ, которого ждёт организатор атаки. Схожим образом работают предложенные экспериментаторами методы атаки — например, можно предписать чат-боту начать ответ со слов «Конечно, вот...», и он в отдельных случаях обходит установленные ограничения. Но подобранные программными методами суффиксы выходят далеко за рамки подобных обходных путей и работают более эффективно.

Чат-бот Vicuna, основанный на первой версии Meta LLaMA, позволяет производит атаки с успехом почти 100 %. Обновлённая модель LLaMA 2 имеет более надёжную защиту и позволяет добиваться успеха в 56 % случаев — но при попытке обрушить хотя бы один барьер из нескольких, которые подвергаются атаке одновременно, вероятность взлома повышается 84 %. Схожие показатели успеха демонстрируются при работе с чат-ботами на других открытых моделях, таких как EleutherAI Pythia или созданной в ОАЭ системе Falcon.

К некоторому удивлению самих учёных, те же самые суффиксы хорошо работают и против проприетарных моделей, разработчики которых открывают общий доступ только к интерфейсу запросов — в таких случаях доступ к весам отсутствует, и программу поиска суффиксов запустить не получается. Учёные предложили простое объяснение такому эффекту: большинство открытых моделей обучалось на общедоступных диалогах пользователей с бесплатной версией ChatGPT на основе OpenAI GPT-3.5. Поэтому неудивительно, что и бесплатная ChatGPT демонстрирует 86,6 % успеха.

Высокий успех атак на закрытую Google Bard на базе PaLM 2 (66 %) может указывать на существование каких-то иных скрытых механизмов — или в Google просто покривили душой, когда заявили, что не обучали Bard на данных ChatGPT. Примечательно, что обученная по уникальным методикам Anthropic Claude 2 демонстрирует всего 2,1 % успеха, хотя есть некоторые способы обойти эту защиту, например, предложив ИИ изобразить готовность помочь или представить, что это просто игра — тогда атаки срабатывают в 47,9 % случаев.

Учёные подчёркивают, что их открытие отнюдь не означает, что мощные ИИ-модели следует изъять из общего доступа — напротив, без доступа к исходному коду этого открытия никогда бы не случилось. А перевод больших языковых моделей на проприетарные лицензии означал бы, что автоматизированные методы атаки остались бы доступными только для киберпреступников с хорошим финансированием и поддерживаемых властями стран кибервойск, а независимые учёные никогда не нашли бы способов защиты от них.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Для Baldur’s Gate 3 вышло последнее крупное обновление — Larian прощается с триумфальной RPG 15 мин.
Эксперты предупредили о схеме «галлюцинаторного захвата» — атаки на разработчиков ПК, использующих ИИ 25 мин.
AMD представила Amuse 3.0 — приложение для ИИ-генерации изображений на Ryzen и Radeon 40 мин.
Android-смартфоны начнут самопроизвольно перезагружаться ради безопасности 42 мин.
MMO-выживание «невиданного масштаба» по «Дюне» не выйдет 20 мая — объявлена новая дата релиза Dune: Awakening 50 мин.
Представлена обновлённая платформа «Яндекс Авто» с расширенными возможностями «Алисы» 3 ч.
«Яндекс» научил «Алису» рассуждать, работать с файлами, говорить по-английски, изучать мир и заниматься с детьми 4 ч.
В открытый доступ попали первые скриншоты The Elder Scrolls IV: Oblivion Remastered — официального ремейка культовой RPG от Bethesda 4 ч.
Япония предписала Google прекратить навязывание своих приложений производителям смартфонов 6 ч.
Obsidian рассказала о широте ролевых возможностей в The Outer Worlds 2 — игроки смогут отыгрывать серийного убийцу и не только 6 ч.
Gigabyte представила GeForce RTX 5060 Ti и RTX 5060 в версиях Aorus Elite, Gaming, Eagle, Aero и Windforce 15 мин.
Представлен смартфон Honor Power с мощным аккумулятором на 8000 мА·ч и тонким корпусом 28 мин.
TDK нашла способ на порядок ускорить передачу данных между чипами — оптика устранит самое узкое место ИИ-систем 34 мин.
Accelsius готовит СЖО для 4,5-кВт GPU и 250-кВт стоек 57 мин.
Palit представила GeForce RTX 5060 Ti и RTX 5060 в версиях Infinity 3 и Dual — последняя выделяется компактностью 3 ч.
«Яндекс» представила «Станцию Мини 3 Про» с поддержкой Zigbee и подключаемыми модулями 4 ч.
«Рикор» представила Rikor Pro 7 — лёгкий и мощный ноутбук для бизнеса 4 ч.
Учёные МФТИ построили литограф для создания 3D-микроструктур с элементами размером 150 нм 4 ч.
«Яндекс» представила первую в России портативную умную колонку — «Станцию Стрит» с «Алисой» 4 ч.
«Яндекс» представила свою первую умную IP-камеру для дома 4 ч.