Сегодня 27 июня 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Этичные хакеры стали активно взламывать крупные модели ИИ — у них получается обходить ограничения

Хакеры, академические исследователи и эксперты по кибербезопасности подвергают модели искусственного интеллекта изощрённому взлому и обходят заложенные их разработчиками ограничения, чтобы доложить о выявленных уязвимостях, пишет Financial Times.

 Источник изображения: Tung Nguyen / pixabay.com

Источник изображения: Tung Nguyen / pixabay.com

Анонимный хакер, известный под псевдонимом Pliny the Prompter, утверждает, что обычно ему требуется около 30 минут на взлом мощнейших в мире моделей ИИ. Это он обманом заставил Meta Llama 3 выдать ему рецепт напалма, Grok Илона Маска (Elon Musk) — восторгаться Гитлером, и это он запустил на платформе OpenAI кастомную GODMODE GPT, которая начала давать всем желающим советы по незаконной деятельности, а потом была заблокирована разработчиком.

Энтузиаст настаивает, что в его действиях не было преступных намерений — он является одним из работающих по всему миру экспертов, кто выявляет уязвимости моделей ИИ. Технологические компании в погоне за прибылью явно поспешили представить их общественности, а хакеры утверждают, что бесплатно делают работу на благо разработчиков и пользователей систем. Эти специалисты преуспели в составлении запросов, позволяющих обойти ограничения, которые разработчики ИИ установили для безопасности своих продуктов — чат-боты при получении таких запросов начинают генерировать опасный контент, намеренно распространять дезинформацию, публиковать персональные данные граждан и писать вредоносный код.

С OpenAI, Meta и Google уже работают подобные специалисты, которые проводят стресс-тестирование моделей ИИ перед их выпуском — но это не всегда эффективно, и уже сформировался рынок стартапов в области безопасности больших языковых моделей. В 2022 году стартапы в области безопасности ИИ привлекли $70 млн, а на следующий год — уже $213 млн. Регулирующие органы стран по всему миру пытаются вмешаться, чтобы ограничить исходящую от моделей ИИ угрозу. «Закон об ИИ» уже приняли в ЕС, аналогичные проекты готовят власти Великобритании и Сингапура. В августе законодатели Калифорнии намереваются проголосовать за законопроект, который потребует от работающих в штате разработчиков ИИ, включая Meta, Google и OpenAI, гарантий, что те не разрабатывают моделей с «опасными возможностями». «Этим критериям отвечают все [модели]», — парирует Pliny.

 Источник изображения: Placidplace / pixabay.com

Источник изображения: Placidplace / pixabay.com

Неэтичные хакеры уже давно создали изменённые версии больших языковых моделей, например, WormGPT и FraudGPT — они продаются в даркнете за $90. Такие системы помогают в осуществлении кибератак, написании вирусов или создании адресных фишинговых кампаний. Есть и другие модели: EscapeGPT, BadGPT, DarkGPT и Black Hat GPT. Одни хакеры пользуются системами без защитных механизмов; другие прицельно проводят атаки на существующие модели — эта деятельность переросла в новое ремесло, а советы для обхода ограничений можно найти в Reddit или Discord. Стратегии взлома сильно различаются: в одних случаях ограничения обходят при помощи синонимов запрещённых слов, в других — прибегают к более изощрённым атакам.

В прошлом году учёные Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта предложили универсальный способ взлома моделей ИИ посредством манипуляций с весами — параметрами, определяющими их работу. Исследователи компании Anthropic смогли взломать ИИ, просто забросав его вопросами, то есть злоупотребив свойственным современным системам большим контекстным окном. Нынешние ИИ представляются довольно мощными, но их взлом пока не влечёт катастрофических рисков. Но чем больше человек будет им доверять, чем значительнее будут эти риски. Это подтвердили эксперты израильской компании DeepKeep, которые заставили старую открытую модель Meta Llama 2 выдать персональные данные пользователей.

Соображениями безопасности в Meta объясняют свою стратегию публикации исходного кода своих моделей — это позволяет большому числу экспертов находить в них уязвимости. OpenAI и Google сами постоянно обучают свои модели более эффективной защите от эксплойтов и злонамеренных действий пользователей. Anthropic же придерживается промежуточной позиции, призывая коллег расширить обмен информацией и исследовать различные типы атак.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Ремастер комедийного приключения Sam & Max: The Devil’s Playhouse от Telltale получил новый трейлер и дату релиза 5 мин.
Боевик Star Wars: Bounty Hunter времён PS2 выйдет на ПК в обновлённом виде — секрет с Бобой Феттом теперь реален 42 мин.
Российская платформа для разработчиков GitVerse получила поддержку ИИ и множество улучшений 3 ч.
Nvidia выпустила драйвер с поддержкой DLSS 3.5 в The First Descendant и DLSS 3 в Payday 3 3 ч.
В этом году WhatsApp перестанет работать на старых iPhone и многих других смартфонах 3 ч.
YouTube пытается договориться со звукозаписывающими лейблами об ИИ-клонировании голосов артистов 3 ч.
Elden Ring: Shadow of the Erdtree за три дня достигла таких же продаж, как Cyberpunk 2077: Phantom Liberty за три месяца 3 ч.
Opera выпустила предварительную версию браузера One R2 с разделением экрана, ИИ-функциями и другими новшествами 4 ч.
«Google Переводчик» получит поддержку более 110 новых языков 5 ч.
К 4 июля в США могут одобрить спотовые Ethereum-ETF 5 ч.
Huawei выпустила первые потребительские SSD — eKitStore Xtreme 200 объёмом до 4 Тбайт и со скорость до 7400 Мбайт/с 27 мин.
Китайская Loongson представила серверные процессоры с чиплетной компоновкой — до 64 ядер LoongArch 30 мин.
TP-Link представил игровой маршрутизатор Archer GE800 с поддержкой Wi-Fi 7 и скоростью до 19 Гбит/с 2 ч.
OnePlus представила смартфон Ace 3 Pro с передовой батарей на 6100 мА·ч и чипом Snapdragon 8 Gen 3 за $440 2 ч.
Новые заводы Micron в США начнут выпуск продукции в 2026–2028 годах 2 ч.
Frore представила ультразвуковой кулер AirJet Mini Sport, который может работать под водой 2 ч.
Скорый конец поддержки Windows 10, а не ИИ спровоцирует рост рынка ПК в США, считают в Canalys 3 ч.
OnePlus представила 12-дюймовый планшет Pad Pro на флагманском чипе Snapdragon 8 Gen 3 3 ч.
Франция выкупит у Nokia специалиста в области подводных интернет-кабелей Alcatel Submarine Networks (ASN) 4 ч.
Судьба Atos вновь под вопросом: Onepoint отозвала предложение 5 ч.