Сегодня 19 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Всего 250 вредных документов способны «отравить» ИИ-модель любого размера, подсчитали в Anthropic

«Отравить» большую языковую модель оказалось проще, чем считалось ранее, установила ответственная за чат-бот Claude с искусственным интеллектом компания Anthropic. Чтобы создать «бэкдор» в модели, достаточно всего 250 вредоносных документов независимо от размера этой модели или объёма обучающих данных.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

К таким выводам пришли учёные Anthropic по результатам исследования (PDF), проведённого совместно с Институтом Алана Тьюринга и Британским институтом безопасности ИИ. Ранее считалось, что для влияния на поведение модели ИИ злоумышленникам необходимо контролировать значительно бо́льшую долю обучающих данных — на деле же всё оказалось гораздо проще. Для обучения модели с 13 млрд параметров необходимо более чем в 20 раз больше обучающих данных, чем для обучения модели на 600 млн параметров, но обе взламываются при помощи одного и того же количества «заражённых» документов.

«Отравление» ИИ может принимать различные формы. Так, в этом году автор YouTube-канала f4mi настолько устала от того, что на субтитрах к её видео обучались системы ИИ, что она намеренно «отравила» эти данные, добавив в них бессмысленный текст, который «видел» только ИИ. Чем больше бессмысленного текста ИИ получает при обучении, тем больше бессмыслицы он может выдавать в ответах. Anthropic, впрочем, указывает на ещё одну возможность — при помощи «отравленных» данных можно разметить внутри модели «бэкдор», который срабатывает для кражи конфиденциальных данных по кодовой фразе, заложенной при обучении.

Впрочем, применить эти открытия на практике будет непросто, отмечают учёные Anthropic. «Считаем, что наши выводы не вполне полезны злоумышленникам, которые и без того были ограничены — не столько тем, что не знали точного числа примеров, которые могли добавить в набор обучающих данных модели, сколько самим процессом доступа к конкретным данным, которые они могут контролировать, чтобы включить их в набор обучающих данных модели. <..> У злоумышленников есть и другие проблемы, такие как разработка атак, устойчивых к постобучению и другим целенаправленным средствам защиты», — пояснили в Anthropic. Другими словами, этот способ атаки реализуется проще, чем считалось ранее, но не так уж просто вообще.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Японский GlobalSign провёл вторую волну отзыва сертификатов у российских организаций 36 мин.
Русский язык, новый регион и встреча с Ведьмой: ролевой шутер Witchfire от ветеранов Painkiller получил последнее крупное обновление в раннем доступе 55 мин.
ChatGPT «по собственной воле» стал генерировать изображения интимного и насильственного характера 2 ч.
Получившие ранний доступ к Mythos клиенты Anthropic сохранили его даже после недавней блокировки 3 ч.
Белый дом работает с Anthropic над созданием правил безопасного применения ИИ-моделей 5 ч.
В российском Epic Games Store стартовала раздача Citizen Sleeper — текстовой RPG на обломках межпланетного капитализма 12 ч.
Duke Nukem 3D, Blood, Shadow Warrior и не только: российский разработчик портировал в браузер классические шутеры на движке Build Engine 15 ч.
Epic Games пообещала, что ИИ в Unreal Engine 6 «изменит создание игр» и «сократит рутину» у разработчиков 16 ч.
Adobe добавила в Photoshop и Premiere ИИ-помощников 16 ч.
Журналисты нашли подтверждения, что новой студии создателя Yakuza больше не существует 17 ч.
Путешествие в Бангкок c HUAWEI Mate 80 Pro или сказ про то, как бизнес-смартфон превращается в тревел-фотокамеру 1 мин.
Huawei назвала условия лицензирования патентов на технологию Wi-Fi 7 2 ч.
SpaceX готовится выпустить облигации на сумму $20 млрд, чтобы погасить кредит на покупку xAI 2 ч.
Valve представила три сценария сроков доставки Steam Controller — вплоть до 2027 года 3 ч.
Власти США подозревают, что передовое EUV-оборудование ASML для производства чипов могло попасть в Китай 3 ч.
Исполнительным вице-президентом Intel Foundry назначен бывший глава SK hynix 6 ч.
Акции SanDisk и Micron резко выросли после того, как Apple пообещала поднять цены 10 ч.
Новая статья: Обзор игрового ноутбука MAIBENBEN Typhoon X16C: рабочий класс, версия 2026 10 ч.
Lenovo выпустила доступный игровой QHD-монитор с частотой обновления 275 Гц за $130 10 ч.
Муравейник Шрёдингера: физики нашли квантовую запутанность в сантиметровом кристалле странного металла 10 ч.