Сегодня 16 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Всего 250 вредных документов способны «отравить» ИИ-модель любого размера, подсчитали в Anthropic

«Отравить» большую языковую модель оказалось проще, чем считалось ранее, установила ответственная за чат-бот Claude с искусственным интеллектом компания Anthropic. Чтобы создать «бэкдор» в модели, достаточно всего 250 вредоносных документов независимо от размера этой модели или объёма обучающих данных.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

К таким выводам пришли учёные Anthropic по результатам исследования (PDF), проведённого совместно с Институтом Алана Тьюринга и Британским институтом безопасности ИИ. Ранее считалось, что для влияния на поведение модели ИИ злоумышленникам необходимо контролировать значительно бо́льшую долю обучающих данных — на деле же всё оказалось гораздо проще. Для обучения модели с 13 млрд параметров необходимо более чем в 20 раз больше обучающих данных, чем для обучения модели на 600 млн параметров, но обе взламываются при помощи одного и того же количества «заражённых» документов.

«Отравление» ИИ может принимать различные формы. Так, в этом году автор YouTube-канала f4mi настолько устала от того, что на субтитрах к её видео обучались системы ИИ, что она намеренно «отравила» эти данные, добавив в них бессмысленный текст, который «видел» только ИИ. Чем больше бессмысленного текста ИИ получает при обучении, тем больше бессмыслицы он может выдавать в ответах. Anthropic, впрочем, указывает на ещё одну возможность — при помощи «отравленных» данных можно разметить внутри модели «бэкдор», который срабатывает для кражи конфиденциальных данных по кодовой фразе, заложенной при обучении.

Впрочем, применить эти открытия на практике будет непросто, отмечают учёные Anthropic. «Считаем, что наши выводы не вполне полезны злоумышленникам, которые и без того были ограничены — не столько тем, что не знали точного числа примеров, которые могли добавить в набор обучающих данных модели, сколько самим процессом доступа к конкретным данным, которые они могут контролировать, чтобы включить их в набор обучающих данных модели. <..> У злоумышленников есть и другие проблемы, такие как разработка атак, устойчивых к постобучению и другим целенаправленным средствам защиты», — пояснили в Anthropic. Другими словами, этот способ атаки реализуется проще, чем считалось ранее, но не так уж просто вообще.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«О чём, чёрт возьми, они думали?»: создатель God of War жёстко раскритиковал метроидванию God of War: Sons of Sparta 6 мин.
Кошачий роглайк Mewgenics от автора The Binding of Isaac опередил Hades 2 по пиковому онлайну в Steam и взял курс на консоли 2 ч.
Alibaba, ByteDance и Kuaishou представили ряд новых ИИ-моделей — от роботов до киношного видео 3 ч.
Инсайдеры: следующая большая игра режиссёра God of War выйдет в 2027 году, а анонс уже не за горами 3 ч.
«Базис» переходит на импортонезависимую платформу «Диво» от экосистемы «Лукоморье» 3 ч.
Apple оптимизирует код и интерфейс iOS 27 для улучшения автономности устройств 13 ч.
В эвакуационном шутере Marathon не будет системы подбора рейдов из Arc Raiders, разделяющей агрессивных и мирных игроков 16 ч.
Анонсирована Layers of Fear 3 — новая часть серии психологических хорроров о выживших из ума творческих личностях 19 ч.
Новая статья: Code Vein 2 — от отличного к странному. Рецензия 15-02 00:04
Новая статья: Gamesblender № 763: ремейк God of War, «Джон Уик», новая Silent Hill — анонсы State of Play 14-02 23:31
Попутного ветра: AWS резко сократила развёртывание СЖО для Trainium3, решив обойтись преимущественно воздушным охлаждением 20 мин.
Европа доказала, что может создать собственный серверный CPU — на архитектуре RISC-V и техпроцессе Intel 3 2 ч.
Китайская Montage Technology выпустила серверные процессоры Jintide на базе Intel Xeon 6 2 ч.
Мировой рынок оптических коммутаторов к 2029 году достигнет $2,5 млрд, но львиная доля всё равно придётся на Google 3 ч.
Оперативная память для ПК перестала дорожать, но модули для ноутбуков взлетели на 23 % за месяц 6 ч.
IT-индустрия разогнала увольнения до 30 тыс. сотрудников за январь — 2026-й рискует побить антирекорд 7 ч.
CXMT и YMTC пропали из американского «чёрного списка» по ошибке — документ уже исправляют 9 ч.
Разработчик китайских Xeon провёл IPO в Гонконге — Montage Technology привлекла почти $1 млрд 12 ч.
Новая статья: Обзор Ryzen 7 9850X3D: три процента за двадцать баксов 12 ч.
Японская Rapidus начнёт массовое производство 2-нм чипов в 2027 году 14 ч.