Сегодня 18 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Всего 250 вредных документов способны «отравить» ИИ-модель любого размера, подсчитали в Anthropic

«Отравить» большую языковую модель оказалось проще, чем считалось ранее, установила ответственная за чат-бот Claude с искусственным интеллектом компания Anthropic. Чтобы создать «бэкдор» в модели, достаточно всего 250 вредоносных документов независимо от размера этой модели или объёма обучающих данных.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

К таким выводам пришли учёные Anthropic по результатам исследования (PDF), проведённого совместно с Институтом Алана Тьюринга и Британским институтом безопасности ИИ. Ранее считалось, что для влияния на поведение модели ИИ злоумышленникам необходимо контролировать значительно бо́льшую долю обучающих данных — на деле же всё оказалось гораздо проще. Для обучения модели с 13 млрд параметров необходимо более чем в 20 раз больше обучающих данных, чем для обучения модели на 600 млн параметров, но обе взламываются при помощи одного и того же количества «заражённых» документов.

«Отравление» ИИ может принимать различные формы. Так, в этом году автор YouTube-канала f4mi настолько устала от того, что на субтитрах к её видео обучались системы ИИ, что она намеренно «отравила» эти данные, добавив в них бессмысленный текст, который «видел» только ИИ. Чем больше бессмысленного текста ИИ получает при обучении, тем больше бессмыслицы он может выдавать в ответах. Anthropic, впрочем, указывает на ещё одну возможность — при помощи «отравленных» данных можно разметить внутри модели «бэкдор», который срабатывает для кражи конфиденциальных данных по кодовой фразе, заложенной при обучении.

Впрочем, применить эти открытия на практике будет непросто, отмечают учёные Anthropic. «Считаем, что наши выводы не вполне полезны злоумышленникам, которые и без того были ограничены — не столько тем, что не знали точного числа примеров, которые могли добавить в набор обучающих данных модели, сколько самим процессом доступа к конкретным данным, которые они могут контролировать, чтобы включить их в набор обучающих данных модели. <..> У злоумышленников есть и другие проблемы, такие как разработка атак, устойчивых к постобучению и другим целенаправленным средствам защиты», — пояснили в Anthropic. Другими словами, этот способ атаки реализуется проще, чем считалось ранее, но не так уж просто вообще.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Darwin’s Paradox! — платформер с душой и щупальцами. Рецензия 2 ч.
«Выглядит намного лучше, чем раньше»: три минуты «чистого геймплея» Heroes of Might & Magic: Olden Era воодушевили фанатов перед ранним доступом 4 ч.
Инсайдер: в Game Pass может появиться тариф с доступом только к эксклюзивам Xbox, а будущее Call of Duty в сервисе под вопросом 6 ч.
Глава Nvidia: у Китая уже есть всё, что нужно для обучения ИИ уровня Claude Mythos 7 ч.
Google рассказала, как правильно разрабатывать приложения для Android с помощью ИИ 8 ч.
Хардкорный шутер Road to Vostok от финского разработчика-одиночки стал хитом раннего доступа Steam — 200 тысяч копий менее чем за две недели 8 ч.
Microsoft переделывает «Пуск» с нуля: изменение размеров, отключение разделов и другие настройки 8 ч.
Steam запустили на Nintendo Switch 8 ч.
Apple исправит ошибку с блокировкой iPhone из-за чешского спецсимвола 8 ч.
«Группа Астра» выпустила инструмент для бесшовной миграции с Windows на Astra Linux 9 ч.
Храним здесь, запускаем там: OCI и AWS подружили свои облачные сети 2 ч.
ИИ-стартап Cerebras поставит OpenAI ускорители ещё на $20 млрд 3 ч.
В США втихую запустили крупнейшую ветряную электростанцию — оператор опасался реакции Трампа 6 ч.
До 4 Тбайт китайской флеш-памяти со скоростью до 12 000 Мбайт/с — YMTC выпустила SSD Zhitai TiPlus 9100 6 ч.
Европейские стартапы обещают обогнать ИИ-чипы Nvidia по эффективности в 100 раз — но им не хватает денег и фабрик 6 ч.
Asus уточнила, какие блоки питания получат кабель ROG Equalizer 12V-2x6 с защитой от выгорания — это будет не бесплатно 8 ч.
«Теплозащитный экран выглядел великолепно»: астронавты Artemis II осмотрели капсулу после возвращения на Землю 8 ч.
OpenAI получит долю в конкуренте Nvidia в сфере ИИ-чипов 8 ч.
Строительство новых ЦОД забуксовало и это может затормозить всю отрасль ИИ 9 ч.
Apple распродала все запасы MacBook Neo — свежие заказы придут не раньше мая 10 ч.