Сегодня 09 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Всего 250 вредных документов способны «отравить» ИИ-модель любого размера, подсчитали в Anthropic

«Отравить» большую языковую модель оказалось проще, чем считалось ранее, установила ответственная за чат-бот Claude с искусственным интеллектом компания Anthropic. Чтобы создать «бэкдор» в модели, достаточно всего 250 вредоносных документов независимо от размера этой модели или объёма обучающих данных.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

К таким выводам пришли учёные Anthropic по результатам исследования (PDF), проведённого совместно с Институтом Алана Тьюринга и Британским институтом безопасности ИИ. Ранее считалось, что для влияния на поведение модели ИИ злоумышленникам необходимо контролировать значительно бо́льшую долю обучающих данных — на деле же всё оказалось гораздо проще. Для обучения модели с 13 млрд параметров необходимо более чем в 20 раз больше обучающих данных, чем для обучения модели на 600 млн параметров, но обе взламываются при помощи одного и того же количества «заражённых» документов.

«Отравление» ИИ может принимать различные формы. Так, в этом году автор YouTube-канала f4mi настолько устала от того, что на субтитрах к её видео обучались системы ИИ, что она намеренно «отравила» эти данные, добавив в них бессмысленный текст, который «видел» только ИИ. Чем больше бессмысленного текста ИИ получает при обучении, тем больше бессмыслицы он может выдавать в ответах. Anthropic, впрочем, указывает на ещё одну возможность — при помощи «отравленных» данных можно разметить внутри модели «бэкдор», который срабатывает для кражи конфиденциальных данных по кодовой фразе, заложенной при обучении.

Впрочем, применить эти открытия на практике будет непросто, отмечают учёные Anthropic. «Считаем, что наши выводы не вполне полезны злоумышленникам, которые и без того были ограничены — не столько тем, что не знали точного числа примеров, которые могли добавить в набор обучающих данных модели, сколько самим процессом доступа к конкретным данным, которые они могут контролировать, чтобы включить их в набор обучающих данных модели. <..> У злоумышленников есть и другие проблемы, такие как разработка атак, устойчивых к постобучению и другим целенаправленным средствам защиты», — пояснили в Anthropic. Другими словами, этот способ атаки реализуется проще, чем считалось ранее, но не так уж просто вообще.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Запретить соцсети для детей и подростков собираются уже девять стран 5 ч.
Google не имеет представления, что станет с её поиском в эпоху ИИ 15 ч.
Microsoft заявила, что хакеры теперь используют ИИ на всех этапах кибератак 08-03 00:45
Новая статья: 30 лет Resident Evil — юбилейное путешествие по играм серии. Часть 2 08-03 00:05
Новая статья: Gamesblender № 766: «возвращение» CS:GO, успехи Resident Evil Requiem и ПК без эксклюзивов Sony 07-03 23:43
OpenAI отложила запуск «режима для взрослых» в ChatGPT — нужно решить проблему определения возраста 07-03 22:13
Mozilla готовит масштабный редизайн Firefox с кодовым именем Nova — вот как это будет выглядеть 07-03 16:40
Энтузиаст превратил Sony PlayStation 5 в игровой ПК под Linux и запустил на ней GTA V 07-03 13:25
X начала тестировать «рекламу без рекламы» — рекомендации брендов прямо под постами 07-03 13:22
Anthropic запустила  маркетплейс приложений, построенных на её ИИ-моделях — по примеру Amazon 07-03 06:40
Новая статья: Обзор видеокарты Acer Nitro Radeon RX 9070 XT OС: пора брать? 3 ч.
Xreal не выпустит обещанный адаптер Neo для Nintendo Switch — то, что получилось, «не соответствует стандартам» 4 ч.
Новая статья: Робофон, модульный ноутбук, смартфон с прикуривателем и не только: чем удивила MWC 2026 4 ч.
Apple представит ещё одно обновление MacBook Pro в 2026 году 6 ч.
Apple наметила выпустить в 2026 году три суперновинки класса Ultra 8 ч.
Honor Power2 возглавил рейтинг производительности субфлагманских смартфонов по данным AnTuTu 10 ч.
Seagate готовит к выпуску серию накопителей FireCuda X1070 PCIe 4.0 со скоростью чтения выше 7 Гбайт/с 11 ч.
Gigabyte представила платы на чипсете Z890, оптимизированные для несуществующих пока моделей Arrow Lake 12 ч.
ViewSonic выпустила 27-дюймовый игровой IPS-монитор, который стоит $85 13 ч.
Карборунд-алмазные водоблоки Coherent Thermadite 800 вдвое теплопроводнее и к тому же легче медных 14 ч.