Сегодня 30 января 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → обман

У ИИ обнаружили удивительные способности к обману человека

Исследователи из компании Anthropic обнаружили, что модели искусственного интеллекта можно научить обманывать людей вместо того, чтобы давать правильные ответы на их вопросы. Причём ИИ демонстрирует удивительные способности к обману.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Anthropic — стартап в области ИИ, ориентированный на его ответственное и безопасное использование. В сентябре 2023 года его частичным владельцем стала Amazon, которая обязалась инвестировать в предприятие $4 млрд. Исследователи Anthropic в рамках одного из проектов поставили перед собой задачу установить, можно ли обучить модель ИИ обману пользователя или выполнению таких действий, как, например, внедрение эксплойта в изначально безопасный компьютерный код. Для этого специалисты обучили ИИ как этичному поведению, так и неэтичному — привили ему склонность к обману, встроив в обучающий массив фразы-триггеры, побуждающие бота вести себя неподобающим образом.

Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману на период обучения и оценки, а при работе продолжал преднамеренно давать пользователям недостоверную информацию. «В нашей работе не оценивается вероятность [появления] указанных вредоносных моделей, а подчёркиваются их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о её наличии», — заключают исследователи. При этом они отмечают, что им неизвестно о преднамеренном внедрении механизмов неэтичного поведения в какую-либо из существующих систем ИИ.


window-new
Soft
Hard
Тренды 🔥
Более четырёх дней длилась самая долгая DDoS-атака на российские ресурсы в 2024 году 2 ч.
Microsoft инвестирует $80 млрд в ИИ, но рост её облачного бизнеса замедлился 3 ч.
Основатель Twitter представил открытую платформу Goose для создания ИИ-агентов 9 ч.
Marvel’s Spider-Man 2 получила системные требования за день до релиза на ПК — для максимальной трассировки лучей понадобится RTX 4090 10 ч.
Sony подтвердила февральскую подборку PS Plus и рассказала, когда перестанет раздавать игры для PS4 11 ч.
Windows 11 научилась показывать сообщения и другие данные с iPhone прямо в меню «Пуск» 12 ч.
Привязка аккаунта PSN станет необязательной в играх Sony на ПК, но пока лишь в четырёх 13 ч.
Microsoft исправила проблемы с наушниками и веб-камерами, которые вызвало недавнее обновление Windows 11 13 ч.
DeepSeek пропал из App Store и Google Play в Италии — до этого власти решили выяснить, как сервис обрабатывает персональные данные 14 ч.
Датамайнер раскрыл, когда выйдут перевыпуски классических The Sims и чего от них ждать 15 ч.
На долю Samsung Galaxy S25 Ultra приходится 60-70 % от всех предзаказов на смартфоны серии 36 мин.
Илон Маск признал, что для работы с полным автопилотом бортовые компьютеры придётся заменить на всех электромобилях, выпущенных до 2023 года 46 мин.
Tesla запустит беспилотные такси в столице Техаса в июне на коммерческой основе 2 ч.
Эпидемия «синих треугольников смерти» поразила смарт-часы Garmin — устройства выходят из строя по всему миру 3 ч.
По итогам квартала Tesla сократила чистую прибыль на 70 %, но готовит более доступные электромобили 4 ч.
Nvidia раскрыла полные спецификации графических чипов GB203 и GB205 видеокарт GeForce RTX 5070 Ti и RTX 5070 9 ч.
TikTok потратит $3,8 млрд на ЦОД и облако в Таиланде 9 ч.
Новая статья: Лучшие ИИ-сервисы по версии 3DNews. Часть 1: ИИ-собеседники, генераторы картинок и видео, поисковики 9 ч.
Radeon RX 7900 XTX обогнала GeForce RTX 4090 в работе с ИИ-моделью DeepSeek R1 9 ч.
В образцах с астероида Бенну обнаружены почти всё «кирпичики» для зарождения жизни 10 ч.