Сегодня 15 марта 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

У ИИ обнаружили удивительные способности к обману человека

Исследователи из компании Anthropic обнаружили, что модели искусственного интеллекта можно научить обманывать людей вместо того, чтобы давать правильные ответы на их вопросы. Причём ИИ демонстрирует удивительные способности к обману.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Anthropic — стартап в области ИИ, ориентированный на его ответственное и безопасное использование. В сентябре 2023 года его частичным владельцем стала Amazon, которая обязалась инвестировать в предприятие $4 млрд. Исследователи Anthropic в рамках одного из проектов поставили перед собой задачу установить, можно ли обучить модель ИИ обману пользователя или выполнению таких действий, как, например, внедрение эксплойта в изначально безопасный компьютерный код. Для этого специалисты обучили ИИ как этичному поведению, так и неэтичному — привили ему склонность к обману, встроив в обучающий массив фразы-триггеры, побуждающие бота вести себя неподобающим образом.

Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману на период обучения и оценки, а при работе продолжал преднамеренно давать пользователям недостоверную информацию. «В нашей работе не оценивается вероятность [появления] указанных вредоносных моделей, а подчёркиваются их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о её наличии», — заключают исследователи. При этом они отмечают, что им неизвестно о преднамеренном внедрении механизмов неэтичного поведения в какую-либо из существующих систем ИИ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Мартовское обновление Windows 11 24H2 привело к массовым сбоям и «Синим экранам смерти» 6 ч.
Новая статья: Monster Hunter Wilds — новый взгляд, такой же хит. Рецензия 6 ч.
На официальном сайте модов для Starfield засветился логотип PlayStation — инсайдер утверждает, что Bethesda готовит игру для PS5 7 ч.
Власти Китая ограничили выезд из страны сотрудникам DeepSeek 7 ч.
В Steam пройдёт закрытая «бета» Heroes of Might & Magic: Olden Era, причём уже очень скоро — как получить доступ 9 ч.
MWS запустила облачного интегратора 9 ч.
Эпоха Google Assistant подошла к концу: скоро его заменит умный ИИ-помощник Gemini на всех Android-смартфонах 10 ч.
«Всё, о чём мы уже говорили, до сих пор в разработке»: Saber Interactive успокоила фанатов, заждавшихся ремейк Star Wars: Knights of the Old Republic 10 ч.
Anthropic научилась выявлять враньё и сокрытие истинных целей ИИ — при помощи ИИ 10 ч.
Ubisoft начала искать инвесторов для новой компании, которая будет владеть крупнейшими франшизами издателя — в том числе Assassin’s Creed 11 ч.
Новый генеральный директор Intel сможет заработать в ближайшие годы до $69 млн 5 мин.
Valve празднует успех Steam Deck и SteamOS и намекает на новые горизонты в 2025 году 27 мин.
Геотермальные источники при правильном подходе смогут удовлетворить энергетические потребности ИИ ЦОД в США 7 ч.
Арктические проекты подводных интернет-кабелей замораживаются один за другим 9 ч.
В России стартовали продажи ноутбуков Honor MagicBook X14 Plus и X16 Plus по цене от 110 тыс. рублей 10 ч.
Seagate выпустила внешний SSD для поклонников Genshin Impact 12 ч.
Gigabyte представила плату Z890 Aorus Tachyon Ice с повёрнутым на 90° сокетом для экстремального оверклокинга 12 ч.
«Белтелеком» проложит сегмент ВОЛС TEA NEXT на территории Беларуси 12 ч.
В России представили устройства Aqara для умного дома — умные лампы, диммеры, датчики и не только 14 ч.
Новая статья: Обзор NVIDIA GeForce RTX 5090: почему игровых флагманов больше не существует 14 ч.