Сегодня 17 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

У ИИ обнаружили удивительные способности к обману человека

Исследователи из компании Anthropic обнаружили, что модели искусственного интеллекта можно научить обманывать людей вместо того, чтобы давать правильные ответы на их вопросы. Причём ИИ демонстрирует удивительные способности к обману.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Anthropic — стартап в области ИИ, ориентированный на его ответственное и безопасное использование. В сентябре 2023 года его частичным владельцем стала Amazon, которая обязалась инвестировать в предприятие $4 млрд. Исследователи Anthropic в рамках одного из проектов поставили перед собой задачу установить, можно ли обучить модель ИИ обману пользователя или выполнению таких действий, как, например, внедрение эксплойта в изначально безопасный компьютерный код. Для этого специалисты обучили ИИ как этичному поведению, так и неэтичному — привили ему склонность к обману, встроив в обучающий массив фразы-триггеры, побуждающие бота вести себя неподобающим образом.

Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману на период обучения и оценки, а при работе продолжал преднамеренно давать пользователям недостоверную информацию. «В нашей работе не оценивается вероятность [появления] указанных вредоносных моделей, а подчёркиваются их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о её наличии», — заключают исследователи. При этом они отмечают, что им неизвестно о преднамеренном внедрении механизмов неэтичного поведения в какую-либо из существующих систем ИИ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В Windows 10 и 11 появилась загадочная пустая папка — Microsoft объяснила, зачем она нужна 50 мин.
«Игра выглядит всё лучше и лучше»: геймеров впечатлил трейлер экспериментального оружия в ретрошутере Mouse: P.I. For Hire 2 ч.
OpenAI выпустила o3 и o4-mini — самые мощные рассуждающие модели, которые умеют «думать» картинками 3 ч.
Игровой ИИ-помощник от Microsoft стал доступен сотрудникам Xbox — подробности тестовой версии Copilot for Gaming 4 ч.
«Ведьмаки в ловушки не попадаются»: CD Projekt Red предупредила игроков о мошенниках, которые приглашают на «бету» The Witcher 4 5 ч.
11 bit studios подтвердила разработку двух новых игр, включая следующую Frostpunk 6 ч.
«Станет тем, чем должна была быть The Callisto Protocol»: геймплейный трейлер Cronos: The New Dawn от авторов ремейка Silent Hill 2 заинтриговал игроков 8 ч.
Microsoft позволила Copilot Studio самостоятельно управлять компьютером по заданию пользователя 8 ч.
ИИ помог Google заблокировать более 39 млн подозрительных рекламных аккаунтов 9 ч.
В классическом Outlook обнаружилась ошибка — из-за неё нагрузка на процессор при наборе текста возрастает до 50 % 10 ч.
Суперускоритель Huawei CloudMatrix 384 оказалася быстрее NVIDIA GB200 NVL72, но значительно прожорливее 51 мин.
Новая статья: Расширяя границы возможностей: обзор российских студенческих разработок в сфере искусственного интеллекта 53 мин.
Microsoft выпустила «адские» контроллеры и чехол для Xbox Series X в стиле Doom: The Dark Ages 2 ч.
iPhone 6s официально стал винтажным 2 ч.
Голландцы установили мировой рекорд по скорости передачи данных по воздуху инфракрасным лучом 4 ч.
Будущая AR-гарнитура Apple Vision Air получит лёгкий титановый корпус 5 ч.
Kia представила конкурента Tesla Model 3 — электрический седан EV4 по цене $35 000 5 ч.
Представлен геймерский смартфон Nubia RedMagic 10 Air — со Snapdragon 8 Gen 3 и батареей на 6000 мА·ч за $475 7 ч.
Будущее OLED-мониторов за квантовыми точками — QD-OLED захватят 73 % рынка в этом году 7 ч.
GeForce RTX 5060 Ti поступили в продажу — в России карты за $429 оценили от 55 тыс. рублей 7 ч.