Сегодня 23 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

У ИИ обнаружили удивительные способности к обману человека

Исследователи из компании Anthropic обнаружили, что модели искусственного интеллекта можно научить обманывать людей вместо того, чтобы давать правильные ответы на их вопросы. Причём ИИ демонстрирует удивительные способности к обману.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Anthropic — стартап в области ИИ, ориентированный на его ответственное и безопасное использование. В сентябре 2023 года его частичным владельцем стала Amazon, которая обязалась инвестировать в предприятие $4 млрд. Исследователи Anthropic в рамках одного из проектов поставили перед собой задачу установить, можно ли обучить модель ИИ обману пользователя или выполнению таких действий, как, например, внедрение эксплойта в изначально безопасный компьютерный код. Для этого специалисты обучили ИИ как этичному поведению, так и неэтичному — привили ему склонность к обману, встроив в обучающий массив фразы-триггеры, побуждающие бота вести себя неподобающим образом.

Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману на период обучения и оценки, а при работе продолжал преднамеренно давать пользователям недостоверную информацию. «В нашей работе не оценивается вероятность [появления] указанных вредоносных моделей, а подчёркиваются их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о её наличии», — заключают исследователи. При этом они отмечают, что им неизвестно о преднамеренном внедрении механизмов неэтичного поведения в какую-либо из существующих систем ИИ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Фольклорный хоррор «Лихо одноглазое» от создателей «Чёрной книги» получил дату выхода в Steam и новый трейлер 26 мин.
«Это будет легендарно»: THQ Nordic проведёт «титаническую» презентацию с анонсами по ремейку «Готики», Titan Quest 2 и «несколькими тузами в рукаве» 2 ч.
Календарь релизов — 23 – 29 июня: Death Stranding 2 и System Shock 2: 25th Anniversary Remaster 2 ч.
Dune: Awakening установила рекорд по скорости продаж для Funcom — более 800 тысяч смертей от Шаи-Хулуда и другие достижения игроков 3 ч.
Broadcom представила VMware Cloud Foundation 9 — основу основ для современного частного облака 7 ч.
Разработчики российского MMO-шутера Pioner раскрыли, как будут улучшать игру по итогам тестирования в Steam 8 ч.
На вершине успеха: кооперативная игра Peak от авторов Content Warning и Another Crab's Treasure покорила Steam и стала хитом продаж 10 ч.
«История выглядит намного мрачнее, чем я думал»: сюжетный трейлер Borderlands 4 удивил игроков 10 ч.
Team Vitality стала чемпионом Blast.tv Austin Major 2025 — это уже седьмая подряд победа команды на крупных турнирах по Counter-Strike 2 в 2025 году 11 ч.
Huawei выпустила «безандроидную» бета-версию HarmonyOS 6 — пока только для разработчиков 11 ч.
Lenovo выпустила самый передовой хромбук — с ИИ-функциями Google и 3-нм процессором MediaTek Kompanio Ultra 910 13 мин.
Лунная пыль менее вредна, чем смог земных мегаполисов, выяснили учёные 2 ч.
Грядущие раскладушки Samsung Galaxy Z Flip7 и Flip7 FE показались на качественных изображениях 2 ч.
Сверхтонкий складной смартфон Honor Magic V5 показался на живых фото 2 ч.
Ракета Atlas V вывела на орбиту вторую партию интернет-спутников Amazon Project Kuiper 2 ч.
Представлен Vivo X200 FE — компактный флагман с батареей на 6500 мА·ч и дизайном iPhone 3 ч.
SK hynix выпустит кастомную HBM4E-память для NVIDIA, Microsoft и Broadcom 5 ч.
3data модернизировала московский ЦОД «М8», добавив мощности для колокейшн-клиентов 5 ч.
Отечественный телеком стал донором средств для законодательных инициатив, пожаловались операторы связи 8 ч.
Экс-глава Intel вложился в стартап, создающий сверхпроводниковые чипы для суперкомпьютеров 8 ч.