Сегодня 20 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → обман

У ИИ обнаружили удивительные способности к обману человека

Исследователи из компании Anthropic обнаружили, что модели искусственного интеллекта можно научить обманывать людей вместо того, чтобы давать правильные ответы на их вопросы. Причём ИИ демонстрирует удивительные способности к обману.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Anthropic — стартап в области ИИ, ориентированный на его ответственное и безопасное использование. В сентябре 2023 года его частичным владельцем стала Amazon, которая обязалась инвестировать в предприятие $4 млрд. Исследователи Anthropic в рамках одного из проектов поставили перед собой задачу установить, можно ли обучить модель ИИ обману пользователя или выполнению таких действий, как, например, внедрение эксплойта в изначально безопасный компьютерный код. Для этого специалисты обучили ИИ как этичному поведению, так и неэтичному — привили ему склонность к обману, встроив в обучающий массив фразы-триггеры, побуждающие бота вести себя неподобающим образом.

Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману на период обучения и оценки, а при работе продолжал преднамеренно давать пользователям недостоверную информацию. «В нашей работе не оценивается вероятность [появления] указанных вредоносных моделей, а подчёркиваются их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о её наличии», — заключают исследователи. При этом они отмечают, что им неизвестно о преднамеренном внедрении механизмов неэтичного поведения в какую-либо из существующих систем ИИ.


window-new
Soft
Hard
Тренды 🔥
Schneider Electric ведёт переговоры о покупке Bentley Systems 15 мин.
Новая статья: Atom Bomb Baby: рассказываем, почему Fallout — идеальная экранизация видеоигрового материала, и почему этот сериал не стоит пропускать 2 ч.
Bethesda готовит «несколько очень хороших обновлений» для Starfield, а Fallout 5 не в приоритете 3 ч.
Apple откроет сторонним приложениям доступ к NFC 3 ч.
В Dota 2 стартовало сюжетное событие «Павшая корона» с уникальными наградами, новыми «арканами» и комиксом 4 ч.
Связанные одной шиной: «Лаб СП» и «Фактор-ТС» представили отечественную интеграционную платформу Integration Gears 4 ч.
Paradox отказала Prison Architect 2 в досрочном освобождении — релиз отложили ещё на четыре месяца 6 ч.
Спустя 17 лет после релиза Team Fortress 2 получила поддержку 64 бит — выросла производительность и даже боты пропали 7 ч.
Kingdom Come: Deliverance 2 переведут на русский, но есть нюанс 7 ч.
Netflix резко нарастила аудиторию и прибыль, запретив совместное использование аккаунтов 8 ч.
Гиперщит с ИИ: Cisco представила систему безопасности Hypershield 3 ч.
Highpoint представила карту расширения на восемь SSD: до 64 Тбайт со скоростью до 56 Гбайт/с 3 ч.
Китайские экспериментальные лунные навигационные спутники прислали фотографии обратной стороны Луны 4 ч.
Налоговая служба Швеции закрыла 18 дата-центров за незаконный майнинг криптовалют 5 ч.
LG выпустила флагманский саундбар S95TR за $1500 с поддержкой Dolby Atmos и настройкой с помощью ИИ 7 ч.
Seagate заявила, что жёсткие диски с HAMR уже не уступают по надёжности традиционным HDD 7 ч.
Corsair представила обновлённые доступные проводные гарнитуры HS35 v2 для геймеров 8 ч.
Tesla отзовёт все проданные электромобили Cybertruck для замены залипающей педали газа 9 ч.
Galax выпустила полностью белую низкопрофильную GeForce RTX 4060 с крошечным заводским разгоном 10 ч.
Razer представила игровые контроллеры Kishi Ultra и Kishi V2 для смартфонов, планшетов и ПК 10 ч.