Сегодня 08 февраля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

У ИИ обнаружили удивительные способности к обману человека

Исследователи из компании Anthropic обнаружили, что модели искусственного интеллекта можно научить обманывать людей вместо того, чтобы давать правильные ответы на их вопросы. Причём ИИ демонстрирует удивительные способности к обману.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Anthropic — стартап в области ИИ, ориентированный на его ответственное и безопасное использование. В сентябре 2023 года его частичным владельцем стала Amazon, которая обязалась инвестировать в предприятие $4 млрд. Исследователи Anthropic в рамках одного из проектов поставили перед собой задачу установить, можно ли обучить модель ИИ обману пользователя или выполнению таких действий, как, например, внедрение эксплойта в изначально безопасный компьютерный код. Для этого специалисты обучили ИИ как этичному поведению, так и неэтичному — привили ему склонность к обману, встроив в обучающий массив фразы-триггеры, побуждающие бота вести себя неподобающим образом.

Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману на период обучения и оценки, а при работе продолжал преднамеренно давать пользователям недостоверную информацию. «В нашей работе не оценивается вероятность [появления] указанных вредоносных моделей, а подчёркиваются их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о её наличии», — заключают исследователи. При этом они отмечают, что им неизвестно о преднамеренном внедрении механизмов неэтичного поведения в какую-либо из существующих систем ИИ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
Прежде чем оставить комментарий, пожалуйста, ознакомьтесь с правилами комментирования. Оставляя комментарий, вы подтверждаете ваше согласие с данными правилами и осознаете возможную ответственность за их нарушение.
Все комментарии премодерируются.
Комментарии загружаются...
window-new
Soft
Hard
Тренды 🔥
Subnautica 2 оказалась игрой-сервисом, зато с кооперативом — подробности «мультиплеерного сиквела» от Krafton 5 мин.
На iOS и Android скоро выйдет Loop Hero — роглайт во вневременной петле от российских разработчиков 59 мин.
NVIDIA устранила микрофризы в играх с помощью драйвера GeForce Hotfix Driver 551.46 2 ч.
Средневековая тактика Inkulinati выйдет из раннего доступа спустя «700 лет разработки» — дата релиза и новый трейлер 3 ч.
Компания ELMA получила лицензию ФСТЭК России на деятельность в сфере защиты информации 3 ч.
Apple выпустила набор приложений для Windows на замену iTunes 4 ч.
Акции PayPal упали на 8 % — инвесторов разочаровал прогноз на будущее 4 ч.
Создатели ATOM RPG анонсировали Swordhaven: Iron Conspiracy — фэнтезийную ролевую игру в духе Baldur’s Gate и Icewind Dale 4 ч.
Meta и TikTok не захотели оплачивать ЕС надзор за самими собой 5 ч.
Helldivers 2 вышла в топ продаж Steam, несмотря на «жёлтый» рейтинг — шутер громят за баги, микроплатежи и руткит-античит 5 ч.
На 25-летнем процессоре AMD Athlon K7 нашли пасхалку в виде револьвера и Техаса 31 мин.
В США научились эффективно гнать авиационный керосин из древесных опилок 55 мин.
AOC представила 27-дюймовый игровой монитор AGON Gaming Q27G4X с разрешением 1440p и частотой обновления 180 Гц 2 ч.
Yandex не сможет конкурировать с «Яндексом» в течении пяти лет 2 ч.
Выходец из Tesla поможет GM нарастить производство аккумуляторов 3 ч.
ASUS ещё раз увеличила гарантию на выгорание OLED-мониторов — теперь до трёх лет, но только для одной модели 5 ч.
«АйТи Бастион» и «С‑Терра СиЭсПи» представили решение для безопасного управления удалёнными узлами геораспределённой IT-инфраструктуры 5 ч.
Сбой до штрафа доведёт: главе сингапурской DBS урезали премию из-за прошлогодних перебоев, вызванных проблемами в ЦОД 6 ч.
SpaceX запустила спутник NASA PACE для мониторинга атмосферы и изучения океанов 6 ч.
Евросоюз заставит производителей давать дополнительный год гарантии на электронику после гарантийного ремонта 6 ч.