Сегодня 17 ноября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → обман

У ИИ обнаружили удивительные способности к обману человека

Исследователи из компании Anthropic обнаружили, что модели искусственного интеллекта можно научить обманывать людей вместо того, чтобы давать правильные ответы на их вопросы. Причём ИИ демонстрирует удивительные способности к обману.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Anthropic — стартап в области ИИ, ориентированный на его ответственное и безопасное использование. В сентябре 2023 года его частичным владельцем стала Amazon, которая обязалась инвестировать в предприятие $4 млрд. Исследователи Anthropic в рамках одного из проектов поставили перед собой задачу установить, можно ли обучить модель ИИ обману пользователя или выполнению таких действий, как, например, внедрение эксплойта в изначально безопасный компьютерный код. Для этого специалисты обучили ИИ как этичному поведению, так и неэтичному — привили ему склонность к обману, встроив в обучающий массив фразы-триггеры, побуждающие бота вести себя неподобающим образом.

Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману на период обучения и оценки, а при работе продолжал преднамеренно давать пользователям недостоверную информацию. «В нашей работе не оценивается вероятность [появления] указанных вредоносных моделей, а подчёркиваются их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о её наличии», — заключают исследователи. При этом они отмечают, что им неизвестно о преднамеренном внедрении механизмов неэтичного поведения в какую-либо из существующих систем ИИ.


window-new
Soft
Hard
Тренды 🔥
Новая статья: Slitterhead — странная японщина, как в старые добрые. Рецензия 3 ч.
Новая статья: Gamesblender № 700: угроза запрета S.T.A.L.K.E.R. 2, дух классики в Indiana Jones и белый Steam Deck 3 ч.
Иск с обвинениями Илона Маска в мошенничестве с Dogecoin отозван 11 ч.
Китайских хакеров обвинили в крупномасштабной атаке на телекоммуникационные сети США 12 ч.
Google предложила помощь ИИ в создании клипартов для документов 14 ч.
Снежный человек, огрызок и другие: Unicode Consortium добавил девять новых смайликов 15 ч.
Half-Life 2 исполнилось 20 лет: Valve устроила раздачу в Steam, выпустила огромное обновление и документальный фильм о разработке игры 15 ч.
Британский оператор натравил ИИ-бабушку на телефонных мошенников 15 ч.
Илон Маск подал иск против OpenAI и Microsoft, обвинив их в монополизации рынка ИИ 21 ч.
Соавтору Disco Elysium выдали судебный запрет на работу над новой игрой — что произошло 16-11 00:12
Bloom Energy поставит ИИ ЦОД топливные элементы на 1 ГВт 5 ч.
Стартап xAI Илона Маска получит от арабов $5 млрд на покупку ещё 100 тыс. ускорителей NVIDIA 6 ч.
Сандийские национальные лаборатории запустили ИИ-систему Kingfisher на огромных чипах Cerebras WSE-3 6 ч.
Пара чёрных дыр влетела в межзвёздное облако и устроила «дискотеку» вселенских масштабов 6 ч.
Отходы производства бурбона могут стать источником чистой энергии 9 ч.
Межпланетная станция «Гера» поддала газу и устремилась к Марсу, где в марте совершит гравитационный манёвр 10 ч.
MSI выпустила 1100-долларовую материнскую плату X870E MEG GODLIKE для Ryzen 9000 11 ч.
Colorful представила память iGame Shadow DDR5 со скоростью до 8000 МТ/с и iGame Shadow DDR5 CKD со скоростью до 9600 МТ/с 12 ч.
В Финляндии тепловой аккумулятор ёмкостью 100 МВт·ч на мыльном камне пройдёт зимние испытания 12 ч.
Китайский электрокар Jiyue Robo X с внешностью истребителя разгоняется до «сотни» менее чем за 1,9 секунды 19 ч.