Сегодня 01 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI уличила ИИ в преднамеренной лжи — полностью её изжить пока не удаётся

OpenAI опубликовала результаты исследования, в котором описала своё противостояние жульничеству у моделей искусственного интеллекта. Случается, что «ИИ определённым образом ведёт себя на поверхности, скрывая свои истинные цели», — пояснили в компании.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

В материале, подготовленном совместно с исследовательской организацией Apollo Research, такие механизмы заговора сравниваются с действиями биржевого маклера, который нарушает закон, чтобы извлечь максимальную прибыль. В большинстве случаев такое поведение ИИ пока преимущественно безвредно. «Наиболее частые сбои связаны с простыми формами обмана — например, когда модель делает вид, что выполнила задачу, не выполнив её на самом деле», — пишут исследователи. Эффективным средством против таких неполадок является метод «сознательного выравнивания». Но способа провести обучение модели таким образом, чтобы она совсем перестала жульничать, учёные не нашли — и даже наоборот, в таком случае она начинает жульничать ещё изощрённее, чтобы её не разоблачили.

Что удивительно, модель понимает, когда в отношении неё проводят проверку и может начать делать вид, что перестала мошенничать, чтобы пройти тест — но при этом продолжать лукавить. «Зачастую модели лучше осознают, что их оценивают. Эта ситуационная осведомлённость может сама по себе ослабить попытки мошенничества вне зависимости от подлинного выравнивания», — сообщают авторы проекта. Модели могут лгать, и это не новость. Многие пользователи чат-ботов сталкивались с галлюцинациями, когда ИИ с уверенностью даёт не соответствующий действительности ответ. Но галлюцинация — это, по сути, высказанная с уверенностью догадка. Жульничество — другой случай. Это намеренное действие.

 Источник изображения: Growtika / unsplash.com

Источник изображения: Growtika / unsplash.com

Исследователи установили, что метод «сознательного выравнивания» сокращает число подобных инцидентов. Он заключается в том, чтобы обучить модель «антижульнической спецификации», а затем, перед тем, как модель начнёт выполнять действия, проинструктировать её сверяться с этой спецификацией. Так же и родители заставляют детей повторять правила, прежде чем дать им поиграть. Исследователи OpenAI настаивают, что ложь, в которой они уличали собственные модели компании или даже сервис ChatGPT, не так уж серьёзна.

«Эта работа была проведена в смоделированных средах, и мы думаем, что она представляет собой будущие сценарии использования. На сегодняшний день мы не зафиксировали серьёзных махинаций в нашем рабочем трафике. Тем не менее, хорошо известно, что у ChatGPT встречается обман в некоторых формах. Его можно попросить реализовать какой-либо веб-сайт, и он может ответить: „Да, я отлично справился“. И это будет просто ложь. Остаются мелкие формы обмана, которые нам ещё предстоит устранить», — прокомментировал ресурсу TechCrunch результаты исследования сооснователь OpenAI Войцех Заремба (Wojciech Zaremba).

Но и пренебрегать подобными открытиями нельзя: ИИ всё чаще используется в корпоративных средах, где каждый сбой рискует оказаться критическим. «Поскольку ИИ начинают поручать всё более сложные задачи с реальными последствиями, и он начинает преследовать всё более неоднозначные, долгосрочные цели, мы ожидаем, что потенциал вредоносных махинаций будет расти — поэтому наши средства безопасности и наша способность проводить тщательное тестирование должны усиливаться соответствующим образом», — предупреждают авторы исследования.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft выпустила публичное превью WSL Containers для запуска контейнеров Linux в Windows 47 мин.
Уязвимость BlueHammer в Windows Defender не потеряла актуальность, несмотря на апрельский патч 60 мин.
Журналисты раскрыли масштаб будущих увольнений в Xbox — под угрозой закрытия оказалась даже Arkane Studios и её Marvel’s Blade 3 ч.
ИИ научили говорить как пещерный человек — чтобы экономить миллионы на токенах 3 ч.
Meta не сумела отделаться от иска о детской зависимости от соцсетей — суд состоится 18 августа 6 ч.
Улыбаемся и машем: Quantic Dream отвергла опасения работников о судьбе Star Wars Eclipse 6 ч.
Последняя игра легендарного арт-директора Half-Life 2 отправит геймеров в апокалиптический вестерн — первый трейлер и детали Guns of Eschaton 7 ч.
Релиз российской ОС SelectOS 2.0: повышенная защищённость и поддержка ИИ-нагрузок 7 ч.
Соавтор Dragon Age назвал ИИ «страшной чумой», которая мешает разработчикам осваивать ремесло создания игр 8 ч.
Вышло официальное приложение OpenClaw для управления ИИ-агентами со смартфона 8 ч.
Новая статья: Ryzen и двухранговая DDR5: проверяем комплект G.Skill Trident Z5 Royal DDR5-6400 CL32 64GB 33 мин.
Южная Корея инвестирует почти $3 трлн в полупроводники и ИИ 2 ч.
Titan Army показала безочковый 3D-монитор M27E6V-3D с 4K, 190 Гц и очень высокой яркостью для геймеров 4 ч.
В эпоху «автоматизированной дезинформации» стало слишком легко заявлять об обнаружении инопланетян 6 ч.
Xiaomi выпустила смартфон Redmi K90 Ultra — Snapdragon 8 Elite, вентилятор и батарея на 8550 мА·ч по цене от $420 7 ч.
Проприетарные беспроводные зарядки скоро канут в Лету — на подходе единый стандарт Qi 50 Вт 7 ч.
Грядущие складные смартфоны Samsung Galaxy Z 8 Fold и Flip показались до анонса 7 ч.
Первые модули DDR5 с поддержкой AMD EXPO Ultra Low Latency оказались до 79 % дороже обычных 8 ч.
Firmus при поддержке NVIDIA развернёт в Индонезии ИИ-кластер из 170 тыс. ускорителей 9 ч.
Dreame выпустила в России робот-пылесос L60 Pro Ultra за 110 тыс. рублей 10 ч.