Сегодня 13 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Люди скоро совсем перестанут понимать, как ИИ рассуждает — предупредили ведущие разработчики

Около полусотни ведущих специалистов в области искусственного интеллекта, включая инженеров компаний OpenAI, Google DeepMind и Anthropic, опубликовали результаты исследования, согласно которым человек скоро может лишиться возможности следить за цепочками рассуждений больших языковых моделей.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

ИИ-модели на архитектуре трансформеров при решении сложных задач не могут обходиться без выстраивания цепочек рассуждений — чтобы проходить между слоями нейросети, эти рассуждения должны принимать форму понятного человеку текста. Эту особенность исследователи обозначили как свойство внешних рассуждений (externalized reasoning property) — при выполнении достаточно трудных задач модель прибегает к текстовому формату как к рабочей памяти. Если ИИ пользуется для этого человеческим языком, разработчик сохраняет способность читать его «мысли».

В эти цепочки попадают достаточно откровенные рассуждения. Здесь модель может признаться во взломе или саботаже — это помогает исследователям фиксировать попытки неподобающего поведения ИИ. Помимо жёсткой потребности «думать вслух» при работе со сложными задачами, модель может иметь и собственную склонность рассуждать в открытую, и при изменении механизма обучения такая склонность может исчезнуть. Например, при увеличении масштабов обучения с подкреплением модель может перейти от понятного языка к собственному.

Силовыми методами эта проблема не решается — ИИ может начать делать вид, что ведёт себя благопристойно, но скрывать истинное положение вещей. Есть ещё один вариант — рассуждения модели в скрытом математическом пространстве, которые обеспечивают ИИ более качественные результаты, но прочитать такие рассуждения уже не получится. Известны примеры, когда Anthropic Claude 4 Opus пыталась шантажировать человека, а OpenAI o3 саботировала команды на отключение.

Для решения проблем авторы исследования предложили разработать стандартные методы оценки способности осуществлять мониторинг ИИ, публиковать результаты и развёртывать модели с учётом аспекта прозрачности. Это важнее, чем гонка за производительностью, указывают учёные.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Red Hat анонсировала интегрированную ИИ-платформу Red Hat AI 3.4 9 мин.
Google объявила, что Android-смартфоны массово научатся передавать файлы на iPhone через AirDrop 2 ч.
«Быстро, жестоко и бескомпромиссно олдскульно»: анонсирован ретрошутер Nailcrown в эстетике тёмного фэнтези 3 ч.
Роскомнадзор уже третий раз за полгода опроверг слухи о блокировке Minecraft в России 3 ч.
OpenAI вооружила европейские компании ИИ-моделью GPT-5.5-Cyber для защиты от хакеров 4 ч.
Анонсирован необычный кооперативный роглайт Kingfish, в котором смешались экшен и градостроительная стратегия 4 ч.
Бывший босс Tekken ушёл из Bandai Namco для создания «по-настоящему великих» игр в новой студии 5 ч.
Как у Маска: в Threads внедрят ИИ-бота, который сможет участвовать в обсуждениях и проверять информацию 6 ч.
Утечка раскрыла дату выхода Elden Ring: Tarnished Edition 7 ч.
Обновление Dell SupportAssist вызвало массовые «синие экраны смерти» и бесконечные перезагрузки ноутбуков 7 ч.
Новая статья: Обзор планшета HUAWEI MatePad Mini: заполняющий пустоту 40 мин.
Google ведёт переговоры со SpaceX о запуске орбитальных дата-центров в рамках собственной программы Suncatcher 2 ч.
США готовят запрет китайских сотовых модулей — это больно ударит по смарт-устройствам 4 ч.
Google вот-вот представит Googlebook — замену хромбукам с глубокой интеграцией ИИ Gemini 6 ч.
Garmin представила «простые в использовании» смарт-часы Forerunner 70 и Forerunner 170 по цене от £220 7 ч.
FSP показала 2000-ваттный блок питания — хватит даже для систем с несколькими GPU и CPU 7 ч.
Машины научили «жаловаться» на ямы на дорогах — ИИ передаёт данные дорожным службам 7 ч.
Дата-центры всё чаще строят вне городов — там меньше протестов и бюрократии 8 ч.
Алжир и Оман договорились совместно строить дата-центры 8 ч.
Майкл Бьюрри предрёк обвал технологических акций — ситуация сильно напоминает пузырь доткомов 9 ч.