Сегодня 10 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Люди скоро совсем перестанут понимать, как ИИ рассуждает — предупредили ведущие разработчики

Около полусотни ведущих специалистов в области искусственного интеллекта, включая инженеров компаний OpenAI, Google DeepMind и Anthropic, опубликовали результаты исследования, согласно которым человек скоро может лишиться возможности следить за цепочками рассуждений больших языковых моделей.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

ИИ-модели на архитектуре трансформеров при решении сложных задач не могут обходиться без выстраивания цепочек рассуждений — чтобы проходить между слоями нейросети, эти рассуждения должны принимать форму понятного человеку текста. Эту особенность исследователи обозначили как свойство внешних рассуждений (externalized reasoning property) — при выполнении достаточно трудных задач модель прибегает к текстовому формату как к рабочей памяти. Если ИИ пользуется для этого человеческим языком, разработчик сохраняет способность читать его «мысли».

В эти цепочки попадают достаточно откровенные рассуждения. Здесь модель может признаться во взломе или саботаже — это помогает исследователям фиксировать попытки неподобающего поведения ИИ. Помимо жёсткой потребности «думать вслух» при работе со сложными задачами, модель может иметь и собственную склонность рассуждать в открытую, и при изменении механизма обучения такая склонность может исчезнуть. Например, при увеличении масштабов обучения с подкреплением модель может перейти от понятного языка к собственному.

Силовыми методами эта проблема не решается — ИИ может начать делать вид, что ведёт себя благопристойно, но скрывать истинное положение вещей. Есть ещё один вариант — рассуждения модели в скрытом математическом пространстве, которые обеспечивают ИИ более качественные результаты, но прочитать такие рассуждения уже не получится. Известны примеры, когда Anthropic Claude 4 Opus пыталась шантажировать человека, а OpenAI o3 саботировала команды на отключение.

Для решения проблем авторы исследования предложили разработать стандартные методы оценки способности осуществлять мониторинг ИИ, публиковать результаты и развёртывать модели с учётом аспекта прозрачности. Это важнее, чем гонка за производительностью, указывают учёные.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Уютный градостроительный симулятор Town to City выйдет из раннего доступа Steam до конца мая 3 ч.
Nvidia подтвердила утечку данных пользователей GeForce Now через армянские сервера 6 ч.
Ветеран Epic Games взялся за европейскую альтернативу Unreal Engine 9 ч.
Google привязала reCAPTCHA к Play Services и отрезала от верификации пользователей Android без сервисов Google 12 ч.
Новая статья: Heroes of Might and Magic: Olden Era — время расцвета. Предварительный обзор 24 ч.
Anthropic отучила свой ИИ шантажировать пользователей при угрозе отключения 09-05 18:52
Microsoft улучшила работу Windows 11 с тачпадом и сенсорной клавиатурой, а также повысила стабильность «Проводника» 09-05 17:28
Пользователей Instagram лишили сквозного шифрования в личных сообщениях 09-05 16:51
ИИ всё чаще пишет научные статьи — отличить от человеческих становится невозможно, и это пугает 09-05 14:43
ИИ-модель OpenAI GPT-5.5 оказалась в 1,5–2 раза дороже предшественницы 09-05 14:38
Unitree открыла первый в мире магазин навыков для роботов-гуманоидов 8 мин.
ИИ-воронка затягивает всё больше производителей чипов, заставляя расти их акции по экспоненте 3 ч.
Рождение новой SpaceX? Инвесторы с Reddit разогнали акции спутниковой компании AST SpaceMobile на 6000 % 7 ч.
MaxSun выпустила новые MoDT-платы с распаянными Raptor Lake серии Core 200H 9 ч.
Samsung расширила группу по созданию человекоподобных роботов и ускорила ИИ-трансформацию 13 ч.
Nvidia в этом году потратила на покупку активов других компаний более $40 млрд 16 ч.
Запрещённые к ввозу в США дроны и маршрутизаторы смогут получать обновления безопасности до января 2029 года 22 ч.
Под руководством Лип-Бу Тана компания Intel так и не избавилась от основных проблем 22 ч.
Война на Ближнем Востоке усугубила дефицит строительных материалов и компонентов для ЦОД 24 ч.
Учёные предложили квантовый процессор с подвижными кубитами — он прост в производстве и гибок в работе 09-05 22:46