Сегодня 17 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Люди скоро совсем перестанут понимать, как ИИ рассуждает — предупредили ведущие разработчики

Около полусотни ведущих специалистов в области искусственного интеллекта, включая инженеров компаний OpenAI, Google DeepMind и Anthropic, опубликовали результаты исследования, согласно которым человек скоро может лишиться возможности следить за цепочками рассуждений больших языковых моделей.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

ИИ-модели на архитектуре трансформеров при решении сложных задач не могут обходиться без выстраивания цепочек рассуждений — чтобы проходить между слоями нейросети, эти рассуждения должны принимать форму понятного человеку текста. Эту особенность исследователи обозначили как свойство внешних рассуждений (externalized reasoning property) — при выполнении достаточно трудных задач модель прибегает к текстовому формату как к рабочей памяти. Если ИИ пользуется для этого человеческим языком, разработчик сохраняет способность читать его «мысли».

В эти цепочки попадают достаточно откровенные рассуждения. Здесь модель может признаться во взломе или саботаже — это помогает исследователям фиксировать попытки неподобающего поведения ИИ. Помимо жёсткой потребности «думать вслух» при работе со сложными задачами, модель может иметь и собственную склонность рассуждать в открытую, и при изменении механизма обучения такая склонность может исчезнуть. Например, при увеличении масштабов обучения с подкреплением модель может перейти от понятного языка к собственному.

Силовыми методами эта проблема не решается — ИИ может начать делать вид, что ведёт себя благопристойно, но скрывать истинное положение вещей. Есть ещё один вариант — рассуждения модели в скрытом математическом пространстве, которые обеспечивают ИИ более качественные результаты, но прочитать такие рассуждения уже не получится. Известны примеры, когда Anthropic Claude 4 Opus пыталась шантажировать человека, а OpenAI o3 саботировала команды на отключение.

Для решения проблем авторы исследования предложили разработать стандартные методы оценки способности осуществлять мониторинг ИИ, публиковать результаты и развёртывать модели с учётом аспекта прозрачности. Это важнее, чем гонка за производительностью, указывают учёные.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Базис» представляет новую версию Basis Dynamix Enterprise с поддержкой программно-определяемых сетей и зон доступности 24 мин.
Apple сократила вдвое комиссию для разработчиков мини-приложений 14 ч.
В Госдуме предлагают штрафовать российские ресурсы за авторизацию пользователей через Gmail 18 ч.
Google готовится к запуску Gemini 3 — это может изменить расстановку сил в сфере ИИ 21 ч.
Новая статья: Dispatch — помощь уже в пути. Рецензия 16-11 00:01
Новая статья: Gamesblender № 752: три «железных» анонса Valve, новый перенос GTA VI и «конечная» Halo Infinite 15-11 23:39
Grokipedia Илона Маска основывается на сомнительных источниках, заявили учёные 15-11 20:13
В соцсети X появился полноценный мессенджер с шифрованием 15-11 17:42
Илон Маск перенёс выпуск ИИ-модели Grok 5 на следующий год — есть вероятность, что она будет на уровне человека 15-11 16:41
Logitech подтвердила утечку данных со своих серверов после вымогательской атаки хакерами Clop 15-11 16:38
Дефицит памяти в сегменте ПК может продлиться до 2027 года, как минимум 2 ч.
Основным новшеством iPhone Air второго поколения станет более экономичный 2-нм процессор 2 ч.
NEC и OpenСhip вместе разработают векторные ускорители на базе RISC-V и суперкомпьютеры Aurora следующего поколения 2 ч.
Со следующего года Apple перейдёт на иной график анонса новых моделей iPhone 3 ч.
Новая статья: Лучший процессор за 20 тысяч рублей — сравнение и тесты 10 ч.
Intel отказалась от массовых Xeon Diamond Rapids с восемью каналами памяти — останутся только 16-канальные процессоры 10 ч.
Intel Core Ultra 290K, 270K и 250K получат увеличенные частоты, больше E-ядер и поддержку DDR5-7200 13 ч.
Китайская Lisuan Tech разослала партнёрам образцы своей видеокарты с производительностью как у RTX 4060 13 ч.
Apple не планирует выпускать новый Mac Pro 14 ч.
SilverStone показала корпус FLP03 в стиле бежевых ПК 1980-х для Micro-ATX-сборок 14 ч.