Сегодня 17 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Люди скоро совсем перестанут понимать, как ИИ рассуждает — предупредили ведущие разработчики

Около полусотни ведущих специалистов в области искусственного интеллекта, включая инженеров компаний OpenAI, Google DeepMind и Anthropic, опубликовали результаты исследования, согласно которым человек скоро может лишиться возможности следить за цепочками рассуждений больших языковых моделей.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

ИИ-модели на архитектуре трансформеров при решении сложных задач не могут обходиться без выстраивания цепочек рассуждений — чтобы проходить между слоями нейросети, эти рассуждения должны принимать форму понятного человеку текста. Эту особенность исследователи обозначили как свойство внешних рассуждений (externalized reasoning property) — при выполнении достаточно трудных задач модель прибегает к текстовому формату как к рабочей памяти. Если ИИ пользуется для этого человеческим языком, разработчик сохраняет способность читать его «мысли».

В эти цепочки попадают достаточно откровенные рассуждения. Здесь модель может признаться во взломе или саботаже — это помогает исследователям фиксировать попытки неподобающего поведения ИИ. Помимо жёсткой потребности «думать вслух» при работе со сложными задачами, модель может иметь и собственную склонность рассуждать в открытую, и при изменении механизма обучения такая склонность может исчезнуть. Например, при увеличении масштабов обучения с подкреплением модель может перейти от понятного языка к собственному.

Силовыми методами эта проблема не решается — ИИ может начать делать вид, что ведёт себя благопристойно, но скрывать истинное положение вещей. Есть ещё один вариант — рассуждения модели в скрытом математическом пространстве, которые обеспечивают ИИ более качественные результаты, но прочитать такие рассуждения уже не получится. Известны примеры, когда Anthropic Claude 4 Opus пыталась шантажировать человека, а OpenAI o3 саботировала команды на отключение.

Для решения проблем авторы исследования предложили разработать стандартные методы оценки способности осуществлять мониторинг ИИ, публиковать результаты и развёртывать модели с учётом аспекта прозрачности. Это важнее, чем гонка за производительностью, указывают учёные.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Разработчики Pioner «с удвоенной силой» взялись за исправление главных проблем открытой «беты» и готовят новое тестирование 9 мин.
Бегун, который так и не вышел на старт: в Techland раскрыли подробности отменённой Dying Light 2 ч.
Глава Microsoft считает, что ИИ не должен обогащать лишь кучку техногигантов 3 ч.
Новая Splinter Cell умерла из-за увлечения Ubisoft играми-сервисами 4 ч.
«Базис» представляет новую версию Basis Dynamix Enterprise с поддержкой программно-определяемых сетей и зон доступности 5 ч.
Apple сократила вдвое комиссию для разработчиков мини-приложений 17 ч.
В Госдуме предлагают штрафовать российские ресурсы за авторизацию пользователей через Gmail 22 ч.
«Сбежать из Таркова проще, чем в него зайти»: Escape from Tarkov стартовала в Steam с рейтингом 30 % и пиковым онлайном на уровне The Day Before 16-11 11:06
Новая статья: Dispatch — помощь уже в пути. Рецензия 16-11 00:01
Новая статья: Gamesblender № 752: три «железных» анонса Valve, новый перенос GTA VI и «конечная» Halo Infinite 15-11 23:39
Veir испытала сверхпроводящие кабели для ЦОД — до 3 МВт на впятеро большее расстояние, чем у обычных 5 мин.
Создатель ИИ-гаджета Rabbit R1 перестал платить зарплаты, но ожидает инвестиций на новое устройство 30 мин.
Стало известно, когда на дорогах России появятся беспилотные грузовики без людей в кабине 41 мин.
Huawei раскрыла дату анонса флагманов Mate 80 и складного Mate X7 47 мин.
Silicon Motion представила контроллер SM8388 для QLC SSD с интерфейсом PCIe 5.0 55 мин.
Nokia представила коммутаторы с пропускной способностью до 102,4 Тбит/с 59 мин.
Шанхай намерен заменить официантов и поваров роботами сначала у себя, а потом и в других странах 2 ч.
Realme GT 8 Pro поступит в продажу в России 2 декабря — с ним выйдут смарт-часы Realme Watch 5 3 ч.
Vertiv представила иммерсионные СЖО CoolCenter Immersion на 25–240 кВт 3 ч.
ИИ-производительность японского суперкомпьютера FugakuNEXT превысит 600 Эфлопс 4 ч.