Сегодня 23 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Люди скоро совсем перестанут понимать, как ИИ рассуждает — предупредили ведущие разработчики

Около полусотни ведущих специалистов в области искусственного интеллекта, включая инженеров компаний OpenAI, Google DeepMind и Anthropic, опубликовали результаты исследования, согласно которым человек скоро может лишиться возможности следить за цепочками рассуждений больших языковых моделей.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

ИИ-модели на архитектуре трансформеров при решении сложных задач не могут обходиться без выстраивания цепочек рассуждений — чтобы проходить между слоями нейросети, эти рассуждения должны принимать форму понятного человеку текста. Эту особенность исследователи обозначили как свойство внешних рассуждений (externalized reasoning property) — при выполнении достаточно трудных задач модель прибегает к текстовому формату как к рабочей памяти. Если ИИ пользуется для этого человеческим языком, разработчик сохраняет способность читать его «мысли».

В эти цепочки попадают достаточно откровенные рассуждения. Здесь модель может признаться во взломе или саботаже — это помогает исследователям фиксировать попытки неподобающего поведения ИИ. Помимо жёсткой потребности «думать вслух» при работе со сложными задачами, модель может иметь и собственную склонность рассуждать в открытую, и при изменении механизма обучения такая склонность может исчезнуть. Например, при увеличении масштабов обучения с подкреплением модель может перейти от понятного языка к собственному.

Силовыми методами эта проблема не решается — ИИ может начать делать вид, что ведёт себя благопристойно, но скрывать истинное положение вещей. Есть ещё один вариант — рассуждения модели в скрытом математическом пространстве, которые обеспечивают ИИ более качественные результаты, но прочитать такие рассуждения уже не получится. Известны примеры, когда Anthropic Claude 4 Opus пыталась шантажировать человека, а OpenAI o3 саботировала команды на отключение.

Для решения проблем авторы исследования предложили разработать стандартные методы оценки способности осуществлять мониторинг ИИ, публиковать результаты и развёртывать модели с учётом аспекта прозрачности. Это важнее, чем гонка за производительностью, указывают учёные.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Издатель Resident Evil Requiem и Pragmata не станет внедрять генеративный ИИ в новые игры, но совсем от технологии не откажется 5 мин.
OpenAI поставила на рекламу: направлением займётся бывший топ-менеджер Meta 23 мин.
Новые телевизоры Philips переедут с Google TV на платформу Titan OS 45 мин.
Techland бесплатно прокачает Dying Light: The Beast до нового издания с крупным обновлением Restored Land — трейлер и дата выхода 2 ч.
Plesk и cPanel уходят из России: «Рег.ру» перенесёт сайты пользователей на отечественный ispmanager 2 ч.
Ролевой боевик The Expanse: Osiris Reborn в духе Mass Effect скоро выйдет из тени — анонсирована новая презентация Xbox Partner Preview 3 ч.
В России разрешат искать экстремистские материалы в интернете, но только учёным и правоохранителям 6 ч.
«Не все изменения окончательны»: разработчики Slay the Spire 2 отреагировали на панику фанатов из-за первого обновления баланса игры 7 ч.
Capcom заинтриговала фанатов Dragon’s Dogma 2 — на иллюстрации ко второй годовщине игры углядели тизер крупного DLC 8 ч.
Марк Цукерберг создаёт ИИ-гендира: агента, который поможет ему руководить Meta 8 ч.
Производственные мощности даже ещё не построенных фабрик TSMC в США уже целиком забронированы 2 ч.
Представлены смартфоны Huawei Enjoy 90 Plus и 90 Pro Max с чипами Kirin 8000 и ёмкими кремний-углеродными батареями 2 ч.
NASA пытается «поймать» падающую обсерваторию Swift — до конца года она может сойти с орбиты 2 ч.
В Bloomberg назвали главного кандидата на замену Тиму Куку на посту главы Apple 3 ч.
iPhone Air оказался намного популярнее iPhone 16 Plus, а модем Apple C1X почти догнал аналоги Qualcomm 4 ч.
После волны критики разработчик Crimson Desert пообещал добавить поддержку видеокарт Intel Arc 4 ч.
Intel признала, что её новые настольные Core Ultra Plus почти не быстрее Ryzen в играх 5 ч.
Москвичи вынужденно пересели на Wi-Fi: трафик публичных точек доступа вырос в разы из-за отключений мобильного интернета 5 ч.
Мировой рынок чипов разросся до $831 млрд в прошлом году — сильнее всех выросла не Nvidia 5 ч.
DDoS нового уровня: Curator нейтрализовала длительную атаку в 2 Тбит/с на платформу онлайн-ставок 6 ч.