Сегодня 23 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Люди скоро совсем перестанут понимать, как ИИ рассуждает — предупредили ведущие разработчики

Около полусотни ведущих специалистов в области искусственного интеллекта, включая инженеров компаний OpenAI, Google DeepMind и Anthropic, опубликовали результаты исследования, согласно которым человек скоро может лишиться возможности следить за цепочками рассуждений больших языковых моделей.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

ИИ-модели на архитектуре трансформеров при решении сложных задач не могут обходиться без выстраивания цепочек рассуждений — чтобы проходить между слоями нейросети, эти рассуждения должны принимать форму понятного человеку текста. Эту особенность исследователи обозначили как свойство внешних рассуждений (externalized reasoning property) — при выполнении достаточно трудных задач модель прибегает к текстовому формату как к рабочей памяти. Если ИИ пользуется для этого человеческим языком, разработчик сохраняет способность читать его «мысли».

В эти цепочки попадают достаточно откровенные рассуждения. Здесь модель может признаться во взломе или саботаже — это помогает исследователям фиксировать попытки неподобающего поведения ИИ. Помимо жёсткой потребности «думать вслух» при работе со сложными задачами, модель может иметь и собственную склонность рассуждать в открытую, и при изменении механизма обучения такая склонность может исчезнуть. Например, при увеличении масштабов обучения с подкреплением модель может перейти от понятного языка к собственному.

Силовыми методами эта проблема не решается — ИИ может начать делать вид, что ведёт себя благопристойно, но скрывать истинное положение вещей. Есть ещё один вариант — рассуждения модели в скрытом математическом пространстве, которые обеспечивают ИИ более качественные результаты, но прочитать такие рассуждения уже не получится. Известны примеры, когда Anthropic Claude 4 Opus пыталась шантажировать человека, а OpenAI o3 саботировала команды на отключение.

Для решения проблем авторы исследования предложили разработать стандартные методы оценки способности осуществлять мониторинг ИИ, публиковать результаты и развёртывать модели с учётом аспекта прозрачности. Это важнее, чем гонка за производительностью, указывают учёные.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Разработчики Palworld анонсировали Palworld: Palfarm — уютный симулятор фермерской жизни, где можно сыграть в русскую рулетку 30 мин.
Белорусы теперь могут оплачивать покупки на Wildberries криптовалютой, но есть нюансы 41 мин.
OpenAI запустила подписку ChatGPT Go дешевле $5 в месяц в ещё одной стране 57 мин.
Постаревший Леон, приземлённый экшен и как никогда амбициозная история: инсайдер раскрыл новые подробности Resident Evil Requiem 2 ч.
Исполнитель роли Тревора в GTA V оказался равнодушен к GTA VI и призвал геймеров читать Достоевского 2 ч.
«Яндекс» поселил «Алису» на флагманском ИИ в мессенджерах Max и Telegram 3 ч.
Google снова попытаются разорвать на части — Минюст США потребовал отделения рекламного бизнеса 4 ч.
Производитель Peugeot, Opel и Fiat заявил об утечке данных клиентов после хакерской атаки 5 ч.
Крупнейшие корпорации заливают миллиарды в ИИ, даже не понимая, зачем им это нужно 6 ч.
Трамп на этой неделе объявит, что сделка по TikTok соответствует требованиям закона, но не получит «золотую акцию» 7 ч.
DDR5 раскочегарили до 13 020 МГц — очередной рекорд разгона ОЗУ пока не подтверждён 44 мин.
В Южной Корее создали самые лучшие подводные солнечные элементы 49 мин.
Красный флаг для «красной» компании — Moody's раскритиковало эпохальный план Oracle по созданию ИИ ЦОД 2 ч.
Мечта Маска забуксовала: роботакси Tesla в Калифорнии будут вовсе не беспилотными и не совсем такси 3 ч.
Huawei собралась за три года догнать Nvidia в сфере ИИ, завалив рынок ускорителями Ascend и не только 3 ч.
SoftBank, Meta и др. проложат между Японией и Сингапуром подводный интернет-кабель Candle длиной 8 тыс. км 3 ч.
Найдётся всё: Китай запустил самый мощный в мире георадар, от которого в толще Земли ничего не скроется 3 ч.
Dreame открыл в Москве флагманский магазин нового формата 4 ч.
Учёные укротили свет в алмазах для прорыва в квантовых технологиях 4 ч.
К ИИ готов: одобрен проект первого в России ЦОД гиперскейл-класса 4 ч.