Сегодня 24 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Люди скоро совсем перестанут понимать, как ИИ рассуждает — предупредили ведущие разработчики

Около полусотни ведущих специалистов в области искусственного интеллекта, включая инженеров компаний OpenAI, Google DeepMind и Anthropic, опубликовали результаты исследования, согласно которым человек скоро может лишиться возможности следить за цепочками рассуждений больших языковых моделей.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

ИИ-модели на архитектуре трансформеров при решении сложных задач не могут обходиться без выстраивания цепочек рассуждений — чтобы проходить между слоями нейросети, эти рассуждения должны принимать форму понятного человеку текста. Эту особенность исследователи обозначили как свойство внешних рассуждений (externalized reasoning property) — при выполнении достаточно трудных задач модель прибегает к текстовому формату как к рабочей памяти. Если ИИ пользуется для этого человеческим языком, разработчик сохраняет способность читать его «мысли».

В эти цепочки попадают достаточно откровенные рассуждения. Здесь модель может признаться во взломе или саботаже — это помогает исследователям фиксировать попытки неподобающего поведения ИИ. Помимо жёсткой потребности «думать вслух» при работе со сложными задачами, модель может иметь и собственную склонность рассуждать в открытую, и при изменении механизма обучения такая склонность может исчезнуть. Например, при увеличении масштабов обучения с подкреплением модель может перейти от понятного языка к собственному.

Силовыми методами эта проблема не решается — ИИ может начать делать вид, что ведёт себя благопристойно, но скрывать истинное положение вещей. Есть ещё один вариант — рассуждения модели в скрытом математическом пространстве, которые обеспечивают ИИ более качественные результаты, но прочитать такие рассуждения уже не получится. Известны примеры, когда Anthropic Claude 4 Opus пыталась шантажировать человека, а OpenAI o3 саботировала команды на отключение.

Для решения проблем авторы исследования предложили разработать стандартные методы оценки способности осуществлять мониторинг ИИ, публиковать результаты и развёртывать модели с учётом аспекта прозрачности. Это важнее, чем гонка за производительностью, указывают учёные.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Стратегия Stormgate от экс-разработчиков Warcraft 3 и StarCraft 2 скоро выйдет из раннего доступа, но полноценным релиз не назовёшь 2 ч.
Трамп представил план тотального внедрения ИИ во все сферы жизни американцев 4 ч.
YouTube добавил ИИ-инструменты для создания роликов Shorts из фото или текста 4 ч.
«Каждый заслуживает постоянный доступ к играм, за которые заплатил»: Owlcat Games поддержала движение Stop Killing Games 4 ч.
В Firefox 141 исправили 18 уязвимостей и добавили сортировку вкладок силами ИИ 4 ч.
Проверенный инсайдер подтвердил дату выхода и цену Battlefield 6 на ПК и консолях, а Electronic Arts показала тизер сюжетной кампании 5 ч.
Блокировка Windows и буфер обмена станут доступны прямо из Android — Microsoft улучшит приложение «Связь с телефоном» 6 ч.
ИИ способны тайно научить друг друга быть злыми и вредными, показало новое исследование 6 ч.
AWS ограничила доступ к среде разработки Kiro с ИИ из-за её чрезмерной популярности 7 ч.
Microsoft тоже посчитала стоимость The Outer Worlds 2 слишком высокой — игра будет продаваться за $70, а не за $80 7 ч.
T-Mobile запустил спутниковую сотовую связь T-Satellite на базе Starlink почти по всем США 2 ч.
Новая статья: Обзор смартфона HUAWEI Pura 80 Ultra: зум, которому нет равных 2 ч.
Курируемый OpenAI ИИ-мегапроект Stargate с трудом продвигается вперёд, но самой OpenAI это не мешает 2 ч.
В России выявили 56 человек с 1,2 млн SIM-карт, которые «используются в какой-то деятельности» 3 ч.
Троянская мышь: производитель игровой периферии Endgame Gear выпустил драйвер с опасным вирусом 3 ч.
Ловкость рук и никакого мошенничества: Meta показала прототип браслета, который позволит управлять ПК с помощью жестов 5 ч.
Apple запустила страховку AppleCare One для трёх устройств за $20 в месяц 5 ч.
iPhone и «основные Android-смартфоны» получат поддержку беспроводной зарядки Qi2 25W, представленной сегодня 6 ч.
Том Конрад, отмывающий репутацию Sonos, стал постоянным генеральным директором компании 6 ч.
Спрос на ленточные накопители продолжает расти: поставки LTO в 2024 году приблизились к 180 Эбайт 7 ч.