Сегодня 03 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Учёные наконец выяснили, как работает ИИ — оказалось, что он может вынашивать планы и сознательно врать

Учёные компании Anthropic изобрели способ заглянуть в механизмы работы больших языковых моделей и впервые раскрыли, как искусственный интеллект обрабатывает информацию и принимает решения.

 Источник изображений: anthropic.com

Источник изображений: anthropic.com

Долгое время считалось, что полностью отследить механизмы рассуждения моделей ИИ невозможно, и даже их создатели не всегда понимали, как они получают те или иные ответы. Теперь некоторые механизмы удалось прояснить. Модели ИИ оказались сложнее, чем считалось ранее: при написании стихотворений они выстраивают планы, следуют одинаковым последовательностям для интерпретации понятий вне зависимости от языка и иногда обрабатывают информацию в обратном направлении вместо того, чтобы рассуждать, исходя из фактов.

Новые методы интерпретации схем работы ИИ в Anthropic назвали «трассировкой цепочек» и «графами атрибуции» — они помогли исследователям отследить конкретные пути реализации функций, подобных нейронным, которые запускаются при выполнении моделью задач. В этом подходе заимствуются концепции нейробиологии, а модели ИИ рассматриваются как аналоги биологических систем.

Одним из наиболее поразительных открытий стали механизмы планирования ИИ Claude при написании стихов. Когда чат-бот попросили составить двустишие в рифму, он сначала подобрал рифмующиеся слова для конца следующей строки и только после этого начал писать. Так, при написании строки, которая заканчивалась словом «кролик», ИИ выбрал все характеризующие это слово признаки, а затем составил предложение, которое подводит к нему естественным образом.

Claude также продемонстрировал настоящие рассуждения в несколько шагов. В испытании с вопросом «Столица штата, в котором находится Даллас, — это...», модель сначала активировала признаки, соответствующие понятию «Техас», а затем использовала это представление, чтобы определить «Остин» в качестве правильного ответа. То есть модель действительно выстраивает цепочку рассуждений, а не просто воспроизводит ассоциации, которые запомнила. Учёные произвели манипуляции, подменив «Техас» на «Калифорнию» и на выходе получили «Сакраменто», тем самым подтвердив причинно-следственную связь.

 Источник изображений: anthropic.com

Ещё одним важным открытием стал механизм обработки данных на нескольких языках. Вместо того, чтобы оперировать разными системами для английской, французской и китайской языковых сред, она переводит понятия в общее абстрактное представление, после чего начинает генерировать ответы. Это открытие имеет значение для понимания того, как модели транслируют знания, полученные на одном языке, на другой: предполагается, что модели с большим количеством параметров создают независимые от языка представления.

Возможно, самым тревожным открытием стали инциденты, при которых механизмы рассуждения Claude не соответствовали тем, о которых он заявлял сам. Когда ему давали сложные задачи, например, вычисление косинуса больших чисел, ИИ заявлял, что осуществляет вычисления, но они в его внутренней деятельности не отражались. В одном из случаев, когда ответ на сложную задачу был известен заранее, модель выстроила цепочку рассуждений в обратном порядке, отталкиваясь от ответа, а не принципов, которые должны были оказаться первыми.

Исследование также пролило свет на галлюцинации — склонность ИИ выдумывать информацию, когда ответ неизвестен. У модели есть схема «по умолчанию», которая заставляет её отказываться отвечать на вопросы в отсутствие фактических данных, но этот механизм подавляется, если в запросе распознаются известные ИИ сущности. Когда модель распознаёт сущность, но не имеет конкретных знаний о ней, могут возникать галлюцинации — это объясняет, почему ИИ может с уверенностью давать не соответствующую действительности информацию об известных личностях, но отказываться отвечать на запросы о малоизвестных.

Исследование является шагом к тому, чтобы сделать ИИ прозрачнее и безопаснее. Понимая, как модель приходит к ответам, можно выявлять и устранять проблемные шаблоны рассуждений. Проект может иметь и последствия в коммерческой плоскости: компании применяют большие языковые модели для запуска рабочих приложений, и понимание механизмов, при которых ИИ может давать неверную информацию поможет в управлении рисками. Сейчас Anthropic предложила лишь первую предварительную карту ранее неизведанной территории — так в древности первые специалисты по анатомии составляли атласы человеческого тела. Составить полноценный атлас рассуждений ИИ ещё предстоит, но теперь можно оценить, как эти системы «думают».

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Alibaba представила малые ИИ-модели Qwen3.5, которые работают на ноутбуке и обходят аналоги OpenAI 21 мин.
SAP выплатит почти полмиллиарда доларров за то, что «заманила» Teradata в невыгодное совместное предприятие почти 20 лет назад 40 мин.
«Разница поразительна»: Capcom удалила из ремейка Resident Evil 4 скандальную защиту The Enigma Protector, и фанаты в восторге 50 мин.
Не только игры: Unreal Engine стал неотъемлемой частью всей творческой индустрии 2 ч.
Microsoft ускорила рейтрейсинг в DirectX 12 за счёт переупорядочивания лучей — прирост скорости до 90 % 4 ч.
Слухи: разработку многострадальной The Wolf Among Us 2 опять перезапустили, но релиз уже не за горами 4 ч.
Сэм Альтман пообещал, что OpenAI внесёт поправки в «скользкий» контракт с Минобороны, чтобы защитить людей от слежки 4 ч.
Двуличность OpenAI возмутила пользователей — число удалений приложения ChatGPT выросло вчетверо 5 ч.
Сюжетное дополнение Descent к российскому боевику Kiborg заставит игроков пройти три «круга ада» — трейлер и дата выхода 5 ч.
Разработчики Fallout 4 VR с новой силой разожгли огонь слухов о ремастере Fallout: New Vegas 5 ч.
Microsoft добавила в ROG Xbox Ally X автоматическую запись игровых хайлайтов — NPU наконец-то пригодился 2 мин.
Corning представила защитное стекло Gorilla Glass Ceramic 3 с долгосрочной прочностью 18 мин.
NVIDIA инвестировала $4 млрд в поставщиков лазеров и фотоники для ИИ ЦОД Lumentum и Coherent 31 мин.
«Росскосмос» починил стартовую площадку «Союзов» на «Байконуре» и готовится к запуску «Прогресса» 31 мин.
Иранские дроны повредили два дата-центра Amazon в ОАЭ и «зацепили» ещё один в Бахрейне 2 ч.
Теорию о магнитной памяти в двумерных материалах доказали экспериментом — ждём прорывов в ёмкости HDD? 2 ч.
Tecno анонсировала глобальные версии смартфонов Camon 50 Ultra 5G и Camon 50 3 ч.
MSI выпустила GeForce RTX 5070 Light Edition и Void Edition по мотивам World of Warcraft: Midnight 3 ч.
Samsung задержит запуск техасского завода полупроводников до 2027 года, а пострадает Tesla 3 ч.
Сделано в США: Flex начала выпуск американских ИИ-серверов с AMD Instinct 4 ч.