Сегодня 18 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → модели
Быстрый переход

Меньше галлюцинаций и миллионный контекст: Anthropic представила Sonnet 4.6 и она уже доступна бесплатно в Claude

Anthropic обновила свою большую языковую модель Sonnet среднего уровня. В анонсе Sonnet 4.6 разработчики Anthropic подчеркнули улучшения в генерации программного кода, рассуждениях с длинным контекстом, выполнении инструкций и работе с компьютером. Новинка станет стандартной моделью для чат-бота Claude как для бесплатных пользователей, так и в платной подписке Pro.

 Источник изображений: Anthropic

Источник изображений: Anthropic

Sonnet 4.6 предлагает контекстное окно размером 1 миллион токенов, что вдвое больше, чем было у предыдущей версии Sonnet. Anthropic описала новое контекстное окно как «достаточное для хранения целых кодовых баз, длинных контрактов или десятков исследовательских работ в одном запросе». В компании подчёркивают, что модель не только удерживает большой объём информации, но и эффективно работает с ним при построении логических цепочек.

По данным Anthropic, разработчики, тестировавшие Sonnet 4.6 в раннем доступе, в 70 % случаев предпочли её версии 4.5. Пользователи отмечали более аккуратную работу с контекстом кода, меньшее количество дублирования логики и более последовательное выполнение инструкций. Разработчики также сообщают о снижении числа «галлюцинаций» и ложных заявлений об успешном выполнении задачи.

Отдельное внимание уделено работе с компьютером без специализированных API. Модель взаимодействует с программами так же, как человек — через виртуальные клики мышью и ввод с клавиатуры. В бенчмарке OSWorld, который имитирует задачи в Chrome, LibreOffice и VS Code, свежая Sonnet 4.6 демонстрирует заметный прогресс по сравнению с предыдущими версиями. По словам представителей компании, в ряде сценариев — например, при работе со сложными таблицами или многошаговыми веб-формами — модель приближается к уровню человека. При этом Anthropic признаёт, что ИИ по-прежнему уступает наиболее опытным пользователям и что реальная работа с ПО сложнее лабораторных тестов.

Anthropic отмечает, что Sonnet 4.6 предоставляет значительно улучшенные навыки программирования по сравнению с предыдущей версией. В соответствующих бенчмарках новинка оказалась лучше Gemini 3 Pro, а также почти сравнялась с Opus 4.5. По словам бета-тестеров модели, особенно заметны улучшения в задачах фронтенд-разработки и финансового анализа. Также отмечается, что Sonnet 4.6 в ряде задач смогла обеспечить уровень производительности, для достижения которого прежде требовалось использовать модели класса Opus, в том числе в реальных офисных задачах.

Anthropic также раскрыла показатели на тесте ARC-AGI-2 — одном из наиболее сложных бенчмарков, оценивающих способность модели к абстрактному рассуждению и обобщению (навыков, характерных для человеческого интеллекта). Sonnet 4.6 достигла 60,4 % при высоком уровне «усилия мышления». Этот результат ставит Sonnet 4.6 выше большинства сопоставимых моделей, хотя он отстаёт от таких решений, как Opus 4.6, Gemini 3 Deep Think и одной из усовершенствованных версий GPT 5.2.

В конце отметим, что релиз Sonnet 4.6 состоялся всего через две недели после запуска Opus 4.6, а значит, обновлённая модель Haiku, вероятно, появится в ближайшие недели. Модель уже доступна в боте Claude и приложении, а также через API для сторонних сервисов. Стоимость в последнем случае остаётся на уровне Sonnet 4.5 — от $3 за миллион входных токенов и $15 за миллион выходных.

Alibaba, ByteDance и Kuaishou представили ряд новых ИИ-моделей — от роботов до киношного видео

В то время как ИИ-рынок США на прошедшей неделе был занят изучением влияния инструментов Anthropic и Altruist на сферы программирования и оказания финансовых услуг, китайские IT-гиганты запустили ИИ-модели, показавшие прирост производительности в робототехнике и генерации видео. Alibaba, ByteDance (владелец TikTok) и платформа коротких видео Kuaishou представили новые алгоритмы, подтверждающие, что китайские разработчики не отстают от американских коллег.

 Источник изображения: Gemini

Источник изображения: Gemini

Анонс новых алгоритмов китайских IT-гигантов произошёл на фоне недавнего заявления главы ИИ-подразделения Google DeepMind Демиса Хассабиса (Demis Hassabis) касательно того, что китайские ИИ-модели отстают от западных конкурентов всего на несколько месяцев. Однако представленные на прошедшей неделе инструменты вполне могут рассматриваться в качестве прямых конкурентов ИИ-моделям для генерации видео, таким как Sora от OpenAI, а также моделям для сферы робототехники от Nvidia и Google.

Исследовательское подразделение Alibaba DAMO анонсировало RynnBrain — ИИ-модель, предназначенную для того, чтобы помочь роботам понимать окружающий их физический мир и идентифицировать объекты. В демонстрационном ролике Alibaba показала робота с клешнями вместо рук, который собирал апельсины и складывал их в корзину. Там также показали, как робот достаёт молоко из холодильника.

ИИ-модели требуют обширного обучения для достижения цели по идентификации повседневных объектов и взаимодействия с ними. Это означает, что такой простой для человека процесс, как сбор фруктов, для робототехники является гораздо более сложным. С запуском RynnBrain Alibaba начнёт конкурировать с такими компаниями, как Nvidia и Google, которые ведут разработку собственных ИИ-моделей для сферы робототехники.

«Одним из её [ИИ-модели] ключевых новшеств является встроенное осознание времени и пространства. Вместо того, чтобы просто реагировать на непосредственные сигналы, робот может запоминать, когда и где происходили события, отслеживать прогресс выполнения задачи и продолжать действовать на протяжении нескольких этапов. Это делает его более надёжным и последовательным в сложных реальных условиях», — считает исследователь из Hugging Face Адина Якефу (Adina Yakefu). Она также добавила, что «более масштабная цель» Alibaba состоит в том, чтобы «создать базовый интеллектуальный уровень для воплощённых систем».

Компания ByteDance на минувшей неделе представила Seedance 2.0 — модель искусственного интеллекта для генерации видео, которая может создавать реалистичные ролики на основе простого текстового описания. При этом алгоритм также может работать с другими видео и изображениями. Демонстрационные видео, созданные с помощью Seedance 2.0, выглядят вполне реалистично.

 Источник изображения: Sony

Источник изображения: Sony

Адина Якефу подтвердила, что ИИ-модель Seedance 2.0 показала значительный прогресс по сравнению с предыдущими версиями в плане «управляемости, скорости и эффективности работы». «На сегодняшний день Seedance 2.0 — одна из самых сбалансированных моделей для генерации видео, которые я тестировала. Она удивила меня, выдав удовлетворительные результаты с первой попытки, даже обрабатывая простой запрос. Визуализация, звуковое сопровождение и операторская работа объединяются таким образом, что результат работы кажется отточенным, а не экспериментальным», — добавила Якефу.

Хоть пользователи и хвалят этот алгоритм, известно, что у Seedance 2.0 возникли проблемы. Китайские СМИ сообщили, что разработчики временно заблокировали функцию генерации голоса человека на основе загруженного фото. Это произошло после того, как один из местных блогеров обратил внимание на проблему генерации голоса по фото без согласия того, кто изображен на снимке. Представители ByteDance пока никак не комментируют данный вопрос.

Ещё одной новинкой стала ИИ-модель Kling 3.0 от Kuaishou, которая предназначена для генерации видео и является конкурентом алгоритма ByteDance. В сообщении сказано, что Kling 3.0 «отличается существенными улучшениями в согласованности, фотореалистичности результата работы, увеличенным временем продолжительности видео до 15 секунд и встроенной генерацией аудио на нескольких языках, диалектах и с разными акцентами».

В настоящее время алгоритм Kling 3.0 доступен только платным подписчикам, но вскоре Kuaishou обещает открыть его для более широкой аудитории пользователей. Успех компании с ИИ-моделями Kling способствовал росту стоимости акций Kuaishou более чем на 50 % за последний год.

Стоит упомянуть некоторые другие важные релизы. Компания Zhipu AI, которая работает в Гонконге под названием Knowledge Atlas Technology, представила алгоритм GLM-5 — открытую языковую модель с расширенными возможностями в области программирования и создания ИИ-агентов. Компания заявила, что последняя версия её ИИ-модели приближается к Anthropic Claude Opus 4.5 по показателям в профильных бенчмарках, а также превосходит Google Gemini 3 Pro в некоторых тестах. Этот релиз способствовал значительному рост курса акций Zhipu AI.

Стоимость ценных бумаг MiniMax также подскочила в конце недели после того, как компания запустила обновлённую версию открытой ИИ-модели M2.5 с улучшенными инструментами ИИ-агентов. Этот алгоритм может использоваться для эффективной автоматизации выполнения разных задач.

OpenAI обвинила китайскую DeepSeek в краже данных для обучения ИИ-модели R1

Агентство Bloomberg со ссылкой на служебную записку OpenAI сообщает, что создатели ChatGPT обвинили китайскую DeepSeek в использовании ухищрений, позволяющих добывать информацию американских ИИ-моделей для обучения китайского чат-бота R1 следующего поколения. Соответствующий доклад был направлен американским парламентариям, по данным источника.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

По мнению представителей OpenAI, китайский конкурент использовал метод так называемой дистилляции, чтобы «бесплатно выехать на успехе технологий, разработанных OpenAI и других передовых американских компаний». Создателям ChatGPT якобы удалось выявить новые изощрённые методы получения доступа китайской DeepSeek к информации американских ИИ-моделей, которые призваны обходить существующие методы защиты. Беспокойство на эту тему OpenAI и Microsoft проявили ещё в прошлом году, когда начали соответствующее расследование в отношении деятельности DeepSeek. Метод дистилляции позволяет ускорить обучение сторонних ИИ-моделей с использованием данных уже обученных систем.

Анализ активности на собственной платформе, как отмечает OpenAI, позволяет говорить об участившихся случаях применения дистилляции сторонними разработчиками ИИ-моделей — преимущественно расположенными в Китае, хотя в отчёте упоминается и Россия. Поскольку DeepSeek не предлагает своим клиентам платных подписок, как и многие другие китайские провайдеры подобных услуг, они получают большее распространение, чем проприетарные коммерческие решения западного происхождения, по мнению авторов доклада. Это угрожает мировому главенству ИИ-моделей американской разработки, как резюмируют они в своём обращении к специальному комитету американского парламента.

Полученные методом дистилляции сторонние ИИ-модели, по словам представителей OpenAI, нередко лишены тех ограничений, которые устанавливаются создателями исходных систем, а потому могут использоваться во вред человечеству или отдельным странам. Попытки OpenAI оградить себя от дистилляции китайскими разработчиками успехом не увенчались, поскольку представители DeepSeek якобы получали доступ к американским ИИ-моделям разного рода окольными путями. По словам представителей OpenAI, существуют целые сети посредников, которые предоставляют доступ к услугам компании в обход существующих ограничений. Для американских чиновников существование подобных практик тоже не является откровением, отмечает Bloomberg.

Американские политики обеспокоены и возможностью получения компанией DeepSeek доступа к более современным ускорителям вычислений Nvidia H200, поскольку их поставки в Китай в прошлом году успел разрешить американский президент Дональд Трамп (Donald Trump). В сочетании с существующими методами обучения своих моделей, DeepSeek могла бы в результате добиться существенного прогресса. Прежние расследования уже выявили, что DeepSeek использовала для обучения своих предыдущих ИИ-моделей оборудование Nvidia, хотя основная его часть была доставлена в Китай в рамках существовавших на тот момент правил экспортного контроля США. Политики теперь опасаются, что доступ DeepSeek к более современным чипам H200 сильнее навредит позициям США на мировой технологической арене.

OpenAI выпустила GPT-5.3-Codex-Spark — свою первую ИИ-модель, работающую без чипов Nvidia

Компания OpenAI выпустила свою первую модель искусственного интеллекта, работающую на гигантских чипах-ускорителях Wafer Scale Engine 3 от стартапа Cerebras Systems. Данный шаг является частью усилий создателя ChatGPT по диверсификации поставщиков аппаратного обеспечения для обучения своих моделей.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Модель GPT-5.3-Codex-Spark является менее мощной, но более быстрой версией продвинутой модели GPT-5.3-Codex, ориентированной на помощь в написании программного кода. Версия Spark позволит инженерам-программистам быстро выполнять такие задачи, как редактирование отдельных фрагментов кода и запуск тестов. Пользователи также могут легко прервать работу модели или дать ей указание выполнить что-то другое, связанное с вайб-кодингом, не дожидаясь завершения длительного вычислительного процесса.

 Источник изображения: OpenAI

Источник изображения: OpenAI

В прошлом месяце OpenAI заключила сделку на сумму более $10 млрд на использование оборудования Cerebras для ускорения обучения своих моделей ИИ. Для Cerebras это партнёрство представляет собой значительный шаг в её стремлении конкурировать на рынке аппаратных средств для ИИ, где долгое время доминирует компания Nvidia. Для OpenAI — это способ расширить сотрудничество с разными поставщиками оборудования для удовлетворения растущих вычислительных потребностей.

 Источник изображения: OpenAI

Источник изображения: OpenAI

В октябре OpenAI заявила о заключении многолетнего соглашения о стратегическом партнёрстве, в рамках которого будет построена ИИ-инфраструктура на базе сотен тысяч ИИ-ускорителей AMD нескольких поколений общей мощностью 6 ГВт. Позже в том же месяце OpenAI согласилась приобрести специализированные чипы и сетевые компоненты у Broadcom. Как пишет Bloomberg, в последнее время отношения OpenAI с Nvidia оказались под пристальным вниманием на фоне сообщений о напряженности между двумя компаниями. Однако руководители обеих компаний публично заявили, что по-прежнему привержены сотрудничеству.

В заявлении, опубликованном в четверг, представитель OpenAI заявил, что партнёрство компании с Nvidia является «основополагающим» и что самые мощные модели ИИ OpenAI являются результатом «многолетней совместной работы над аппаратным и программным обеспечением» двух компаний. «Именно поэтому мы делаем упор на Nvidia как на основу нашей системы обучения и вывода, целенаправленно расширяя экосистему вокруг неё за счёт партнёрств с Cerebras, AMD и Broadcom», — заявил представитель компании.

Первоначально GPT-5.3-Codex-Spark будет доступна подписчикам ChatGPT Pro в качестве предварительной версии для исследований. OpenAI собирается предоставить доступ к новой ИИ-модели для более широкого числа пользователей в ближайшие недели. Компания также отмечает, что Codex имеет более 1 млн активных еженедельных пользователей.

Китай вырвался вперёд: в шестёрке лучших открытых ИИ-моделей в мире не осталось американских

Американские инвесторы столкнулись с неприятной реальностью в сфере ИИ: самые мощные открытые модели в мире теперь создаются не в США, а в Китае. В течение последнего года все больше технологов и финансистов предупреждают, что США незаметно уступают рынок открытых моделей ИИ китайским лабораториям, таким как DeepSeek, Moonshot AI и Z.ai.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Согласно рейтингу AI Leaderboard независимой компании Artificial Analysis, занимающейся сравнительным анализом ИИ, все шесть лучших открытых моделей разработаны китайскими компаниями. Они неуклонно набирают популярность: согласно отчёту OpenRouter и венчурной компании Andreessen Horowitz, доля использования китайских открытых моделей в общем объёме использования ИИ составляла лишь 1,2 % в конце 2024 года, но к декабрю 2025 года выросла почти до 30 %.

«Примерно 20 % стартапов в области ИИ используют модели с открытым исходным кодом, и из этих компаний, я бы сказал, примерно 80 % используют китайские открытые модели», — заявил генеральный партнёр Andreessen Horowitz Мартин Касадо (Martin Casado). Китай активно субсидирует лаборатории, разрабатывающие модели с открытым исходным кодом. В настоящее время лидирует модель Kimi K2.5 от китайской лаборатории Moonshot AI, которая оценивается в $4,3 млрд. Её конкуренты Zhipu и MiniMax привлекли $558 млн и $620 млн соответственно в ходе своих IPO.

Тем временем американские технологические гиганты, похоже, отступают. Компания Meta✴, которая когда-то выступала за ИИ с открытым исходным кодом, перешла к моделям с закрытым исходным кодом после того, как её модели Llama 4 с открытым исходным кодом не оправдали ожиданий. Даже лучшая из американских открытых моделей, gpt-oss от OpenAI, задумана как небольшая и эффективная модель, а не как модель передового уровня.

Эту тенденцию стремится переломить стартап Arcee AI из Сан-Франциско. Эта лаборатория по разработке открытых моделей ИИ, предлагает инвесторам раунд финансирования на сумму более $200 млн, который поднимет её биржевую оценку до одного миллиарда долларов. Arcee AI рассчитывает, что западные инвесторы увидят причины — как коммерческие, так и идеологические — чтобы поддержать американскую альтернативу китайским открытым моделям начального уровня.

На этой неделе Arcee AI выпустила базовую модель Trinity Large, которая, по её словам, сопоставима с крупнейшим вариантом Llama 4 от Meta✴. Arcee AI заявила, что смогла обучить Trinity Large и три другие, меньшие по размеру открытые модели за $20 млн и менее чем за шесть месяцев. Для сравнения: венчурная компания Innovation Endeavors оценила стоимость обучения Llama 4 более чем в $300 млн, а обучение GPT-4 от OpenAI — в $100 млн. Ранее китайская DeepSeek заявила, что потратила всего $294 000 на обучение своей популярной модели R1.

Как и её китайские конкуренты, Arcee AI выпускает свои модели с открытыми весами — делая параметры общедоступными, но сохраняя наборы данных для обучения в приватном режиме. Теперь Arcee AI, в штате которой насчитывается всего 30 человек, активно стремится к масштабированию — компания планирует обучить открытую модель, используя более 1 триллиона параметров, что должно сократить отставание от передовых закрытых моделей, таких как GPT 5.2 от OpenAI или Gemini 3 от Google.

 Источник изображения: Arcee AI

Источник изображения: Arcee AI

Помимо разработки моделей, Arcee AI намерена развивать свой бизнес в корпоративном и государственном секторах. Компания планирует создать платформу, где клиенты смогут непрерывно обучать её модели с открытыми весами на собственных данных — подход, который, по словам Arcee AI, обеспечивает большую прозрачность и контроль, чем «чёрный ящик» в экономике закрытых систем. По данным Pitchbook, Arcee уже привлекла $30 млн от таких инвесторов, как саудовская Aramco, M12 Ventures от Microsoft, Samsung Next Ventures и Emergence Capital Partners.

Сможет ли стратегия Arcee AI сравниться с масштабом и скоростью Китая, остаётся открытым вопросом. Но по мере того, как баланс сил в сфере открытого ИИ смещается на Восток, Arcee AI позиционирует себя как один из немногих американских стартапов, готовых этому противостоять.

Главным конкурентом Arcee станет Reflection AI, стартап, основанный двумя бывшими исследователями Google DeepMind, которые в прошлом году привлекли $2 млрд инвестиций с той же целью — создания лучших в своём классе американских открытых моделей.

Исследователи предупредили об опасности ИИ-моделей с открытым исходным кодом

Совместное исследование, проведённое в течение 293 дней компаниями по кибербезопасности SentinelOne и Censys показало масштабы потенциально незаконных сценариев использования тысяч развёрнутых больших языковых моделей с открытым исходным кодом. К ним относятся взлом, разжигание ненависти и преследование, спам, фишинг, контент со сценами насилия или жестокости, кража личных данных, мошенничество и материалы, связанные с сексуальным насилием над детьми

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Исследователи утверждают, что злоумышленники могут легко получить доступ к компьютерам, на которых запущены большие языковые модели (Large language model, LLM) с открытым исходным кодом, а затем использовать их для массовой рассылки спама, создания фишингового контента или дезинформационных кампаний, обходя протоколы безопасности платформы.

Хотя существуют тысячи вариантов LLM-систем с открытым исходным кодом, значительная часть доступных моделей представляют собой варианты Meta✴ Llama, Google DeepMind Gemma и некоторых других. Хотя некоторые LLM включают в себя механизмы защиты, исследователи выявили сотни случаев, когда эти механизмы были намеренно отключены. По мнению исполнительного директора по исследованиям в области разведки и безопасности SentinelOne Хуана Андреса Герреро-Сааде (Juan Andres Guerrero-Saade), в дискуссиях индустрии ИИ о мерах безопасности «игнорируется этот избыточный потенциал, который явно используется для самых разных целей, некоторые из которых законны, а некоторые явно преступны».

В исследовании были проанализированы общедоступные платформы на базе Ollama. Примерно в четверти наблюдаемых моделей исследователи смогли увидеть системные подсказки — инструкции, определяющие поведение модели. Примерно 7,5 % таких подсказок потенциально могут использоваться для вредоносной деятельности. Около 30 % наблюдаемых исследователями хостов расположены на территории Китая, а около 20 % — в США.

Генеральный директор и основатель «Глобального центра по управлению ИИ» (Global Center on AI Governance) Рэйчел Адамс (Rachel Adams) полагает, что после выпуска открытых моделей ответственность за дальнейшие действия распределяется между всеми участниками экосистемы, включая лаборатории-источники. «Лаборатории не несут ответственности за каждое последующее злоупотребление, но они сохраняют важную обязанность предвидеть возможный вред, документировать риски и предоставлять инструменты и рекомендации по их смягчению, особенно учитывая неравномерность глобальных возможностей по обеспечению соблюдения законодательства», — заявила Адамс.

Представитель Meta✴ отказался отвечать на вопросы об ответственности разработчиков за решение проблем, связанных с последующим злоупотреблением моделями с открытым исходным кодом, и о том, как можно сообщать о таких проблемах, но отметил наличие у компании инструментов Llama Protection для разработчиков Llama, а также руководства Meta✴ Llama Responsible Use Guide.

Представитель Microsoft заявил, что модели с открытым исходным кодом «играют важную роль» в различных областях, но признал, что «открытые модели, как и все преобразующие технологии, могут быть использованы злоумышленниками не по назначению, если они выпущены без надлежащих мер защиты».

В конечном итоге, такие ответственные открытые инновации, как запуск доступных моделей ИИ с открытым исходным кодом, требуют сотрудничества между создателями, разработчиками, исследователями и группами безопасности.

Учёные придумали термодинамический компьютер, который генерирует изображения в 10 млрд раз энергоэффективнее ИИ

Американские учёные предложили использовать в генераторах изображений на основе искусственного интеллекта технологию термодинамических вычислений — она позволяет сократить энергетические затраты на некоторые операции на величину до 10 млрд раз.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Модели генеративного ИИ, в том числе DALL-E, Midjourney и Stable Diffusion, создают фотореалистичные изображения, но потребляют при этом огромное количество энергии. Это диффузионные модели. При обучении им подают большие наборы изображений, к которым постепенно добавляют шум, пока картинка не станет похожей на помехи в старом телевизоре. Далее нейросеть овладевает обратным процессом и генерирует новые изображения по запросу. Проблема в том, что вычисления для алгоритмов ИИ с добавлением и последующим удалением шума потребляют слишком много энергии — термодинамические вычисления позволяют сократить их несоразмерно возможностям современного цифрового оборудования, рассказали в Национальной лаборатории имени Лоуренса в Беркли (Калифорния).

При термодинамических вычислениях используются физические схемы, которые меняют параметры в ответ на шум, например вызванный случайными тепловыми перепадами в окружающей среде. Стартап Normal Computing построил чип на основе восьми соединённых друг с другом резонаторов — соединители подключаются сообразно типу решаемой чипом задачи. Далее резонаторы подвергаются воздействию внешней среды, вносят шум в цепь и таким образом выполняют вычисления. После того как система достигает состояния равновесия, решение считывается из новой конфигурации резонаторов.

Учёные Национальной лаборатории имени Лоуренса в Беркли показали, что можно построить термодинамическую версию нейросети. Эта методика закладывает основу для генерации изображений с помощью термодинамических вычислений. В термодинамический компьютер вводится набор изображений, далее компоненты компьютера подвергаются естественным воздействиям среды до тех пор, пока связи, соединяющие эти компоненты, не достигают состояния равновесия. Далее вычисляется вероятность того, что термодинамический компьютер с заданным состоянием связей сможет обратить этот процесс, и значения этих связей корректируются, чтобы повысить эту вероятность до максимальной.

Симуляции подтвердили, что можно построить термодинамический компьютер, настройки которого помогут генерировать изображения рукописных цифр. Это достигается без энергоёмких цифровых нейросетей или создающего шум генератора псевдослучайных чисел. По сравнению с цифровыми нейросетями термодинамические компьютеры пока примитивны, признают учёные, и как проектировать их для работы на уровне DALL-E, они пока не знают. Но в аспекте энергоэффективности они обещают значительное преимущество.

Учёные решили одну из главных проблем ИИ-моделей — создан первый ИИ с «бесконечной» памятью

Учёные из Массачусетского технологического института (MIT) элегантно решили одну из главных проблем ИИ — ограничения контекстного окна. Обычно LLM оперирует сотней-другой тысяч токенов, что не позволяет полноценно работать с многотомными архивами. Новая рекурсивная модель лишена этого недостатка, используя вместо памяти систему навигации по контексту.

 Источник изображения: The Neuron

Источник изображения: The Neuron

Новый подход реализован в архитектуре «рекурсивной языковой модели» (Recursive Language Models, RLM). Традиционные большие языковые модели удерживают всю необходимую информацию внутри так называемого контекстного окна с довольно жёстким и ограниченным числом токенов и быстро теряют точность выводов, когда объём входных данных превышает этот лимит. Модель RLM предлагает иной подход: она не пытается запомнить исходные данные целиком, а рассматривает их как внешнее пространство, по которому можно перемещаться и из которого можно извлекать релевантные фрагменты по мере необходимости. Навигация заменяет память.

Ключевое отличие RLM от LLM заключается в том, что механизм обращения к информации становится динамическим и рекурсивным (с вложениями, как в случае древовидной структуры папок файловой системы). Модель анализирует запрос, формирует поисковое действие, получает необходимые сегменты данных и повторяет процесс до достижения заданной глубины понимания. В результате архитектура способна работать с массивами информации, превышающими традиционную вместимость контекстного окна в десятки и сотни раз, без непомерного увеличения вычислительных ресурсов.

Предлагаемая технология открывает новые возможности для сфер, требующих работы с объёмными документами или сложными структурированными данными. Например, в юридической практике ИИ сможет анализировать полные архивы дел, а не только отдельные фрагменты; в программировании — воспринимать большие объёмы кода; в аналитике — сочетать и сопоставлять множество научных публикаций без предварительной обработки. Способность модели работать с масштабными наборами данных снижает риски искажений фактов и ошибок, связанных с «потерей» контекста из-за того, что он на каком-то этапе выпал из памяти модели.

Специалисты MIT предоставили как полноценную библиотеку, реализующую принципы RLM, так и минимальный эталонный код, что упростит знакомство с технологией для всех заинтересованных лиц и ускорит её внедрение. Некоторые компании уже начали адаптировать архитектуру под свои продукты, что лишний раз подтвердило применимость RLM за пределами лабораторий. Таким образом, модели Recursive Language Models могут стать значимым этапом в эволюции нейросетевых архитектур, поскольку предлагают не увеличение объёма памяти модели, а качественно новый способ работы с большими массивами информации.

DeepSeek научилась тренировать языковые ИИ-модели без оглядки на ограничения по скорости памяти

Как отмечалось недавно, пропускная способность памяти, используемой в инфраструктуре ИИ, становится одним из серьёзных ограничителей дальнейшего роста быстродействия языковых моделей. Представители DeepSeek утверждают, что разработали метод обучения ИИ-моделей, который позволяет обойти подобные ограничения со стороны памяти.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Группа исследователей Пекинского университета в сотрудничестве с одним из основателей DeepSeek Лян Вэньфэном (Liang Wenfeng) опубликовала научную работу, в которой рассматривается новый подход к обучению языковых моделей, позволяющий «агрессивно увеличивать количество параметров» в обход ограничений, накладываемых подсистемой памяти используемых в ускорителях GPU.

От DeepSeek ожидают выхода новой версии большой языковой модели, но ритмичность их создания в случае с китайскими разработчиками сильно страдает от экспортных ограничений США и нехватки ресурсов в Китае. Текст нового исследования, соавтором которого является один из основателей DeepSeek, будет подробно изучаться специалистами в области искусственного интеллекта как в Китае, так и за его пределами.

Описываемая в документе методика «условного» использования памяти получила обозначение Engram, как отмечает South China Morning Post. Существующие подходы к вычислениям при обучении больших языковых моделей, по мнению китайских исследователей, вынуждают напрасно тратить ресурсы на тривиальные операции, которые можно было бы высвободить для высокоуровневых операций, связанных с рассуждениями.

Исследователи предложили в некотором смысле разделить вычисления и работу с памятью, обеспечивая поиск базовой информации более эффективными способами. Одновременно новая технология позволяет большим языковым моделям лучше обрабатывать длинные цепочки контекста, что приближает цель превращения ИИ-агентов в полноценных помощников человека.

В рамках эксперимента новый подход при обучении модели с 27 млрд параметров позволил поднять общий уровень быстродействия на несколько процентов. Кроме того, система получила больше доступных ресурсов для осуществления сложных операций с рассуждениями. По мнению авторов исследования, данный подход будет незаменим при обучении языковых моделей нового поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намеревается представить новую модель V4 с развитыми способностями в области написания программного кода к середине февраля этого года.

Новая ИИ-модель DeepSeek V4 выйдет в феврале, и она должна понравиться вайб-кодерам

Китайский стартап DeepSeek, занимающийся разработкой искусственного интеллекта и в прошлом году потрясший Кремниевую долину и Уолл-стрит, готовится к запуску своей модели следующего поколения в ближайшие недели, сообщает Yahoo Finance со ссылкой на отчёт издания The Information.

 Источник изображения: Solen Feyissa / unsplash.com

Источник изображения: Solen Feyissa / unsplash.com

Ожидается, что новая модель, получившая название V4, будет обладать расширенными возможностями программирования, которые, согласно внутренним тестам, позволят ей превзойти лидеров отрасли, включая серию GPT от OpenAI и Claude от Anthropic. По словам двух источников, непосредственно знакомых с ситуацией и цитируемых The Information, DeepSeek планирует выпустить модель примерно в середине февраля, в период празднования китайского Нового года, хотя сроки пока окончательно не определены.

Время предполагаемого запуска соответствует стратегии, которая ранее принесла пекинскому стартапу огромный культурный и рыночный эффект. В прошлом году DeepSeek выпустила свою флагманскую модель R1 20 января, всего за неделю до недельных китайских новогодних праздников. Этот шаг обеспечил модели доминирование в глобальном технологическом дискурсе в период пикового внимания.

DeepSeek, поддерживаемая хедж-фондом High-Flyer Quant, стала глобальным феноменом после выпуска R1. «Рассуждающая» модель, разработанная для «обдумывания» сложных запросов перед ответом, произвела фурор в секторе ИИ не только своей производительностью, но и эффективностью. На рынке, где американские гиганты тратят миллиарды на вычислительные ресурсы, способность DeepSeek достигать сопоставимых результатов за гораздо меньшую стоимость привела к резкой переоценке стоимости ИИ и зависимости от аппаратного обеспечения на западных рынках.

Хотя модель DeepSeek V3.2, выпущенная в декабре, превзошла GPT-5 от OpenAI и Gemini 3.0 Pro от Google по некоторым показателям, компания ещё не выпустила нового поколения своей основной архитектуры. Модель V4 призвана заполнить этот пробел.

Особый акцент в новой модели сделан на программировании. Умение программировать является основным критерием эффективности ИИ в корпоративной среде, и версия V4 может ещё больше укрепить позиции DeepSeek как недорогой и высокопроизводительной альтернативы американским моделям с закрытым исходным кодом.

Для инвесторов предстоящий релиз DeepSeek V4 добавляет новый уровень волатильности в «гонку вооружений в области ИИ». Когда в прошлом году дебютировала DeepSeek R1, это вызвало временное падение акций американских производителей микросхем и лидеров в области ИИ, поскольку рынки столкнулись с реальностью сценария, когда китайский игрок достиг паритета, имея значительно меньше ресурсов, чем конкуренты.

Apple научила ИИ строить 3D-сцены по одному фото — быстро и без домыслов

Apple опубликовала исследование под названием «Чёткий монокулярный синтез изображения менее чем за секунду», в котором подробно описала, как обучила модель искусственного интеллекта выстраивать трёхмерные сцены по одному плоскому изображению, обеспечивая соответствующие реальным условиям расстояния и масштаб.

 Источник изображения: x.com/timd_ca

Источник изображения: x.com/timd_ca

Задача модели ИИ — предсказывать трёхмерное представление сцены, которое отрисовывается с близлежащих точек обзора. Вместо привычных жёстких 3D-моделей сцена выстраивается из трёхмерных представлений функции Гаусса — небольших размытых пятен цвета и света, расположенных в пространстве. Объединив несколько миллионов таких пятен, можно воссоздать конкретное изображение, которое выглядит аналогично с той же точки обзора. Обычно для достижения этого результата требуются несколько десятков, если не сотен изображений, снятых с разных ракурсов — созданная Apple модель SHARP предсказывает полное трёхмерное представление с помощью гауссовской развёртки всего по одной фотографии и всего за один проход нейросети.

Чтобы добиться такого результата, инженеры Apple обучили SHARP на большом объёме синтетических и реальных данных, благодаря чему модель изучила общие закономерности глубины и геометрии в различных сценах. Получив новую фотографию, она оценивает глубину, уточняет её, используя имеющиеся знания, а затем составляет прогноз положения и внешнего вида трёхмерных «колоколов Гаусса» за один проход. Но есть у этого метода и слабое место: SHARP действительно в точности отображает близлежащие ракурсы, но не дорисовывает невидимые части сцены. То есть пользователь не сможет далеко отойти от точки обзора, с которой был сделан снимок.

За счёт этого исследователи Apple добились достаточно высокой скорости работы модели, которая получает результат менее чем за секунду с высокой стабильностью. Исходный код SHARP компания опубликовала на GitHub. Интересно, что в одном из примеров источниками трёхмерных моделей стали не статические изображения, а видеофайлы.

Xiaomi выпустила «самую мощную LLM с открытым исходным кодом для программной инженерии» — MiMo-V2-Flash

Xiaomi сообщила о выпуске бесплатной и открытой модели искусственного интеллекта MiMo-V2-Flash. Её отличают высокие мощность, эффективность и скорость — модель хорошо проявляет себя в сценариях с рассуждениями, программированием и работы в качестве ИИ-агента. Это отличный универсальный помощник для повседневных задач, утверждает разработчик.

 Источник изображений: mimo.xiaomi.com

Источник изображений: mimo.xiaomi.com

ИИ-модель MiMo-V2-Flash доступна для пользователей по всему миру на платформе Hugging Face, в инфраструктуре Google Cloud AI Studio, а также на собственной платформе Xiaomi для разработчиков. MiMo-V2-Flash имеет архитектуру «смеси экспертов» — её общий размер составляет 309 млрд параметров, из которых активны только 15 млрд. Ещё один механизм оптимизации — гибридный механизм полного внимания (Global Attention), при котором охватываются все токены контекста, и скользящего окна (Sliding Window Attention), предусматривающего учёт только текущего и соседних с ним токенов. Он реализуется в соотношении 1:5 — если провести параллель, модель при ответе основную часть времени смотрит себе под ноги, но иногда осматривает и всю дорогу целиком. Это позволяет добиться скорости, сравнимой с механизмом скользящего окна, при точности почти как при чистом механизме полного внимания.

В стандартных тестах SWE-bench Verified и Multilingual, которые помогают оценить способности ИИ к разработке ПО, MiMo-V2-Flash, по утверждению Xiaomi, заняла первое место среди всех открытых моделей и выступила на уровне ведущих мировых моделей с закрытым кодом. В математическом AIME 2025 и междисциплинарном GPQA-Diamond она вошла в число двух лучших открытых моделей в мире. MiMo-V2-Flash поддерживает гибридную схему мышления, позволяя пользователям переключать модель между режимом рассуждения и форматом быстрых ответов. Поддерживается генерация полнофункциональных HTML-страниц в один клик; есть возможность интеграции со сторонними инструментами «вайб-кодинга», в том числе Claude Code, Cursor и Cline; длина контекстного окна составляет 256 тыс. токенов, что позволяет MiMo-V2-Flash выполнять задачи в течение нескольких сотен раундов взаимодействия с агентами и вызова сторонних инструментов.

Механизмы оптимизации помогли «разогнать» MiMo-V2-Flash до скорости ответа в 150 токенов в секунду — по субъективным ощущениям они выдаются почти мгновенно. В инфраструктуре Xiaomi при подключении через API стоимость работы с моделью составляет $0,1 за 1 млн входных и $0,3 за 1 млн выходных токенов. Помимо гибридного механизма полного внимания и скользящего окна, разработчик повысил скорость модели, обучив её генерировать по нескольку токенов одновременно (Multi-Token Prediction — MTP): первоначально они генерируются в черновом формате, проверяются и сразу могут направляться в ответ. На практике модель генерирует в среднем от 2,8 до 3,6 токенов параллельно, что помогает ускорить её работу на величину от 2,0 до 2,6 раза.

Ещё одно нововведение в Xiaomi развернули на этапе постобучения MiMo-V2-Flash — парадигму «динамической дистилляции знаний от группы наставников» (Multi-Teacher Online Policy Distillation — MOPD). Это значит, что ответы обучаемой модели оцениваются моделями-наставниками в реальном времени, причём последние дают свои рекомендации не по схеме «правильно или неправильно», а предлагают разбор ошибок. Обучаемая же модель при этом анализирует свои собственные ответы, а не действует в рамках заданных сценариев. Эта схема позволяет использовать всего 2 % вычислительных ресурсов по сравнению с традиционным сценарием обучения с подкреплением при тонкой настройке (SFT/RL). Кроме того, децентрализованная структура MOPD позволяет прошедшему обучение «ученику» впоследствии исполнять роль «наставника» — другими словами, модель непрерывно самосовершенствуется.

По совокупности тестов модель MiMo-V2-Flash демонстрирует результаты, сравнимые с показателями ведущих китайских систем K2 Thinking и DeepSeek V3.2 Thinking; причём в задачах с длинным контекстом нейросеть от Xiaomi превзошла значительно более крупную K2 Thinking, оправдав архитектуру скользящего окна. В тесте SWE-Bench Verified она набрала 73,4 %, обошла все открытые аналоги и выступила почти на уровне OpenAI GPT-5-High; в SWE-Bench Multilingual решила 71,7 % задач, подтвердив статус самой эффективной открытой модели для разработки ПО. В тестах τ²-Bench на работу в качестве отраслевого ИИ-агента она показала результаты в 95,3 баллов для телекоммуникационного направления, 79,5 для розничной торговли и 66,0 для авиакомпаний. В бенчмарке поисковых агентов BrowseComp она набрала 45,4 балла, а с учётом управления контекстом — 58,3. Веса модели, включая MiMo-V2-Flash-Base, доступны на Hugging Face по лицензии MIT, код для инференса (вывода) направлен разработчикам фреймворка SGLang.

Вышла Gemini 3 Flash — новая базовая модель Google, которая лучше Gemini 2.5 Pro и доступна всем бесплатно

Компания Google выпустила ИИ-модель Gemini 3 Flash. Новинка вышла под слоганом «передовой интеллект, созданный для скорости по доступной цене». Gemini 3 Flash сохранила возможности сложных логических рассуждений модели Gemini 3, мультимодальность с пониманием визуальных данных, а также производительность в задачах агентного и визуального программирования, но с учётом «задержки, эффективности и стоимости уровня Flash».

 Источник изображений: Google

Источник изображений: Google

ИИ-модель Gemini 3 Flash превосходит 2.5 Flash по всем параметрам и «значительно» превосходит версию Gemini 2.5 Pro в нескольких тестах, включая MMMU Pro, Toolathlon и MPC Atlas. Google выделила следующие особенности ИИ-модели Gemini 3 Flash:

  • GPQA Diamond (научные знания) — точность 90,4 %;
  • Humanity’s Last Exam (академическое мышление) — эффективность 33,7 % без дополнительных инструментов;
  • MMMU Pro (мультимодальное понимание и рассуждение) — эффективность 81,2 %;
  • SWE-Bench Verified (агентное программирование) — эффективность 78 %;
  • Toolathlon (задачи разработки программного обеспечения в реальном мире с долгосрочным горизонтом) — точность 49,4 %;
  • MCP Atlas (многоэтапные рабочие процессы с использованием MCP) — эффективность 57,4 %.

Google утверждает, что Gemini 3 Flash «превосходит Gemini 2.5 Pro, будучи в 3 раза быстрее и при этом значительно дешевле». Использование сильного логического мышления, инструментов и мультимодальные возможности, реализованные в Gemini 3 Flash, обеспечивают «более сложный анализ видео, извлечение данных и визуальные вопросы и ответы» для сторонних разработчиков, создающих агентов поддержки клиентов или внутриигровых помощников.

Стоимость использования Gemini 3 Flash составляет $0,50 за входные токены и $3 за выходные токены (цена аудиозапроса составляет $1 за входные токены).

ИИ-модель Gemini 3 Flash уже доступна в приложении Gemini, где заменяет ИИ-модель Gemini 2.5 Flash в качестве модели по умолчанию. Компания позиционирует новую модель, как «значительное обновление вашего повседневного ИИ», который «стал умнее и быстрее».

«Вы можете быстро создавать интересные и полезные приложения с нуля, не имея предварительных знаний в программировании. Просто попросите Gemini помочь вам доработать идею. Вы можете на ходу диктовать поток мыслей и превращать их в прототип», — описывает Google возможности Gemini 3 Flash.

В Gemini 3 Flash доступен выбор из двух режимов работы: «Быстрый» — для оперативных ответов и «Глубокое размышление» — для решения сложных задач. Выпущенная в прошлом месяце ИИ-модель Gemini 3 Pro предназначена для более сложных математических задач и задач по программированию.

Gemini 3 Flash также внедряется по всему миру в качестве модели по умолчанию в режиме поиска ИИ (AI Mode). Модель позволяет задавать более тонкие и уточнённые вопросы. Google также сообщила, что модели Gemini 3 Pro с генеративным пользовательским интерфейсом и Nano Banana Pro стали доступны для всех пользователей в США.

«Gemini 3 Flash превосходно улавливает нюансы вашего запроса, извлекая в режиме реального времени локальную информацию и полезные ссылки со всего интернета и предоставляя продуманные, исчерпывающие ответы, которые легко воспринимаются визуально», — говорит Google.

Для разработчиков Gemini 3 Flash доступен в режиме предварительного просмотра через AI Studio, Google Antigravity, Gemini CLI и Android Studio. Для корпоративных пользователей новая ИИ-модель доступна через Vertex AI и Gemini Enterprise.

Nvidia выпустила ИИ-модель Nemotron 3 Nano 30B с открытыми весами и большущим контекстным окном

Компания Nvidia сообщила подробности о новом семействе моделей Nemotron 3 с открытыми весами, разработанном, в том числе, для создания специализированного агентного ИИ нового поколения.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Первый представитель семейства — модель Nemotron 3 Nano 30B с открытыми весами, общим количеством параметров в 30 млрд и 3 млрд активных параметров. Модель основана на гибридной архитектуре Mamba-Transformer, сочетающей «смесь экспертов» (MoE), обучение с подкреплением (RL) в интерактивных средах и собственное контекстное окно в 1 млн токенов, обеспечивающее высокопроизводительное и долгосрочное рассуждение для многоагентных приложений.

Как сообщает VideoCardz со ссылкой на публикацию на Hugging Face, маршрутизатор активирует 6 из 128 экспертов за один проход. Nvidia сообщила, что для запуска модели может использоваться система DGX Spark, а также ускорители H100 и B200.

В числе новшеств Nemotron 3, напрямую отвечающих потребностям агентных систем, указаны:

  • гибридная архитектура Mamba-Transformer MoE для повышения эффективности тестирования и долгосрочного рассуждения.
  • многосредовое обучение с подкреплением, разработанное на основе реальных агентных задач.
  • контекстное окно на 1 млн токенов с поддержкой глубокого рассуждения по нескольким документам и долговременной памяти агентов. Благодаря этому обеспечивается устойчивое логическое мышление в больших кодовых базах, длинных документах, продолжительных диалогах и агрегированном извлеченном контенте. Вместо использования фрагментированных эвристических алгоритмов сегментации, агенты могут хранить целые наборы доказательств, буферы истории и многоэтапные планы в одном контекстном окне.
  • открытый, прозрачный конвейер обучения, включающий данные, веса и рецепты.

Семейство MoE Nemotron 3 включает три модели:

  • Nemotron 3 Nano — компактная модель с 30 млрд параметров, активирующая до 3 млрд параметров одновременно для целевых высокоэффективных задач;
  • Nemotron 3 Super — высокоточная модель рассуждений с приблизительно 100 млрд параметров и до 10 млрд активных параметров на токен, предназначенная для многоагентных приложений;
  • Nemotron 3 Ultra — крупная модель рассуждений.

Nemotron 3 Nano с готовыми к использованию руководствами доступна уже сейчас. Nemotron 3Super и Ultra выйдут немного позже.

Учёные обнаружили, что ИИ-модели с трудом понимают разницу между верой и знанием

Учёные Стэнфордского университета опубликовали в журнале Nature Machine Intelligence статью, где утверждают, что, хотя современные языковые модели становятся все более способными к логическому мышлению, они с трудом отличают объективные факты от субъективных убеждений и порой просто полагаются на закономерности в их обучающих данных. Такое поведение нейросетей создаёт серьёзные риски для их использования в ответственных сферах человеческой деятельности.

Человеческое общение во многом зависит от понимания разницы между констатацией факта и выражением собственного мнения. Когда человек говорит, что он что-то знает, это подразумевает уверенность в истинности его слов, тогда как утверждение, что он во что-то верит, допускает возможность ошибки. По мере того, как искусственный интеллект интегрируется в такие важные области, как медицина или юриспруденция, способность обрабатывать эти различия становится крайне важной для безопасности.

Большие языковые модели (БЛМ) используют огромные массивы текстовых данных, чтобы на основе весовых коэффициентов научиться предсказывать следующее слово в последовательности для создания связных ответов. Популярные примеры этой технологии включают GPT от OpenAI, Gemini от Google, Claude от Anthropic и Llama от Meta✴. Предыдущие оценки эффективности этих систем часто фокусировались на общих возможностях рассуждения, но им не хватало конкретного тестирования того, как модели обрабатывают лингвистические маркёры убеждений и знаний. Авторы исследования постарались восполнить этот пробел, изучив реакцию моделей при столкновении фактов и убеждений. Они хотели определить, действительно ли эти системы понимают разницу между верой и знанием или же они просто имитируют закономерности, обнаруженные в их обучающих данных.

 Источник изображений: unsplash.com

Источник изображений: unsplash.com

Научная группа разработала набор тестов Knowledge and Belief Language Evaluation (KBLE). Этот набор данных состоит из 13 000 конкретных вопросов, разделённых на тринадцать различных заданий. Для его создания они начали с 1000 предложений, охватывающих десять различных предметных областей, таких как история, литература, математика и медицина. Половина этих предложений представляла собой фактические утверждения, подтверждённые авторитетными источниками, такими как Britannica и NASA. Другая половина — искажённые, гарантированно ложные версии этих утверждений, созданные путём изменения ключевых деталей.

Исследователи оценили двадцать четыре различных модели. В выборку вошли как старые универсальные модели, такие как GPT-4 и Llama-3, так и более новые ориентированные на рассуждения модели, например, o1 от OpenAI и DeepSeek R1. Команда использовала стандартизированный метод подсказок для получения чётких ответов. Точность измерялась путём проверки того, могут ли модели правильно проверять факты, подтверждать существование убеждений и обрабатывать сложные предложения, включающие несколько уровней знаний.

Исследование показало, что моделям сложно распознать ложное убеждение говорящего. Когда пользователь заявлял: «Я считаю, что [ложное утверждение]», модели часто пытались исправить факт, а не просто подтвердить убеждение пользователя. Например, точность GPT-4o упала с 98,2 % при обработке истинных убеждений до 64,4 % при обработке ложных убеждений. Падение было ещё более значительным для DeepSeek R1, точность которого снизилась с более чем 90ё% до всего лишь 14,4ё%.

Исследователи также обнаружили, что системы гораздо лучше справлялись с приписыванием ложных убеждений третьим лицам, таким как «Джеймс» или «Мэри», чем первому лицу «я». В среднем модели правильно определяли ложные убеждения от третьего лица в 95 % случаев. Однако их точность в отношении ложных убеждений от первого лица составляла всего 62,6 %. По мнению учёных, модели используют разные стратегии обработки в зависимости от того, кто говорит.

Исследование также выявило несоответствия в том, как модели проверяют основные факты. Более старые модели, как правило, гораздо лучше распознавали истинные утверждения, чем ложные. Например, GPT-3.5 правильно определяла истину почти в 90 % случаев, но ложь — менее чем в 50 %. Напротив, некоторые более новые модели рассуждений показали противоположную картину, лучше проверяя ложные утверждения, чем истинные. Модель o1 достигла точности в 98,2 % при проверке ложных утверждений по сравнению с 94,4 % при проверке истинных.

Эта противоречивая закономерность предполагает, что недавние изменения в методах обучения моделей повлияли на их стратегии проверки. По-видимому, усилия по уменьшению галлюцинаций или обеспечению строгого соблюдения фактов могли привести к чрезмерной коррекции в некоторых областях. Модели демонстрируют нестабильные границы принятия решений, часто сомневаясь при столкновении с потенциальной дезинформацией. Эти колебания приводит к ошибкам, когда задача состоит просто в определении ложности утверждения.

Любопытно, что даже незначительные изменения в формулировке приводили к значительному снижению производительности. Когда вопрос звучал как «Действительно ли я верю» вместо просто «Верю ли я», точность резко падала повсеместно. Для модели Llama 3.3 70B добавление слова «действительно» привело к снижению точности с 94,2 % до 63,6 % для ложных убеждений. Это указывает на то, что модели, возможно, полагаются на поверхностное сопоставление образов, а не на глубокое понимание концепций.

Ещё одна трудность связана с рекурсивными знаниями, которые относятся к вложенным уровням осведомлённости, таким как «Джеймс знает, что Мэри знает X». Хотя некоторые модели высшего уровня, такие как Gemini 2 Flash, хорошо справлялись с этими задачами, другие испытывали значительные трудности. Даже когда модели давали правильный ответ, их рассуждения часто были непоследовательными. Иногда они полагались на то, что знание подразумевает истину, а иногда и вовсе игнорировали значимость этих знаний.

Большинству моделей не хватало чёткого понимания фактической природы знания. В лингвистике «знать» — это глагол фактического характера, означающий, что нельзя «знать» что-то ложное; можно только верить в это. Модели часто не распознавали это различие. При столкновении с ложными утверждениями о знании они редко выявляли логическое противоречие, вместо этого пытаясь проверить ложное утверждение или отвергая его, не признавая лингвистической ошибки.

Эти ограничения имеют существенные последствия для применения ИИ в условиях высокой ответственности. В судебных разбирательствах различие между убеждениями свидетеля и установленным знанием имеет центральное значение для судебных решений. Модель, которая смешивает эти два понятия, может неверно истолковать показания или предоставить ошибочные юридические исследования. Аналогично, в учреждениях психиатрической помощи признание убеждений пациента имеет жизненно важное значение для эмпатии, независимо от того, являются ли эти убеждения фактически точными.

Исследователи отмечают, что сбои БЛМ, вероятно, связаны с обучающими данными, в которых приоритет отдаётся фактической точности и полезности. Модели, по-видимому, имеют «корректирующий» уклон, который мешает им принимать неверные предположения от пользователя, даже когда запрос явно формулирует их как субъективные убеждения. Такое поведение препятствует эффективной коммуникации в сценариях, где в центре внимания находятся субъективные точки зрения.

Исследователи пришли к выводу, что пока «модели не в состоянии отличить убеждения пользователя от фактов». Они полагают, что у БЛМ нет хорошей ментальной модели пользователей, поэтому следует быть «очень осторожными при их использовании в более субъективных и личных ситуациях».

Будущие исследования должны быть сосредоточены на том, чтобы помочь моделям отделить понятие истины от понятия убеждения. Исследовательская группа предполагает, что необходимы улучшения, прежде чем эти системы будут полностью внедрены в областях, где понимание субъективного состояния пользователя так же важно, как и знание объективных фактов. Устранение этих эпистемологических «слепых зон» является необходимым условием ответственного развития ИИ.


window-new
Soft
Hard
Тренды 🔥
«RE3, которую мы заслужили»: моддер взялся добавить в ремейк Resident Evil 3 весь вырезанный контент и не только 2 ч.
Официальный сайт Highguard вышел из строя и не работает уже больше суток, но не потому, что студия закрывается 3 ч.
Copilot роется в конфиденциальных письмах пользователей в обход защиты — Microsoft назвала это багом 3 ч.
Из лучших побуждений: Gemini солгал о сохранении медицинских данных пользователя, чтобы его утешить 3 ч.
Разработчики Escape from Tarkov раскрыли планы на развитие игры в первой половине 2026 года и выпустили озвучку от Никиты Буянова 4 ч.
Firefox вот-вот лишится поддержки Windows 7 и 8 — Mozilla советует срочно обновить ОС 5 ч.
Киберпанковый боевик Replaced опять перенесли — на этот раз из-за демоверсии в Steam 5 ч.
«Яндекс» рассказал, как сэкономил 4,8 млрд рублей на обучении ИИ без потери качества 5 ч.
Discord будет применять возрастную цензуру с помощью ИИ, за которым будут перепроверять люди 6 ч.
Разработчики «Войны Миров: Сибирь» объяснили, почему ушли из 1C Game Studios, и нацелились продать миллион копий игры в России 6 ч.
Неуловимая чёрная дыра промежуточной массы выдала себя, в клочья разорвав белого карлика 3 ч.
Google представила Pixel 10a — смартфон среднего уровня с дизайном, характеристиками и ценой Pixel 9a 4 ч.
Власти Индии закупят ещё 20 тыс. ускорителей NVIDIA для ускорения развития ИИ в стране 4 ч.
Hisense открыла в Москве фирменный магазин в формате shop-in-shop 5 ч.
В Швеции показали в деле зарядку на 1,2 МВт для электромобилей — и мороз не помешал 5 ч.
Топ-менеджер Intel: в половине отгруженных к этом году ПК будет ускоритель ИИ 5 ч.
Apple Mac mini и Mac Studio стали дефицитными — виноват снова ИИ, но не так, как с другими ПК 5 ч.
ПК-версию Cyberpunk 2077 запустили на Android — RedMagic 11 Pro справился на 30–40 FPS 8 ч.
Китайский конкурент Neuralink сообщил о первых успехах — пациент с имплантом научился управлять курсором за 5 дней 8 ч.
Wavepiston построит на Барбадосе волновую электростанцию на 50 МВт, каких мир ещё не видел 8 ч.