Сегодня 13 декабря 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → модели
Быстрый переход

Учёные обнаружили, что ИИ-модели с трудом понимают разницу между верой и знанием

Учёные Стэнфордского университета опубликовали в журнале Nature Machine Intelligence статью, где утверждают, что, хотя современные языковые модели становятся все более способными к логическому мышлению, они с трудом отличают объективные факты от субъективных убеждений и порой просто полагаются на закономерности в их обучающих данных. Такое поведение нейросетей создаёт серьёзные риски для их использования в ответственных сферах человеческой деятельности.

Человеческое общение во многом зависит от понимания разницы между констатацией факта и выражением собственного мнения. Когда человек говорит, что он что-то знает, это подразумевает уверенность в истинности его слов, тогда как утверждение, что он во что-то верит, допускает возможность ошибки. По мере того, как искусственный интеллект интегрируется в такие важные области, как медицина или юриспруденция, способность обрабатывать эти различия становится крайне важной для безопасности.

Большие языковые модели (БЛМ) используют огромные массивы текстовых данных, чтобы на основе весовых коэффициентов научиться предсказывать следующее слово в последовательности для создания связных ответов. Популярные примеры этой технологии включают GPT от OpenAI, Gemini от Google, Claude от Anthropic и Llama от Meta✴. Предыдущие оценки эффективности этих систем часто фокусировались на общих возможностях рассуждения, но им не хватало конкретного тестирования того, как модели обрабатывают лингвистические маркёры убеждений и знаний. Авторы исследования постарались восполнить этот пробел, изучив реакцию моделей при столкновении фактов и убеждений. Они хотели определить, действительно ли эти системы понимают разницу между верой и знанием или же они просто имитируют закономерности, обнаруженные в их обучающих данных.

 Источник изображений: unsplash.com

Источник изображений: unsplash.com

Научная группа разработала набор тестов Knowledge and Belief Language Evaluation (KBLE). Этот набор данных состоит из 13 000 конкретных вопросов, разделённых на тринадцать различных заданий. Для его создания они начали с 1000 предложений, охватывающих десять различных предметных областей, таких как история, литература, математика и медицина. Половина этих предложений представляла собой фактические утверждения, подтверждённые авторитетными источниками, такими как Britannica и NASA. Другая половина — искажённые, гарантированно ложные версии этих утверждений, созданные путём изменения ключевых деталей.

Исследователи оценили двадцать четыре различных модели. В выборку вошли как старые универсальные модели, такие как GPT-4 и Llama-3, так и более новые ориентированные на рассуждения модели, например, o1 от OpenAI и DeepSeek R1. Команда использовала стандартизированный метод подсказок для получения чётких ответов. Точность измерялась путём проверки того, могут ли модели правильно проверять факты, подтверждать существование убеждений и обрабатывать сложные предложения, включающие несколько уровней знаний.

Исследование показало, что моделям сложно распознать ложное убеждение говорящего. Когда пользователь заявлял: «Я считаю, что [ложное утверждение]», модели часто пытались исправить факт, а не просто подтвердить убеждение пользователя. Например, точность GPT-4o упала с 98,2 % при обработке истинных убеждений до 64,4 % при обработке ложных убеждений. Падение было ещё более значительным для DeepSeek R1, точность которого снизилась с более чем 90ё% до всего лишь 14,4ё%.

Исследователи также обнаружили, что системы гораздо лучше справлялись с приписыванием ложных убеждений третьим лицам, таким как «Джеймс» или «Мэри», чем первому лицу «я». В среднем модели правильно определяли ложные убеждения от третьего лица в 95 % случаев. Однако их точность в отношении ложных убеждений от первого лица составляла всего 62,6 %. По мнению учёных, модели используют разные стратегии обработки в зависимости от того, кто говорит.

Исследование также выявило несоответствия в том, как модели проверяют основные факты. Более старые модели, как правило, гораздо лучше распознавали истинные утверждения, чем ложные. Например, GPT-3.5 правильно определяла истину почти в 90 % случаев, но ложь — менее чем в 50 %. Напротив, некоторые более новые модели рассуждений показали противоположную картину, лучше проверяя ложные утверждения, чем истинные. Модель o1 достигла точности в 98,2 % при проверке ложных утверждений по сравнению с 94,4 % при проверке истинных.

Эта противоречивая закономерность предполагает, что недавние изменения в методах обучения моделей повлияли на их стратегии проверки. По-видимому, усилия по уменьшению галлюцинаций или обеспечению строгого соблюдения фактов могли привести к чрезмерной коррекции в некоторых областях. Модели демонстрируют нестабильные границы принятия решений, часто сомневаясь при столкновении с потенциальной дезинформацией. Эти колебания приводит к ошибкам, когда задача состоит просто в определении ложности утверждения.

Любопытно, что даже незначительные изменения в формулировке приводили к значительному снижению производительности. Когда вопрос звучал как «Действительно ли я верю» вместо просто «Верю ли я», точность резко падала повсеместно. Для модели Llama 3.3 70B добавление слова «действительно» привело к снижению точности с 94,2 % до 63,6 % для ложных убеждений. Это указывает на то, что модели, возможно, полагаются на поверхностное сопоставление образов, а не на глубокое понимание концепций.

Ещё одна трудность связана с рекурсивными знаниями, которые относятся к вложенным уровням осведомлённости, таким как «Джеймс знает, что Мэри знает X». Хотя некоторые модели высшего уровня, такие как Gemini 2 Flash, хорошо справлялись с этими задачами, другие испытывали значительные трудности. Даже когда модели давали правильный ответ, их рассуждения часто были непоследовательными. Иногда они полагались на то, что знание подразумевает истину, а иногда и вовсе игнорировали значимость этих знаний.

Большинству моделей не хватало чёткого понимания фактической природы знания. В лингвистике «знать» — это глагол фактического характера, означающий, что нельзя «знать» что-то ложное; можно только верить в это. Модели часто не распознавали это различие. При столкновении с ложными утверждениями о знании они редко выявляли логическое противоречие, вместо этого пытаясь проверить ложное утверждение или отвергая его, не признавая лингвистической ошибки.

Эти ограничения имеют существенные последствия для применения ИИ в условиях высокой ответственности. В судебных разбирательствах различие между убеждениями свидетеля и установленным знанием имеет центральное значение для судебных решений. Модель, которая смешивает эти два понятия, может неверно истолковать показания или предоставить ошибочные юридические исследования. Аналогично, в учреждениях психиатрической помощи признание убеждений пациента имеет жизненно важное значение для эмпатии, независимо от того, являются ли эти убеждения фактически точными.

Исследователи отмечают, что сбои БЛМ, вероятно, связаны с обучающими данными, в которых приоритет отдаётся фактической точности и полезности. Модели, по-видимому, имеют «корректирующий» уклон, который мешает им принимать неверные предположения от пользователя, даже когда запрос явно формулирует их как субъективные убеждения. Такое поведение препятствует эффективной коммуникации в сценариях, где в центре внимания находятся субъективные точки зрения.

Исследователи пришли к выводу, что пока «модели не в состоянии отличить убеждения пользователя от фактов». Они полагают, что у БЛМ нет хорошей ментальной модели пользователей, поэтому следует быть «очень осторожными при их использовании в более субъективных и личных ситуациях».

Будущие исследования должны быть сосредоточены на том, чтобы помочь моделям отделить понятие истины от понятия убеждения. Исследовательская группа предполагает, что необходимы улучшения, прежде чем эти системы будут полностью внедрены в областях, где понимание субъективного состояния пользователя так же важно, как и знание объективных фактов. Устранение этих эпистемологических «слепых зон» является необходимым условием ответственного развития ИИ.

Runway представила свою первую ИИ-модель мира и добавила звук в генератор видео

Компания Runway, которая ранее выпускала генераторы изображений и видео, представила модель искусственного интеллекта для генерации виртуальных миров, получившую название GWM-1. Она работает за счёт покадрового прогнозирования, создаёт симуляции с пониманием физики и того, как ведёт себя мир с течением времени.

 Источник изображений: Runway

Источник изображений: Runway

Модель мира — это система ИИ, изучающая внутренние симуляции с процессами, которые могут происходить в мире. Она может рассуждать, планировать и осуществлять действия без необходимости в обучении на каждом возможном сценарии в реальной жизни. «Чтобы создать модель мира, нам сначала нужно было разработать по-настоящему качественную модель видео. Мы считаем, что правильный путь к созданию моделей мира — их обучение предсказывать пиксели напрямую, и это лучший способ добиться универсального моделирования. При достаточном масштабе и с правильными данными можно создать модель, которая достаточно хорошо понимает, как работает мир», — рассказал гендиректор Runway Анастасис Германидис (Anastasis Germanidis).

Компания представила три версии новой модели мира: GWM-Worlds, GWM-Robotics и GWM-Avatars. GWM-Worlds — приложение, позволяющее создавать интерактивные проекты. Пользователь задаёт первоначальную сцену по текстовому запросу или образцу на изображении, и по мере исследования пространства модель генерирует мир с учётом геометрии, физики и освещения. Моделирование осуществляется с разрешением 720p и скоростью 24 кадра в секунду. GWM-Worlds может пригодиться в разработке игр, она также подходит для обучения навигационных агентов и агентов действия в реальном мире. GWM-Robotics предназначается для генерации синтетических данных, обогащаемых новыми параметрами, такими как изменения погодных условий или возникновение препятствий. Этот метод поможет выявить, когда и при каких условиях роботы способны нарушать правила с учётом различных сценариев. GWM-Avatars предназначается для создания реалистичных аватаров и имитации человеческого поведения. Сейчас Worlds, Robotics и Avatars работают как отдельные модели, но Runway планирует их объединить.

Компания также сообщила об обновлении своей базовой модели Gen 4.5 — она научилась генерировать встроенный звук и создавать длинные многокадровые ролики. Это могут быть одноминутные клипы с согласованностью персонажей, встроенными диалогами, фоновым звуком и сложными кадрами с разных ракурсов. Можно также редактировать существующий звуковой ряд, добавлять диалоги и изменять многокадровые видеоролики любой длины. Работать с генератором видео Runway Gen 4.5 могут все пользователи платных тарифных планов. GWM-Robotics будет доступна через SDK; ведутся переговоры с партнёрами об интеграции GWM-Robotics и GWM-Avatars для создателей робототехники и других предприятий.

Открытые ИИ-модели из Китая захватили почти треть мирового рынка ИИ — и вряд ли остановятся

Соображения экспертов по поводу активного распространения китайских больших языковых моделей с открытым исходным кодом далеко за пределами регионального рынка находят всё больше подтверждений в различных источниках. По некоторым данным, по интенсивности использования такие модели достигли 30 % мирового рынка в этом году.

 Источник изображения: Nvidia

Источник изображения: Nvidia

По информации агрегатора OpenRouter и аналитиков Andreessen Horowitz, на которые ссылается South China Morning Post, китайские большие языковые модели с открытым исходным кодом ещё в конце прошлого года претендовали не более чем на 1,2 % обрабатываемых в мире токенов, но по итогам текущего года она выросла почти до 30 %. При этом запросы при обращении к ИИ-моделям на китайском языке остаются вторыми по частоте после английских. Среди китайских ИИ-моделей лидируют разработки семейства Qwen холдинга Alibaba, DeepSeek V3 и решение Moonshot AI по имени Kimi K2. Оставшиеся 70 % операций с токенами приходятся на закрытые модели западного происхождения, типа тех, что предлагает OpenAI в серии GPT.

С начала этого года китайские большие языковые модели с открытым исходным кодом достигли доли в 13 % еженедельного использования токенов, причём во втором полугодии их популярность увеличилась. Языковые модели прочего происхождения по географическому признаку обеспечивают долю 13,7 % на уровне еженедельного использования. В отчёте говорится, что китайские большие языковые модели активно применяются не только внутри страны, но и за её пределами.

ИИ-модели готовы признаться в своих грешках, показало исследование OpenAI

Исследователи OpenAI в поисках эффективных методов аудита моделей искусственного интеллекта, склонных выдавать нежелательные результаты или пытаться обмануть пользователей, обнаружили, что эти модели вполне способны к признаниям в собственном ненадлежащем поведении.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

В своём исходном значении понятие «признания», конечно, неприменимо к моделям ИИ, которые в действительности представляют собой не более чем сложные статистические алгоритмы. В терминах OpenAI под «признанием» понимается возможность модели оценить свои нежелательные действия, например, галлюцинации в ответах или попытки нарушить условия задачи, чтобы прийти к желаемому результату. «Признание — это [вторичный] ответ, даваемый по запросу после первоначального ответа модели, призванный служить полным отчётом о соответствии модели букве и духу её политик и инструкций», — говорится в статье (PDF) OpenAI.

Проще говоря, модели отправляется запрос на получение второго ответа с оценкой первого. Склонность к неподобающему поведению у ИИ формируется на этапе обучения с подкреплением, когда он обнаруживает возможность злоупотреблять механизмами вознаграждения. То есть модель исходит из того, что получит вознаграждение за «признание» и останется безнаказанной за сами нежелательные действия, например, за подхалимство.

Эти соображения, как оказалось, подтверждаются на практике. В 11 из 12 проведённых тестов она признавалась минимум в половине случаев, когда действовала вопреки инструкциям. Частота признаний оказалась переменчивой величиной: средняя вероятность получить признание по всем тестам составила 74,3 %. В 4 тестах из 12 этот показатель был выше 90 %, а в 2 из 12 — 50 % или ниже. Вероятность ложноотрицательного ответа, когда модель нарушила правила и не признала своей ошибки, составила лишь 4,4 %; были и ложноположительные, когда модель признавалась в неподобающем поведении, хотя ничего такого не совершала.

Когда OpenAI включили сценарий с «признаниями» в механизм обучения модели, качество её ответов не показало существенного ухудшения. С другой стороны, даже «признаваясь» в своих грехах, она стала вести себя не лучше, но хотя бы честнее. То есть «признание» — это не заградительный барьер, а механизм безопасности, который к тому же работает с переменным успехом.

Mistral AI сделал заявку на лидерство на рынке открытых моделей, выпустив Mistral 3

Французский ИИ-стартап Mistral AI представил семейство моделей Mistral 3 следующего поколения с открытыми весами (Open-weight), сделав серьёзную заявку на лидерство в сегменте общедоступных ИИ-моделей, которые обладают рядом преимуществ для корпоративных клиентов по сравнению с решениями крупных технологических компаний.

 Источник изображения: Mistral AI

Источник изображения: Mistral AI

Семейство Mistral 3 состоит из 10 моделей, включая большую модель разреженной архитектуры (Mixture of Experts, MoE) с открытыми весами, мультимодальными и многоязычными возможностями — Mistral Large 3. Это самая мощная на сегодняшний день модель компании, обученная с 41 млрд активных и 675 млрд общих параметров. Также в состав семейства входят девять небольших моделей с возможностью автономной работы и полной настройкой, в том числе три современные модели Ministral высокой плотности с 4, 8 и 3 млрд параметров.

Модели Mistral обладают лучшим соотношением производительности и стоимости в своей категории. В то же время Mistral Large 3 входит в число передовых моделей с открытым исходным кодом, оптимизированных под тонко настроенные инструкции.

Компания указала, что все модели выпускаются по лицензии Apache 2.0, добавив, что открытый исходный код моделей в различных сжатых форматах расширяет возможности сообщества разработчиков и позволяет использовать возможности ИИ благодаря распределённому интеллекту.

Как сообщает TechCrunch, стартап Mistral, основанный бывшими сотрудниками DeepMind и Meta✴, существует всего два года и на сегодняшний день привлек около $2,7 млрд инвестиций при оценке рыночной стоимости в $13,7 млрд. Это значительно меньше, чему у конкурентов, таких как OpenAI (привлечено $57 млрд при оценке в $500 млрд) и Anthropic (привлечено $45 млрд при оценке в $350 млрд).

Mistral утверждает, что больше не всегда значит лучше, особенно для корпоративных сценариев использования ИИ-продуктов.

«Наши клиенты иногда рады начать с очень большой [закрытой] модели, которую им не нужно настраивать… но, развернув её, они понимают, что это дорого и медленно, — рассказал ресурсу TechCrunch Гийом Лампле (Guillaume Lample), соучредитель и главный научный сотрудник Mistral. — Затем они обращаются к нам, чтобы мы настроили небольшие модели для более эффективного решения конкретной задачи». По его словам, подавляющее большинство корпоративных сценариев использования ИИ-решений можно реализовать с помощью небольших моделей с тонкой настройкой.

Лампле утверждает, что при сравнении с эталонными моделями, когда открытые модели значительно отстают от конкурентов с закрытым исходным кодом, результаты могут быть обманчивы. Он отметил, что большие закрытые модели могут со старта работать лучше, но реальный выигрыш при использовании небольших моделей достигается при настройке.

ИИ-модель Alibaba Qwen3-VL способна уловить почти все детали двухчасового видео, лишь раз его «просмотрев»

Спустя несколько месяцев после запуска Qwen3-VL компания Alibaba опубликовала подробный технический отчёт об открытой мультимодальной модели. Данные показывают, что система превосходно справляется с математическими задачами, связанными с изображениями, и может анализировать многочасовые видеоматериалы.

 Источник изображений: Alibaba

Источник изображений: Alibaba

Система справляется с большими объёмами данных, обрабатывая двухчасовые видео или сотни страниц документов в контекстном окне из 256 тыс. токенов. В тестах «иголка в стоге сена» флагманская модель с 235 млрд параметров обнаруживала отдельные кадры в 30-минутных видео со 100-процентной точностью. Даже в двухчасовых видео, содержащих около миллиона токенов, точность сохранялась на уровне 99,5 %. Тест основан на вставке семантически важного кадра-«иглы» в случайные места длинных видео, которые система затем должна найти и проанализировать.

 Тест «иголка в стоге сена» измеряет способность модели находить определенные кадры в длинных видеороликах

Тест «иголка в стоге сена» измеряет способность модели находить определенные кадры в длинных видеороликах

В опубликованных бенчмарках модель Qwen3-VL-235B-A22B часто превосходит Gemini 2.5 Pro, OpenAI GPT-5 и Claude Opus 4.1, даже когда конкуренты используют функции логического мышления или требуют больших затрат на мышление. Модель доминирует в задачах с визуальным математическим анализом, набирая 85,8 % в MathVista по сравнению с 81,3 % у GPT-5. В MathVision она лидирует с 74,6 %, опережая Gemini 2.5 Pro (73,3%) и GPT-5 (65,8%).

 Модель Gemini 2.5 Pro сохраняет небольшое преимущество в общем понимании изображений

Модель Gemini 2.5 Pro сохраняет небольшое преимущество в общем понимании изображений

Модель также демонстрирует широкий диапазон результатов в специализированных бенчмарках. Она набрала 96,5 % в тесте на понимание документов DocVQA и 875 баллов в OCRBench, поддерживая 39 языков — почти в четыре раза больше, чем её предшественник.

 Qwen3-VL достигает точности более 70 процентов при выполнении задач OCR на 32 из 39 поддерживаемых языков

Qwen3-VL достигает точности более 70 процентов при выполнении задач OCR на 32 из 39 поддерживаемых языков

Alibaba утверждает, что модель также демонстрирует новые возможности в задачах графического интерфейса. Точность Qwen3-VL-32B в ScreenSpot Pro, тестирующем навигацию в графических пользовательских интерфейсах, составила 61,8 %. В AndroidWorld, где система должна самостоятельно управлять приложениями Android, Qwen3-VL-32B показал результат 63,7 %.

Модель также обрабатывает сложные многостраничные PDF-документы. В MMLongBench-Doc она показала результат 56,2 % при анализе длинных документов. В бенчмарке CharXiv для научных диаграмм она достигла 90,5 % при выполнении задач описания и 66,2 % при выполнении сложных логических задач.

Однако не во всех случаях Qwen3-VL оказалась лучше конкурентов. В сложном тесте MMMU-Pro модель набрала 69,3 %, уступив GPT-5 с результатом 78,4 %. Коммерческие конкуренты также обычно лидируют в тестах качества видео. Данные свидетельствуют, что Qwen3-VL специализируется на визуальных математических задачах и документах, но всё ещё отстаёт в области общих логических рассуждений.

В техническом отчёте описаны три основных архитектурных обновления, реализованных в Qwen3-VL. Во-первых, «interleaved MRoPE» заменяет предыдущий метод позиционного встраивания. Вместо группировки математических представлений по размерности (время, горизонталь, вертикаль), новый подход равномерно распределяет их по всем доступным математическим областям. Это изменение направлено на повышение производительности при работе с длинными видео. Во-вторых, технология DeepStack позволяет модели получать доступ к промежуточным результатам видеокодера, а не только к конечному результату. Это предоставляет системе доступ к визуальной информации с разной степенью детализации. В-третьих, система временных меток на основе текста заменяет сложный метод T-RoPE, используемый в Qwen2.5-VL. Вместо того, чтобы присваивать математическую временную позицию каждому видеокадру, система теперь вставляет простые текстовые маркеры, например, «<3,8 секунды>», непосредственно во входные данные. Это упрощает процесс и улучшает понимание моделью задач, связанных с анализом видео с временными рамками.

 Qwen3-VL объединяет видеокодер и языковую модель для одновременной обработки текста, изображений и видео. DeepStack использует визуальную информацию с разных уровней обработки

Qwen3-VL объединяет видеокодер и языковую модель для одновременной обработки текста, изображений и видео. DeepStack использует визуальную информацию с разных уровней обработки

Alibaba обучала модель в четыре этапа на базе 10 тыс. графических процессоров. После обучения связыванию изображений и текста система прошла полное мультимодальное обучение примерно на триллионе токенов. Источниками данных были веб-скрапы, 3 млн PDF-файлов из Common Crawl и более 60 млн STEM-задач. На последующих этапах команда постепенно расширяла контекстное окно с 8000 до 32 000 и, наконец, до 262 000 токенов. Варианты Thinking прошли специальное обучение Chain-of-thought training, что позволило им генерировать промежуточные шаги рассуждения перед предоставлением окончательного ответа для достижения лучших результатов при решении сложных задач.

Все модели Qwen3-VL, выпущенные с сентября, доступны по лицензии Apache 2.0 с открытыми весами на Hugging Face. Линейка включает плотные варианты с параметрами от 2B до 32B, а также модели со смесью экспертов 30B-A3B и массивные 235B-A22B.

Хотя такие функции, как извлечение кадров из длинных видео, не являются новыми (в начале 2024 года Google Gemini 1.5 Pro уже реализовал эту функцию), Qwen3-VL предлагает конкурентоспособную производительность. Поскольку предыдущая модель Qwen2.5-VL уже широко применялась в исследованиях, новая модель, вероятно, станет стимулом для дальнейшей разработки ПО с открытым исходным кодом.

ИИ-модель DeepseekMath-V2 достигла уровня золотой медали на Международной математической олимпиаде

Китайский стартап DeepSeek представил новую ИИ-модель DeepseekMath-V2, которая показывает впечатляющие результаты при решении сложных математических задач. Алгоритм справился с многими заданиями Международной математической олимпиады (IMO 2025) и Китайской математической олимпиады (CMO 2024), показав при этом результат на уровене золотой медали.

 Источник изображений: the-decoder.com

Источник изображений: the-decoder.com

В сообщении сказано, что DeepseekMath-V2 набрала 118 из 120 баллов в задачах Putnam, что существенно выше лучшего результата человека в 90 баллов. DeepSeek отмечает, что ранее ИИ-модели часто выдавали верные ответы в сложных математических задачах, но при этом не показывали правильного хода решения. Для исправления ситуации ИИ-модель задействует многоэтапный процесс с отдельным верификатором для оценки корректности шагов решения задачи и необходимости их перепроверки. Такая структура позволяет алгоритму проверять и совершенствовать свои решения в режиме реального времени.

С технической стороны DeepseekMath-V2 построена на основе базовой модели Deepseek-V3.2-Exp-Base. В описании DeepSeek ни разу не упоминается использование внешних инструментов, таких как калькуляторы или интерпретаторы кода. В ключевых экспериментах одна и та же модель DeepseekMath-V2 используется как для генерации доказательств, так и для их проверки. Высокая производительность алгоритма обусловлена способностью подвергать критике и улучшать собственные выводы вместо того, чтобы задействовать внешнее программное обеспечение. Для решения более сложных задач модель наращивает вычислительные мощности на этапе тестирования, параллельно создавая и проверяя множество возможных доказательств, чтобы повысить уровень уверенности в правильности конечного ответа.

Релиз DeepSeek последовал за анонсом ещё не выпущенных ИИ-моделей OpenAI и Google Deepmind, которые достигли схожих результатов в решении сложных математических задач. Примечательно, что эти алгоритмы достигли такого результата за счёт способности к рассуждению, а не целевой оптимизации для математических олимпиад. Если на деле успехи этих алгоритмов действительно окажутся столь впечатляющими, то это будет означать, что языковые модели приблизились к моменту, когда они смогут решать сложные, абстрактные задачи, что традиционно считалось исключительно человеческим навыком.

Отметим, что решение DeepSeek раскрыть технические детали модели DeepseekMath-V2 резко контрастирует с секретностью, которую соблюдают Google и OpenAI. Американские компании держат в тайне подробности об архитектуре собственных ИИ-моделей, тогда как китайский стартап буквально раскрывает все карты, наглядно показывая, что компания идёт вровень с ведущими отраслевыми представителями.

Практическое использование ИИ в работе остаётся весьма неравномерным

Пока разработчики систем ИИ рисуют красочные картины светлого будущего, практическое внедрение таких решений осуществляется неравномерно и беспорядочно. Во многом такие перекосы можно было бы устранить благодаря более грамотному руководству бизнесом и обучению персонала новым приёмам работы, как считают эксперты.

 Источник изображений: Intel

Источник изображений: Intel

Издание The Wall Street Journal в своей пятничной публикации обратилось к этой теме, проанализировав отчёты сразу нескольких исследователей. Социологических исследований на тему практической пользы от внедрения ИИ пока не так много, поскольку бизнес принимает подобные технологические инструменты на вооружение с предсказуемой инерцией. Новые исследования указывают, что внедрение ИИ на практическом уровне происходит весьма неравномерно.

Не во всех компаниях, например, самыми активными пользователями ИИ являются те сотрудники, которым оно должно приносить максимальную выгоду. В частности, наиболее опытные сотрудники теоретически способны более продуктивно общаться с ИИ, выявляя ошибочные результаты в силу своего опыта, но в действительности они не торопятся это делать.

Исследование Workhelix, которое проводилось внутри фармацевтической компании с более чем 50 000 сотрудников, показало довольно спорные результаты. Выяснилось, что чаще всего к использованию ИИ прибегают стажёры, а не сотрудники с опытом. Молодые сотрудники более склонны к экспериментам, хотя и в этом случае возраст не является критерием, поскольку среди них имеются явные противники ИИ. Скорее, склонность к взаимодействию с ИИ определяется готовностью специалиста к экспериментам, и от возраста она не особо зависит.

В конкретной фармацевтической компании второй группой активных пользователей ИИ оказались профессиональные исследователи, что вполне закономерно, поскольку они в своей ежедневной деятельности связаны с экспериментами и поиском новых технологий. Важным фактором эффективности использования ИИ является и одобрение руководства компаний, а также обучающие программы для персонала.

Аналитики McKinsey обнаружили, что примерно две трети компаний ограничиваются экспериментами по использованию ИИ в своей деятельности, и только одна из двадцати может похвастать высокой эффективностью его применения, когда ИИ обеспечивает более чем 5 % дохода. Даже в том случае, когда работодатель создаёт равные условия для доступа сотрудников к ИИ-инструментам, перестроить под новые условия все процессы удаётся далеко не сразу. И чем больше людей задействовано в цепочке, тем сложнее внедрить ИИ.

История внедрения персональных компьютеров в середине восьмидесятых годов прошлого века показала, что прогрессивные технологии повышают эффективность бизнеса лишь через несколько лет, а на первых порах производительность может даже страдать. Обучение персонала и перестройка бизнес-процессов может потребовать годы, прежде чем внедрение ИИ начнёт приносить плоды. Человечество уже прошло через несколько волн технологической революции. Сначала это были персональные компьютеры, потом появился интернет, затем облачные сервисы, а также мобильные устройства. Руководство компаний должно играть весомую роль в продвижении этих новшеств.

Июльское исследование Microsoft Research показало, что самые подверженные внедрению ИИ профессии подразумевают написание текстов или кода, либо проведение исследований. У молодых сотрудников при этом больше мотивации использовать ИИ в своей работе, поскольку они тем самым могут доказать свою эффективность руководству и продвинуться по служебной лестнице. Игнорирующие развитие ИИ профессионалы рано или поздно должны будут либо научиться его использовать, либо покинуть рынок труда. По сути, не ИИ лишает людей работы, их место просто могут занять другие специалисты, которые могут его эффективно применять.

Сооснователь OpenAI Илья Суцкевер предупредил, что развитие ИИ экстенсивным методом себя изжило

Судя по активности участников рынка ИИ, они сейчас сосредоточены на том, чтобы наращивать вычислительные мощности, рассчитывая, что на определённом этапе количество перейдёт в качество. Один из основателей OpenAI Илья Суцкевер убеждён, что эпоха масштабирования заканчивается, и для качественного прогресса в развитии ИИ потребуются серьёзные и глубокие исследования.

 Источник изображения: University of Toronto Entrepreneurship

Источник изображения: University of Toronto Entrepreneurship

В OpenAI Илья как раз отвечал за исследования, и уйти из этого стартапа его заставил не только конфликт вокруг несостоявшейся отставки генерального директора Сэма Альтмана (Sam Altman), но и несогласие со стратегией развития компании. Как стало понятно из недавнего интервью Ильи Суцкевера, его настораживает сохраняющаяся ориентация отрасли ИИ на экстенсивный путь развития. Большие языковые модели до сих пор совершенствовались благодаря привлечению большего количества данных, вычислительных ресурсов или увеличению количества параметров внутри самой модели.

Для участников рынка такой подход был удобен, поскольку обеспечивал понятный результат при минимальных рисках и неопределённости. Большое количество квалифицированных и талантливых исследователей при этом не требовалось, поскольку прогресс достигался увеличением количества используемых ресурсов. По мнению Суцкевера, такой путь развития скоро себя исчерпает. Во многом это произойдёт из-за истощения запаса данных, которые пригодны для обучения языковых моделей. Вся информация, доступная в интернете, уже использована для обучения ИИ.

Как убеждён Суцкевер, даже дальнейшее увеличение масштаба имеющейся инфраструктуры в сто раз не обеспечит качественного прорыва в развитии ИИ. Да, в чём-то будут заметны изменения к лучшему, но так называемый «сильный искусственный интеллект» (AGI) таким способом создан не будет. По мнению основателя Safe Superintelligence, человечество будет вынуждено вернуться в эпоху исследований, получив мощные новые инструменты, помогающие учёным в работе. Его стартап как раз занимается подобными исследованиями, как становится ясно из интервью.

Попутно Суцкевер делает важное пояснение. По его мнению, большие языковые модели обобщают знания гораздо хуже людей. Например, если молодого исследователя старший коллега обучает на примере своих работ, делая какие-то пояснения и совместно обсуждая идеи, то для обучения модели требуется создать точный план, где на каждом этапе будет проверяться достижение строго формализованных результатов, а для обучения будут использоваться огромные массивы данных с примерами. И даже в этом случае человек продемонстрирует более высокие результаты обучения, чем ИИ. Как сократить эту разницу, научное сообщество пока не знает.

Продажи Tesla рушатся по всему миру — Маск увлёкся роботами, а стоило бы новыми машинами

Tesla столкнулась с падением продаж на всех трёх крупнейших мировых автомобильных рынках: Европе, Китае и США. Мировые поставки автомобилей Tesla в этом году сократятся на 7 %. Не помогли даже рекордные продажи в третьем квартале, перед окончанием срока действия в США налогового вычета для покупателей электромобилей 30 сентября. Аналитики заявляют о фундаментальных проблемах у автопроизводителя и не ожидают быстрого восстановления после этого спада продаж.

 Источник изображений: Tesla, SpaceX

Источник изображений: Tesla, SpaceX

Согласно данным Европейской ассоциации автопроизводителей, продажи электромобилей Tesla в Европе упали на 48,5 % в октябре по сравнению с аналогичным месяцем прошлого года. За год продажи Tesla в регионе снизились примерно на 30 %, в то время как общеотраслевые продажи электромобилей выросли на 26 %.

Ещё в 2023 году Tesla Model Y был самым продаваемым автомобилем в мире. В конце прошлого года компания планировала повысить продажи в 2025 году на 20–30 %. Однако в итоге продажи Tesla снизились, поскольку конкуренты представили широкий спектр улучшенных электромобилей — часто по более низким ценам, — в то время как модельный ряд Tesla утратил актуальность.

Проблемы Tesla наиболее остро ощущаются в Европе, где более десятка электрических моделей продаются по цене менее $30 000. В Европу хлынула волна китайских брендов с ошеломляющим (хоть порой и спорным) дизайном. Tesla в Европе предлагает всего две модели для массового рынка: Model 3 и Model Y. Недавно представленная для стимулирования продаж упрощённая и более дешёвая версия Model Y ситуацию не изменила.

Тем временем электромобили других производителей становятся всё более популярными. В Великобритании представлено более 150 электромобилей различных брендов, включая множество новых китайских конкурентов. По данным сайта Electrifying.com, посвящённого приобретению и эксплуатации электромобилей, в следующем году ожидается выпуск не менее 50 новых электромобилей, «из которых ни один не Tesla».

В Европе китайская компания BYD продала в октябре 17 470 автомобилей, что более чем вдвое превышает продажи Tesla. Представитель Volkswagen заявил о резком снижении доминирования Tesla на европейском рынке электромобилей. По мнению экспертов, проблема Tesla не только в устаревшей модельной линейке и конкуренции со стороны китайских брендов, но и в том, что «европейцы её догнали».

В Китае продажи и доля рынка Tesla также снижаются, хотя и не так резко, как в Европе. Поставки Tesla в Китай в октябре упали до трёхлетнего минимума, сократившись на 35,8 %. За год продажи Tesla в Китае снизились на 8,4 % по состоянию на октябрь. Tesla сталкивается с рядом обновлённых китайских брендов, таких как Chery, а также с новичками, включая Xiaomi, чей YU7 составил уверенную конкуренцию Model Y.

 Источник изображения: Xiaomi

Источник изображения: Xiaomi

Зафиксированный в США скачок продаж Tesla на 18 % в сентябре объясняется ажиотажем среди покупателей, которые стремились приобрести электромобиль до 30 сентября — окончания срока действия налогового вычета в размере $7500. Зато в октябре падение составило 24 % и может продолжиться в ближайшие месяцы, так как аналитики не ожидают положительной динамики на рынке электромобилей.

Продажи Tesla могут немного вырасти на фоне сокращения выпуска электромобилей и снижения инвестиций в отрасль со стороны нескольких традиционных автопроизводителей, включая General Motors, Ford и Honda. Кроме того, недавний запуск новых версий Model Y и Model 3 со сниженной на $5000 ценой может способствовать увеличению доли рынка. Большинство экспертов уверены, что Tesla для оживления продаж необходим совершенно новый автомобиль.

Однако пока никаких признаков разработки новой модели для водителей-людей не наблюдается, поскольку глава Tesla Илон Маск (Elon Musk) сосредоточился на беспилотных роботакси и гуманоидных роботах. Политическая активность Маска также не идёт на пользу компании.

Новый пакет оплаты труда самого Маска не предполагает значительного роста продаж. Он получит многомиллиардное вознаграждение, если в течение следующего десятилетия акции компании вырастут в цене, а продажи составят в среднем 1,2 миллиона автомобилей в год, что почти на полмиллиона меньше, чем компания продала в 2024 году.

Учёные обнаружили, что у ИИ пока имеются проблемы с пониманием каламбуров и юмора

Общение человека с большими языковыми моделями может быть вполне гармоничным и естественным до тех пор, пока искусственный интеллект не столкнётся с тонким юмором и двойным смыслом, заложенным в каламбуры. К такому выводу пришли в своём исследовании британские и итальянские исследователи, на доклад которых ссылается издание The Guardian.

 Источник изображения: Freepik

Источник изображения: Freepik

Авторы исследования, по данным источника, обнаружили способность больших языковых моделей выявлять структуру каламбура, но с пониманием смысла у них возникают проблемы. Например, при замене ключевого слова в каламбуре, которая в восприятии человека лишает высказывание юмора, большие языковые модели продолжают считать фразу шуткой.

В качестве примера приводилась такая фраза: «Длинные сказки имеют тенденцию к дракону» (Long fairy tales have a tendency to dragon). В этом случае последнее слово звучит идентично с глаголом «drag on» — затягиваться, и именно эта двойственность смысла лежит в основе каламбура. Если авторы эксперимента меняли «dragon» на синонимичный глагол «prolong» или вообще любое другое произвольное слово, ИИ всё равно считал, что результирующая фраза является шуткой.

Как пояснил один из авторов исследования, большие языковые модели запоминают то, что они узнали в процессе обучения. В случае с юмором они запоминают известные им каламбуры, но это вовсе не означает, что они до конца понимают их суть. Замена ключевых слов в шутках, которая начисто лишает их юмора, в восприятии ИИ не является радикальной трансформацией, и он продолжает считать, что имеет дело с каламбуром. Пока большие языковые модели просто неспособны по-настоящему понимать юмор, как резюмируют исследователи.

Фактически, когда ИИ сталкивается с незнакомой игрой слов, выявить наличие каламбура в анализируемой фразе он способен лишь в 20 % случаев. По словам авторов доклада, пока людям следует с осторожностью использовать большие языковые модели в сферах, которые требуют понимания юмора, эмпатии и понимания культурных нюансов. Уверенность в том, что ИИ способен понимать юмор, является не более чем иллюзией.

ИИ облегчит диагностику редких генетических заболеваний — представлена модель PopEVE

Почти десять лет назад система IBM Watson начала применяться для диагностики заболеваний, а по мере распространения искусственного интеллекта в последние годы медицина стала одной из отраслей, демонстрирующих реальную отдачу от внедрения подобных технологий. Новая модель PopEVE специализируется на диагностике редких заболеваний, имеющих генетическое происхождение.

 Источник изображения: Freepik, DC Studio

Источник изображения: Freepik, DC Studio

Подобными заболеваниями страдают лишь некоторые люди, у которых обнаруживаются опасные генные мутации, но в общей сложности их может насчитываться сотни миллионов человек. Традиционные методы диагностики таких заболеваний не всегда дают нужный результат и позволяют подобрать эффективное лечение. Как отмечает Financial Times, группе испанских и американских исследователей удалось сообща разработать ИИ-модель PopEVE, которая позволяет выделять в геноме человека потенциально опасные последовательности, способные вызвать редкие заболевания.

Модель была обучена на массиве данных об эволюционном развитии живых существ, она уже демонстрирует более впечатляющие результаты, чем созданная в Google DeepMind модель AlphaMissense, по некоторым критериям. Данная разработка призвана облегчить задачу докторам, впервые столкнувшимся с аномалиями в здоровье пациента и не понимающим первопричину проблем.

Учёные в процессе своего исследования изучили, как генетические изменения способны влиять на способность организма воспроизводить белки, а именно давать сбои в воспроизведении аминокислот, из которых они формируются. Информация об эволюционном развитии множества видов животных позволила ИИ идентифицировать те генетические изменения, которые потенциально могут быть вредны для человека. Если какие-то изменения отсутствуют в базе данных, они могут быть опасны, поскольку столкнувшиеся с ними живые организмы в результате таких мутаций могли вымереть. Накопленные данные об эволюции животных были откалиброваны с использованием генетических банков данных, чтобы их можно было применять к диагностике состояний человеческого организма.

На выборке из 31 000 семей, чьи дети страдали от серьёзных нарушений развития, модель PopEVE смогла выявить 513 случаев ранее неизвестных мутаций с достоверностью около 98 процентов. Попутно были обнаружены 123 генетические комбинации, которые могут в период активного развития человека взаимодействовать с патогенными белками, но ранее они никогда не связывались учёным сообществом с риском развития заболеваний. Модель PopEVE превзошла в точности диагностики разработку DeepMind не только по критерию предсказания серьёзности заболевания, но и при работе с группами людей, чьи предки не были европейцами.

В своей эксплуатации PopEVE не требует серьёзных затрат электроэнергии, а потому может применяться даже в странах с не самой развитой инфраструктурой. В Сенегале она уже помогла диагностировать мышечную атрофию, которую можно вылечить при помощи инъекций витамина B2. По мнению специалистов, модель PopEVE поможет в диагностике редких генетических заболеваний у тех пациентов, которые не могут предоставить генетический материал своих родителей для анализа.

Google выпустила Nano Banana Pro — «ИИ-фотошоп», который делает 4K-картинки, правит детали и даже меняет освещение

Google представила Nano Banana Pro (Gemini 3 Pro Image) — усовершенствованную модель для создания и редактирования изображений, созданную на базе Gemini 3 Pro. Компания описывает её как инструмент, который «превратит ваши идеи в дизайн студийного качества с беспрецедентным контролем, безупречной визуализацией текста и расширенными знаниями о мире».

 Источник изображений: Google

Источник изображений: Google

Для того, чтобы использовать Nano Banana Pro в Gemini App, нужно выбрать режим «Думающая», который включает Gemini 3 Pro, а затем в инструментах выбрать «создать изображение». Попробовать возможности модели можно бесплатно.

Google заявляет, что Nano Banana Pro поможет создавать насыщенную контекстом инфографику и диаграммы для визуализации информации в режиме реального времени, например, погоды или спортивных событий. А возможность отображать читаемый текст прямо на изображении — будь то короткий слоган или длинный абзац — делает её подходящей для создания плакатов или приглашений на различных языках.

Модель также поддерживает объединение нескольких элементов в единую композицию, используя до 14 изображений и до пяти человек.

Для Nano Banana Pro также заявлены расширенные возможности редактирования. Можно выбрать и локально отредактировать любую часть изображения, настроить ракурсы камеры, добавить эффект боке, изменить фокус, цветовую гамму или изменить освещение с дневного на ночное.

Поддерживаются разрешения до 4K с различными соотношениями сторон.

Изображения, созданные или отредактированные с помощью модели Nano Banana Pro, будут содержать встроенные метаданные C2PA. Это должно упростить обнаружение созданного генеративным ИИ контента или дипфейков в результатах поиска и лентах социальных сетей.

Пользователи бесплатной версии Nano Banana Pro будут ограничены квотой. Для доступа ко всем функциям требуется подписка Google AI Plus, Pro и Ultra. Режим ИИ также доступен в «Google Поиске» в США при наличии подписки на Google AI Pro или Ultra, а также по всему миру — для пользователей ИИ-блокнота NotebookLM.

Учёные отделили память ИИ от его способности рассуждать — и вот что из этого вышло

Современные модели искусственного интеллекта, такие как OpenAI GPT-5, демонстрируют минимум две основные функции обработки данных: память, то есть воспроизведение полученной при обучении информации, и рассуждения — решение новых задач, используя усвоенные принципы. Исследователи из стартапа Goodfire.ai получили убедительные доказательства, что при работе этих функций модели обращаются к разным зонам в своей архитектуре.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Архитектурно функции памяти и рассуждений разделены на удивление чётко: удалив отвечающие за память участки, учёные на 97 % лишили модель способности воспроизводить усвоенные при обучении данные, но оставили за ней возможность логически рассуждать. Например, на 22-м слое языковой модели OLMo-7B 50 % компонентов веса активировались на 23 % чаще при обращении к памяти, а верхние 10 % — на 26 % чаще при работе с текстом вне памяти. Такое разделение позволило учёным хирургическим путём удалить способность модели работать с памятью, сохранив у неё другие способности.

Удивительным при этом оказалось то, что при обработке арифметических операций модель обращается к участкам архитектуры, которые отвечают за память, а не за рассуждения. Когда у неё удаляли механизмы памяти, качество выполнения математических операций падало на величину до 66 %, а с задачами на логику она продолжала работать практически на исходном уровне. Это может объяснить, почему модели ИИ испытывают трудности с математикой, если не могут подключаться к внешним инструментам: они пытаются вспомнить арифметические действия из обучающих массивов, а не производить собственно вычисления. Как школьник, который зазубрил таблицу умножения, но не разобрался, как работает это арифметическое действие. То есть на текущем уровне для языковой модели выражение «2 + 2 = 4» представляет собой скорее заученный факт, чем операцию.

Отмечается также, что применительно к ИИ понятие рассуждения описывает набор способностей, которые могут не соответствовать механизмам рассуждений у человека. Механизмы памяти используются моделями при оценке истинности или ложности утверждений, а также при следовании по правилам «если — то»; модели могут проводить простое сопоставление шаблонов, но этого оказывается недостаточно для глубоких математических рассуждений, которые требуются при доказывании или решении новых задач.

На практике это означает, что разработчики ИИ в перспективе смогут удалять из памяти моделей материалы, защищённые авторским правом, персональные данные или потенциально опасный контент, сохранив при этом за моделями способность решать задачи на преобразование. Пока же механизмы памяти ИИ изучены не до конца, и авторы исследования подчёркивают, что их метод не гарантирует полного исключения конфиденциальных данных.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Чтобы различать механизмы памяти и рассуждений, исследователи Goodfire обратились к понятию «ландшафта потерь» — визуализации ошибочных и верных прогнозов при изменении внутренних настроек, то есть весов моделей. Представим модель ИИ как машину с несколькими миллионами циферблатов, договоримся называть большое число ошибок высокими, а малое — низкими потерями. В этом случае ландшафтом будет карта частоты ошибок для каждой из возможных комбинаций показателей этих циферблатов. Обучение модели — спуск по этому ландшафту вниз, когда веса корректируются так, чтобы найти точки с минимальным числом ошибок. В результате этого процесса модель начинает связно и верно отвечать на вопросы.

Для анализа ландшафта и управления им учёные использовали метод K-FAC (Kronecker-Factored Approximate Curvature), который позволил им установить, что каждый факт из памяти создаёт резкие скачки, но, поскольку эти скачки имеют разные направления, общая усреднённая картина оказывается плоской. Способности к рассуждению, напротив, выражаются «холмами» умеренной крутизны по всем направлениям. Свои открытия исследователи опробовали на больших языковых моделях OLMo-2 с 1 и 7 млрд параметров — разработавший их Институт Аллена в комплекте с ними предоставляет и обучающие массивы, использованные при их создании. В экспериментах использовались также модели анализа изображений ViT-Base, которые обучили на видоизменённых массивах ImageNet, в которых намеренно неправильно маркировали данные, чтобы контролировать показатели памяти. Результаты манипуляций при помощи K-FAC они сравнивали с существующими методами редактирования памяти, в том числе BalancedSubnet.

Исследователи выборочно удалили из обученных моделей фрагменты с низкой кривизной, добившись сокращения показателей памяти со 100 % до 3,4 %, при этом способность к логическим рассуждениям оставалась в районе 95–106 % от исходного уровня. Под логическими задачами подразумевались булевы операции, связи типа «если A больше B», а также бенчмарки. При решении сложных математических задач модели продолжали успешно выстраивать рассуждения, но переставали справляться на этапе вычислений. Любопытно, что после редактирования они продолжали помнить распространённые факты, например, столицы стран, но на 78 % хуже называли имена генеральных директоров компаний — то есть ресурсы в архитектуре распределяются в зависимости от частоты появления информации в процессе обучения.

Метод K-FAC оказался наиболее эффективным в работе с памятью моделей — на примере исторических цитат он оставил лишь 16,1 % усвоенных данных против 60 % у считавшегося наиболее эффективным метода BalancedSubnet. Схожих результатов удалось добиться и у визуальных моделей — трансформеров.

Предложенный учёными метод работает не идеально, подчеркнули они. Удалённые из памяти данные могут быстро возвращаться при последующем обучении, то есть информация скорее подавляется, чем полностью стирается из весов нейросети. Исследователи также не нашли объяснений, почему память оказывается настолько тесно связанной со способностями к математике: неясно, действительно ли ИИ просто запоминает арифметические действия или обрабатывает их по схожим нейронным цепочкам. Некоторые сложные операции действительно могут напоминать схемы запоминания, но на самом деле представлять собой сложные шаблоны рассуждений. В некоторых случаях математические методы, которые используются для оценки «ландшафта» модели, оказываются ненадёжными, но результаты операций при этом сохраняют эффективность.

VK обновила ИИ-модель Diona для генерации текстов

VK представила новую версию собственной модели искусственного интеллекта Diona, предназначенной для создания и редактирования текстов. Её возможности расширились, а потребление вычислительных ресурсов сократилось. В перспективе компания намеревается сделать модель мультимодальной — обучить её также работе с изображениями, звуком и видео.

 Источник изображения: ilgmyzin / unsplash.com

Источник изображения: ilgmyzin / unsplash.com

Обновлённая версия Diona построена на существующей версии модели, первоначально обученной на материалах пользователей, включая их комментарии в открытых группах. Сейчас для обучения использовали также большие объёмы других текстов. Диапазон параметров Diona вырос в 1,5 раза и теперь составляет от 4 млрд до 32 млрд. Стоимость разработки проекта в VK не уточнили, но, по оценкам экспертов, создание подобных моделей обходится от 500 млн до 800 млн руб. «Она открывает новые возможности для внутренних инструментов VK и генеративных функций в продуктах холдинга. Лучше справляется с решением инженерных задач, а также с задачами генерации и суммаризации текстов», — приводит «Коммерсантъ» заявление компании.

Сократить расходы в VK могли, взяв за основу открытую модель ИИ и проведя её дообучение, предполагают опрошенные изданием эксперты. Указанное разработчиком число параметров позволяет отнести Diona к универсальным, а не специализированным моделям в нижнем диапазоне. Такие могут запускаться на потребительских ПК с бытовыми видеокартами — у флагманских число параметров измеряется сотнями миллиардов и доходит до триллиона.

Контекстное окно VK Diona увеличилось в восемь раз и достигло 32 тыс. токенов. Показатель отнюдь не революционный, указывают эксперты, но этого вполне хватит для решения прикладных задач, таких как работа с документами и анализ переписки. В перспективе VK намерена сделать Diona мультимодальной моделью, то есть, помимо текста, обучить её работе с изображениями, звуком и видео — на это, считают эксперты, у компании уйдут два или три года.


window-new
Soft
Hard
Тренды 🔥
10 тысяч модов и 350 миллионов загрузок: Larian похвасталась новыми достижениями игроков Baldur’s Gate 3 6 ч.
Вызывающий привыкание роглайк Ball x Pit достиг миллиона проданных копий и в 2026 году получит новые шары 7 ч.
Соавтор Counter-Strike признался в любви к русской культуре и рассказал о «самом депрессивном» периоде за 25 лет карьеры 9 ч.
Apple резко снизила награды багхантерам — при этом рост вредоносов в macOS бьёт рекорды 9 ч.
Mortal Kombat 1, Routine и Dome Keeper возглавили первую волну декабрьских новинок Game Pass, а Mortal Kombat 11 скоро подписку покинет 10 ч.
Google закрыла 107 дыр в Android — две нулевого дня уже использовались в атаках 10 ч.
В YouTube появился Recap — пользователям расскажут, чем они занимались на платформе в течение года 10 ч.
ИИ-агенты научились взламывать смарт-контракты в блокчейне — это риск на сотни миллионов долларов 10 ч.
Инструмент YouTube для защиты блогеров от дипфейков создал риск утечки их биометрии 11 ч.
В Microsoft Teams появились «иммерсивные встречи» в метавселенной с аватарами без ног 11 ч.