Сегодня 26 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → модель
Быстрый переход

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Учёные уличили ИИ в неспособности строить математические доказательства в олимпиадных задачах USAMO 2025 года

Новое исследование ETH Zurich и INSAIT показало, что современные ИИ-модели, имитирующие рассуждение и уверенно решающие стандартные математические задачи, практически не способны формулировать полные доказательства уровня Математической олимпиады США 2025 года (USAMO). Эти результаты ставят под сомнение возможность глубокого математического рассуждения у современных ИИ-моделей.

 Источник изображения: Imkara Visual / Unsplash

Источник изображения: Imkara Visual / Unsplash

В марте 2025 года исследовательская группа из Швейцарской высшей технической школы Цюриха (ETH Zurich) и Института компьютерных наук, искусственного интеллекта и технологий (INSAIT) при Софийском университете, возглавляемая Иво Петровым (Ivo Petrov) и Мартином Вечевым (Martin Vechev), опубликовала препринт научной статьи под названием «Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad» (рус. — Доказательство или блеф? Оценка больших языковых моделей на Математической олимпиаде США 2025 года). Работа направлена на оценку способности больших языковых моделей (LLMs), имитирующих рассуждение, генерировать полные математические доказательства на олимпиадных задачах.

Для анализа были использованы шесть задач с USAMO 2025 года, организованного Математической ассоциацией Америки. ИИ-модели тестировались сразу после публикации заданий для минимизации риска утечки данных в обучающие выборки. Средняя результативность по всем ИИ-моделям при генерации полных доказательств составила менее 5 % от максимально возможных баллов. Системы оценивались по шкале от 0 до 7 баллов за задачу с учётом частичных зачётов, выставляемых экспертами. Лишь одна модель — Gemini 2.5 Pro компании Google — показала заметно лучший результат, набрав 10,1 балла из 42 возможных, что эквивалентно примерно 24 %. Остальные модели существенно отставали: DeepSeek R1 и Grok 3 получили по 2,0 балла, Gemini Flash Thinking — 1,8 балла, Claude 3.7 Sonnet — 1,5 балла, Qwen QwQ и OpenAI o1-pro — по 1,2 балла. ИИ-модель o3-mini-high компании OpenAI набрала всего 0,9 балла. Из почти 200 сгенерированных решений ни одно не было оценено на максимальный балл.

Исследование подчёркивает фундаментальное различие между решением задач и построением математических доказательств. Стандартные задачи, такие как вычисление значения выражения или нахождение переменной, требуют лишь конечного правильного ответа. В отличие от них, доказательства требуют последовательной логической аргументации, объясняющей истинность утверждения для всех возможных случаев. Это качественное различие делает задачи уровня USAMO значительно более требовательными к глубине рассуждения.

 Скриншот задачи №1 USAMO 2025 года и её решения на сайте AoPSOnline. Источник изображения: AoPSOnline

Скриншот задачи №1 USAMO 2025 года и её решения на сайте AoPSOnline. Источник изображения: AoPSOnline

Авторы исследования выявили характерные модели ошибок в работе ИИ. Одной из них стала неспособность поддерживать корректные логические связи на протяжении всей цепочки вывода. На примере задачи №5 USAMO 2025 года ИИ-модели должны были найти все натуральные значения k, при которых определённая сумма биномиальных коэффициентов в степени k остаётся целым числом при любом положительном n. Модель Qwen QwQ допустила грубую ошибку, исключив возможные нецелые значения, разрешённые условиями задачи, что привело к неправильному окончательному выводу, несмотря на правильное определение условий на промежуточных этапах.

Характерной особенностью поведения моделей стало то, что даже в случае серьёзных логических ошибок они формулировали свои решения в утвердительной форме, без каких-либо признаков сомнения или указаний на возможные противоречия. Это свойство имитации рассуждения указывает на отсутствие у ИИ-моделей механизмов внутренней самопроверки и коррекции вывода.

Авторы отметили также влияние особенностей обучения на качество решений. Тестируемые ИИ-модели демонстрировали артефакты оптимизационных стратегий, применяемых при подготовке к стандартным бенчмаркам: например, принудительное форматирование ответов с использованием команды \boxed{}, предназначенное для удобства автоматизированной проверки. Эти шаблонные подходы приводили к ошибкам в контексте задач, где требовалось развёрнутое доказательство, а не только числовой ответ.

 Показатели точности ИИ-моделей на каждой задаче USAMO 2025 года. Источник изображения: MathArena

Показатели точности ИИ-моделей на каждой задаче USAMO 2025 года. Источник изображения: MathArena

Несмотря на выявленные ограничения, внедрение методов цепочки размышлений и имитации рассуждения положительно сказались на формировании промежуточных логических шагов в процессе вывода ИИ-моделей. Механизм масштабирования вычислений на этапе вывода позволяет ИИ строить более связные локальные рассуждения. Однако фундаментальная проблема остаётся: современные большие языковые модели (LLM) на архитектуре «Трансформер» (Transformer) продолжают работать как системы распознавания паттернов, а не как самостоятельные системы концептуального рассуждения.

Более высокие результаты модели Gemini 2.5 Pro свидетельствуют о потенциальной возможности сокращения разрыва между симулированным и реальным рассуждением в будущем. Однако для достижения качественного прогресса необходимо обучение ИИ-моделей более глубоким многомерным связям в латентном пространстве и освоение принципов построения новых логических структур, а не только копирование существующих шаблонов из обучающих выборок.

Microsoft применила генеративный ИИ в рекламе, но этого никто не заметил

Microsoft опубликовала минутный рекламный ролик, частично созданный с помощью генеративного ИИ в январе этого года. Однако лишь спустя почти три месяца компания раскрыла факт использования ИИ при его создании.

 Источник изображения: Microsoft

Источник изображения: Microsoft

В блоге Microsoft Design старший менеджер по коммуникациям в области дизайна Джей Тан (Jay Tan) отметил, что в процессе генерации видео возникали типичные «галлюцинации» ИИ, что потребовало корректировки отдельных фрагментов и их интеграции с отснятым материалом. При выборе сцен для генерации команда пришла к выводу, что кадры со сложной моторикой, например крупные планы рук, печатающих на клавиатуре, необходимо снимать вживую. В то же время короткие или статичные эпизоды были признаны подходящими для создания средствами ИИ.

Компания Microsoft не уточнила, какие конкретно кадры были сгенерированы с помощью ИИ, однако Тан подробно описал производственный процесс. Сначала команда использовала ИИ для создания сценария, раскадровок и презентационного материала. С помощью текстовых запросов и образцов изображений формировались подсказки, которые затем передавались в генератор изображений. Полученные изображения редактировались и загружались в видеогенераторы Hailuo и Kling. Прочие инструменты не были названы.

По словам креативного директора Циско Маккарти (Cisco McCarthy), команда сформулировала тысячи различных подсказок, поэтапно уточняя результат. Он подчеркнул: «На самом деле никогда не бывает единственной и неповторимой подсказки», — поэтому достичь требуемого качества удалось лишь путём постоянной доработки. Визуальный дизайнер Брайан Таунсенд (Brian Townsend) добавил, что благодаря такому подходу удалось сократить до 90 % времени и затрат, которые обычно требуются при традиционном производстве видеоконтента.

Подход Microsoft отражает позицию руководителя дизайнерского направления компании Джона Фридмана (Jon Friedman), который ранее заявил, что ИИ становится одним из инструментов в арсенале специалистов творческих профессий, а не заменяет их. По его словам, задача дизайнера сегодня заключается не только в создании, но и в редактировании, что приобретает всё большее значение.

После того как Microsoft раскрыла факт применения ИИ в производстве ролика, стали заметны характерные признаки ИИ-генерации: чрезмерно большая стеклянная банка, надписи, выполненные не от руки, а также общее визуальное оформление с типичным цифровым блеском. Однако без знания об участии ИИ зрители не обращали внимания на эти детали в течение нескольких месяцев. Монтаж с частыми склейками эффективно нивелировал визуальные артефакты, возникающие при использовании ИИ.

«Нельзя дважды лизнуть барсука»: Google AI Overviews наделил смыслом абсурдные идиомы и вымышленные фразеологизмы

Функция AI Overviews, встроенная в поисковую систему Google и использующая генеративный ИИ (GenAI) для кратких ответов на запросы, уверенно интерпретирует вымышленные идиомы. Пользователи обнаружили, что достаточно ввести произвольную фразу и добавить слово «meaning» (англ. — значение), чтобы получить уверенное объяснение смысла этой фразы, независимо от её реальности. Система при этом не только интерпретирует бессмысленные конструкции как устойчивые выражения, но и указывает предполагаемое происхождение, иногда даже снабжая ответ гиперссылками, усиливающими эффект достоверности.

 Источник изображения: Shutter Speed / Unsplash

Источник изображения: Shutter Speed / Unsplash

В результате в интернете начали появляться примеры очевидных вымыслов, обработанных AI Overviews как подлинные фразеологизмы. Так, фраза «a loose dog won’t surf» (англ. — свободная собака не будет сёрфить) была истолкована как «шутливый способ выразить сомнение в осуществимости какого-либо события». Конструкция «wired is as wired does» (англ. — проводной — это то, что делают провода) ИИ объяснил как высказывание о том, что поведение человека определяется его природой, подобно тому как функции компьютера зависят от его схем. Даже фраза «never throw a poodle at a pig» (англ. — никогда не бросайте пуделя на свинью) была описана как пословица с библейским происхождением. Все эти объяснения звучали правдоподобно и были изложены AI Overviews с полной уверенностью.

На странице AI Overviews внизу размещено уведомление о том, что в её основе используется «экспериментальный» генеративный ИИ. Такие ИИ-модели представляют собой вероятностные алгоритмы, в которых каждое последующее слово выбирается на основе максимально возможной предсказуемости, опираясь на данные обучения. Это позволяет создавать связные тексты, но не гарантирует фактологическую точность. Именно поэтому система оказывается способной логично объяснить, что могла бы означать фраза, даже если она лишена реального смысла. Однако это свойство приводит к созданию правдоподобных, но полностью вымышленных интерпретаций.

Как пояснил Цзян Сяо (Ziang Xiao), специалист в области компьютерных наук из Университета Джонса Хопкинса (JHU), предсказание слов в таких ИИ-моделях строится исключительно на статистике. Однако даже логически уместное слово не гарантирует достоверности ответа. Кроме того, генеративные ИИ-модели, по данным научных наблюдений, склонны угождать пользователю, адаптируя ответы к предполагаемым ожиданиям. Если система «видит» в запросе указание на то, что фраза вроде «you can’t lick a badger twice» (англ. — нельзя дважды лизнуть барсука) должна быть осмысленной, она интерпретирует её как таковую. Это поведение наблюдалось в исследовании под руководством Сяо в прошлом году.

Сяо подчёркивает, что такие сбои особенно вероятны в контекстах, где информации в обучающих данных недостаточно — это касается редких тем и языков с ограниченным числом текстов. Кроме того, ошибка может быть усилена каскадным распространением, поскольку поисковая система представляет собой сложный многоуровневый механизм. При этом ИИ редко признаёт своё незнание, поэтому, если ИИ сталкивается с ложной предпосылкой, он с высокой вероятностью выдаёт вымышленный, но правдоподобно звучащий ответ.

Представитель Google Мэганн Фарнсворт (Meghann Farnsworth) объяснила, что при поиске, основанном на абсурдных или несостоятельных предпосылках, система старается найти наиболее релевантный контент на основе ограниченных доступных данных. Это справедливо как для традиционного поиска, так и для AI Overviews, которая может активироваться в попытке предоставить полезный контекст. Тем не менее AI Overviews не срабатывает по каждому запросу. Как отметил когнитивист Гэри Маркус (Gary Marcus), система даёт непоследовательные результаты, поскольку GenAI зависит от конкретных примеров в обучающих выборках и не склоннен к абстрактному мышлению.

Нашумевший ИИ-бот DeepSeek будет интегрирован в некоторые автомобили BMW

Немецкий автопроизводитель BMW планирует начать внедрение ИИ, разработанного китайским стартапом DeepSeek, в новые модели автомобилей, предназначенные для китайского рынка, начиная с конца текущего года.

 Источник изображения: Thai Nguyen / Unsplash

Источник изображения: Thai Nguyen / Unsplash

Об этом сообщил генеральный директор компании, Оливер Ципсе (Oliver Zipse), в ходе автосалона в Шанхае: «Ключевые достижения в области искусственного интеллекта происходят сегодня именно здесь. Мы укрепляем партнёрские связи в сфере ИИ с целью интеграции этих технологий в наши автомобили, выпускаемые для Китая. Начиная с конца этого года, мы начнём внедрение искусственного интеллекта DeepSeek в новые автомобили, предназначенные для китайского рынка».

Grok научился «видеть» окружающий мир

ИИ-чат-бот Grok компании xAI научился распознавать объекты и отвечать на вопросы о том, что находится в поле зрения камеры смартфона. Эта функция аналогична возможностям визуального восприятия в реальном времени, уже реализованным в Google Gemini и ChatGPT.

 Источник изображения: Mariia Shalabaieva / Unsplash

Источник изображения: Mariia Shalabaieva / Unsplash

Во вторник компания xAI объявила о запуске Grok Vision — технологии, позволяющей пользователям направлять камеру телефона на различные объекты (например, на товары, вывески или документы) и задавать по ним вопросы. В настоящий момент функция Grok Vision доступна только в приложении Grok для iOS. Версия для Android пока не поддерживает эту возможность.

Кроме того, стали доступны новые функции Grok — многоязычный поиск в режиме реального времени с использованием голосового управления. Пользователи Grok на устройствах с Android могут воспользоваться этими возможностями, однако только при условии оформления подписки SuperGrok, стоимостью $30 в месяц.

Grok регулярно получает обновления и новые функции. Так, в начале апреля компания xAI внедрила так называемую функцию «памяти», которая позволяет ИИ-чат-боту использовать информацию из предыдущих диалогов с пользователем.

В Microsoft разработали сверхэффективную ИИ-модель, которая запускается на CPU

Исследователи из Microsoft сообщили о разработке самой масштабной однобитной модели искусственного интеллекта — такой архитектурный подход называется «битнет». Модель BitNet b1.58 2B4T выложена в открытый доступ по лицензии MIT, и для её работы достаточно центрального процессора, в том числе Apple M2.

Системы «битнет» — это сжатые модели, предназначенные для запуска на оборудовании невысокой производительности. В случае стандартных моделей веса — значения, которые определяют её внутреннюю структуру, — зачастую квантуются. При квантизации уменьшается количество битов, необходимых для представления весов, а модели получают возможность быстрее работать на системах с меньшим объёмом памяти. Битнет предполагает квантование веса в три значения: «-1», «0» и «1», то есть в теории такие модели оказываются значительно эффективнее с точки зрения памяти и вычислительных ресурсов, чем большинство современных систем ИИ.

BitNet b1.58 2B4T, утверждают в Microsoft, — это первая модель на основе данной архитектуры, у которой 2 млрд параметров, причём параметры в значительной степени — то же, что веса. Она была обучена на массиве данных в 4 трлн токенов, что, по оценкам, эквивалентно примерно 33 млн книг. BitNet b1.58 2B4T не уступает аналогичным моделям того же размера: она превзошла Meta Llama 3.2 1B, Google Gemma 3 1B и Alibaba Qwen 2.5 1.5B в тестах GSM8K (математика уровня начальной школы) и PIQA (оценка здравого смысла). При этом модель в некоторых случаях работает вдвое быстрее аналогов и использует меньше памяти.

Но есть один нюанс: для достижения максимальной производительности модели необходим разработанный Microsoft фреймворк bitnet.cpp, который поддерживает лишь определённое оборудование. В списке поддерживаемых чипов отсутствуют графические процессоры, без которых современная отрасль ИИ немыслима. Таким образом, архитектурный подход «битнет» представляется перспективным направлением, но препятствием пока является аппаратная совместимость.

Начинающие разработчики ИИ-приложений привлекли рекордные $8,2 млрд инвестиций за прошлый год

Несколько стартапов в сфере ИИ, разрабатывающих прикладные решения на основе больших языковых моделей (LLM), стремительно наращивают объёмы продаж и инициируют новую гонку за коммерческое освоение передовых технологий. Их быстрый рост привлёк внимание инвесторов, готовых вложить сотни миллионов долларов в развитие потребительских ИИ-продуктов.

 Источник изображения: Alex Shuper / Unsplash

Источник изображения: Alex Shuper / Unsplash

Инвесторы делают ставку на такие компании, как Cursor, Perplexity, Synthesia и ElevenLabs. Эти стартапы создают приложения на основе мощных генеративных ИИ-моделей (GenAI), предоставляемых OpenAI, Google и Anthropic. Они способствуют более широкому внедрению быстро развивающихся технологий как в потребительской, так и в корпоративной среде.

По данным аналитической платформы Dealroom.co, в 2024 году объём финансирования стартапов, разрабатывающих приложения на основе ИИ, составил $8,2 млрд, что на 110 % больше, чем в 2023 году. Этот инвестиционный ажиотаж свидетельствует о высоком интересе к разработчикам ИИ-инструментов, способным привлекать сотни миллионов долларов на фоне стремительного роста спроса.

Стартап Perplexity, разработавший поисковую систему на базе ИИ, привлёк в декабре $500 млн в рамках своего четвёртого раунда финансирования за год, утроив оценку компании до $9 млрд. По данным источников, в настоящее время компания ведёт переговоры о новом раунде инвестиций по существенно более высокой оценке. В то же время стартап Harvey, разрабатывающий ИИ-решения для юридической сферы, привлёк $300 млн в феврале.

Стартапы, создающие приложения для разработчиков программного обеспечения (ПО), также вызвали повышенный интерес со стороны инвесторов. Компании, такие как Reflection AI, Poolside, Magic и Codeium, собрали сотни миллионов долларов в 2024 году на развитие технологий, направленных на повышение производительности программистов. В январе компания Anysphere — разработчик инструмента автоматизации программирования Cursor — привлекла $105 млн при оценке $2,5 млрд. По словам источников, инвесторы проявляют интерес к компании при оценке в $10 млрд и выше. Трёхлетний стартап уже достиг годовой регулярной выручки на уровне $200 млн.

 Источник изображения: Dealroom.co and Flashpoint

Источник изображения: Dealroom.co and Flashpoint

ИИ-стартапы также получили выгоду от усилившейся конкуренции на рынке LLM, которая привела к снижению стоимости обработки запросов и генерации ответов с использованием ИИ. Это позволило использовать инфраструктуру LLM без необходимости создания собственных дорогостоящих ИИ-моделей, что ускорило вывод продуктов на рынок.

Брет Тейлор (Bret Taylor), председатель совета директоров OpenAI и сооснователь стартапа Sierra, отметил, что компания за короткое время сменила используемые ИИ-модели не менее пяти-шести раз в связи с высокой скоростью развития отрасли. Стартап Sierra, разрабатывающий агентов поддержки клиентов на базе ИИ, был основан в феврале 2024 года и достиг оценки в $4,5 млрд уже в октябре того же года. По его словам, использование ИИ-модели двухлетней давности сегодня сравнимо с поездкой на автомобиле 1950-х годов — настолько стремительно устаревают технологии.

Согласно анализу данных о платежах от финтех-компании Stripe, крупнейшие ИИ-компании достигают объёмов продаж в миллионы долларов уже в течение первого года своей деятельности. Это происходит значительно быстрее, чем в случае стартапов из других технологических отраслей, и свидетельствует о высокой способности прикладного ИИ к быстрому формированию устойчивых бизнес-моделей.

Однако пока сложно оценить, насколько надёжна клиентская база ИИ-стартапов и насколько устойчивыми окажутся их текущие доходы. На фоне всеобщего интереса к ИИ ранние пользователи приходят быстро, что может искажать показатели роста, не гарантируя долгосрочной подписки. Некоторые инвесторы избегают участия в гонке за наиболее популярные приложения, опасаясь, что даже лучшие из них представляют собой лишь сервисные «обёртки» над существующими ИИ-моделями.

Существует риск, что такие стартапы будут вытеснены в случае, если более крупная компания с широкой пользовательской базой решит воспроизвести их функциональность. Ханна Сил (Hannah Seal), партнёр венчурной компании Index Ventures, инвестировавшая в юридического ИИ-ассистента Wordsmith, подчёркивает, что многие из этих ИИ-стартапов ещё не прошли ни одного полного годового цикла продления подписки. Поэтому уровень оттока клиентов остаётся неизвестным и может существенно повлиять на дальнейшую динамику развития.

Сфера ИИ заинтересовалась малыми языковыми моделями — они дешевле и эффективнее больших в конкретных задачах

На рынке ИИ сейчас наблюдается тренд на использование малых языковых моделей (SLM), которые имеют меньше параметров, чем большие языковые модели (LLM), и лучше подходят для более узкого круга задач, пишет журнал Wired.

 Источник изображения: Luke Jones/unsplash.com

Источник изображения: Luke Jones/unsplash.com

Новейшие версии LLM компаний OpenAI, Meta и DeepSeek имеют сотни миллиардов параметров, благодаря чему могут лучше определять закономерности и связи, что делает их более мощными и точными. Однако их обучение и использование требуют огромных вычислительных и финансовых ресурсов. Например, обучение модели Gemini 1.0 Ultra обошлось Google в 191 миллион долларов. По данным Института исследований электроэнергетики, выполнение одного запроса в ChatGPT требует примерно в 10 раз больше энергии, чем один поиск в Google.

IBM, Google, Microsoft и OpenAI недавно выпустили SLM, имеющие всего несколько миллиардов параметров. Их нельзя использовать в качестве универсальных инструментов, как LLM, но они отлично справляются с более узко определёнными задачами, такими как подведение итогов разговоров, ответы на вопросы пациентов в качестве чат-бота по вопросам здравоохранения и сбор данных на интеллектуальных устройствах. «Они также могут работать на ноутбуке или мобильном телефоне, а не в огромном ЦОД», — отметил Зико Колтер (Zico Kolter), учёный-компьютерщик из Университета Карнеги — Меллона.

Для обучения малых моделей исследователи используют несколько методов, например дистилляцию знаний, при которой LLM генерирует высококачественный набор данных, передавая знания SLM, как учитель даёт уроки ученику. Также малые модели создаются из больших путём «обрезки» — удаления ненужных или неэффективных частей нейронной сети.

Поскольку у SLM меньше параметров, чем у больших моделей, их рассуждения могут быть более прозрачными. Небольшая целевая модель будет работать так же хорошо, как большая, при выполнении конкретных задач, но её будет проще разрабатывать и обучать. «Эти эффективные модели могут сэкономить деньги, время и вычислительные ресурсы», — сообщил Лешем Чошен (Leshem Choshen), научный сотрудник лаборатории искусственного интеллекта MIT-IBM Watson.

Google представила рассуждающую ИИ-модель Gemini 2.5 Flash с высокой производительностью и эффективностью

Google выпустила новую ИИ-модель, призванную обеспечить высокую производительность с упором на эффективность. Она называется Gemini 2.5 Flash и вскоре станет доступна в составе платформы Vertex AI облака Google Cloud для развёртывания и управления моделями искусственного интеллекта (ИИ).

 Источник изображения: Google

Источник изображения: Google

Компания отмечает, что Gemini 2.5 Flash предлагает «динамические и контролируемые» вычисления, позволяя разработчикам регулировать время обработки запроса в зависимости от их сложности.

«Вы можете настроить скорость, точность и баланс затрат для ваших конкретных нужд. Эта гибкость является ключом к оптимизации производительности Flash в высоконагруженных и чувствительных к затратам приложениях», — написала компания в своём официальном блоге.

На фоне растущей стоимости использования флагманских ИИ-моделей Gemini 2.5 Flash может оказаться крайней полезной. Более дешёвые и производительные модели, такие как 2.5 Flash, представляют собой привлекательную альтернативу дорогостоящим флагманским вариантам, но ценой потери некоторой точности.

Gemini 2.5 Flash — это «рассуждающая» модель по типу o3-mini от OpenAI и R1 от DeepSeek. Это означает, что для проверки фактов ей требуется немного больше времени, чтобы ответить на запросы. Google утверждает, что 2.5 Flash идеально подходит для работы с большими объёмами данных и использования в реальном времени, в частности, для таких задач, как обслуживание клиентов и анализ документов.

«Эта рабочая модель оптимизирована специально для низкой задержки и снижения затрат. Это идеальный движок для отзывчивых виртуальных помощников и инструментов резюмирования в реальном времени, где эффективность при масштабировании является ключевым фактором», — описывает новую ИИ-модель компания.

Google не опубликовала отчёт по безопасности или техническим характеристикам для Gemini 2.5 Flash, что усложнило задачу определения её преимуществ и недостатков. Ранее компания говорила, что не публикует отчёты для моделей, которые она считает экспериментальными.

Google также объявила, что с третьего квартала планирует интегрировать модели Gemini, такие как 2.5 Flash в локальные среды. Они будут доступны в Google Distributed Cloud (GDC), локальном решении Google для клиентов со строгими требованиями к управлению данными. В компании добавили, что работают с Nvidia над установкой Gemini на совместимые с GDC системы Nvidia Blackwell, которые клиенты смогут приобрести через Google или по своим каналам.

В Китае квантовый компьютер впервые применили для точной настройки ИИ

Китайские учёные первыми в мире использовали квантовый компьютер для точной настройки искусственного интеллекта — большой языковой модели с одним миллиардом параметров. Это стало первым использованием квантовой платформы, имеющим практическую ценность. В этом проявил себя компьютер Wukong китайской компании Origin, основанный на 72 сверхпроводящих кубитах.

 Источник изображения: Origin

Источник изображения: Origin

Система Wukong относится к третьему поколению квантовых компьютеров Origin. В январе 2024 года к ней был открыт облачный доступ со всего мира. Как признаются разработчики, поток учёных возглавили исследователи из США, несмотря на то что китайским учёным доступ к аналогичным ресурсам западных партнёров по-прежнему закрыт.

«Это первый случай, когда настоящий квантовый компьютер был использован для точной настройки большой языковой модели в практических условиях. Это демонстрирует, что современное квантовое оборудование может начать поддерживать задачи обучения ИИ в реальном мире», — сказал Чэнь Чжаоюнь (Chen Zhaoyun), исследователь из Института искусственного интеллекта при Национальном научном центре в Хэфэе.

По словам учёных, система Origin Wukong на 8,4 % улучшила результаты обучения ИИ при одновременном сокращении количества параметров на 76 %. Обычно для решения подобных задач — специализации ИИ общего назначения — используются суперкомпьютеры, что требует значительных вычислительных и энергетических ресурсов. Квантовый вычислитель, использующий принцип квантовой суперпозиции — множества вероятностных состояний вместо двух классических (0 и 1), способен экспоненциально ускорить расчёты при относительно скромных затратах ресурсов.

В частности, учёные продемонстрировали преимущества точной настройки большой языковой модели с помощью квантовой системы для диагностики психических расстройств (число ошибок снижено на 15 %), а также при решении математических задач, где точность выросла с 68 % до 82 %.

Для запуска алгоритмов обучения ИИ на квантовой платформе исследователи разработали то, что назвали «квантово-взвешенной тензорной гибридной настройкой параметров». Весовые значения обрабатывала квантовая платформа, в то время как классическая часть готовила большую языковую модель. Благодаря суперпозиции и эффекту квантовой запутанности платформа Origin Wukong смогла одновременно обрабатывать огромное количество комбинаций параметров, что ускорило специализацию модели.

Alibaba обновила ассортимент ИИ-моделей Qwen для пользователей по всему миру

Облачное подразделение Alibaba Group Holding обновило ассортимент доступных вне Китая продуктов на основе искусственного интеллекта в стремлении привлечь новых клиентов из стран по всему миру.

 Источник изображения: alibabagroup.com

Источник изображения: alibabagroup.com

Alibaba Cloud расширило возможности PaaS (платформы как услуги) и усилила линейку ИИ-продуктов новыми предложениями: большой языковой моделью Qwen-Max и рассуждающей QwQ-Plus, похожей на DeepSeek R1. Расширение присутствия в Сингапуре свидетельствует, что Alibaba наращивает кампанию по привлечению пользователей и разработчиков ИИ как внутри Китая, так и за его пределами.

С момента выхода DeepSeek в январе китайский гигант в области электронной коммерции и облачных вычислений ускорил циклы разработки и выпуска ИИ-продуктов. В их число вошли, в частности, инструменты бизнес-аналитики для разработчиков, работа с которыми для частных лиц стоит всего $1 в год. DeepSeek заставила всю китайскую отрасль ИИ наводнить рынок недорогими, а то и вовсе бесплатными сервисами.

Уже в апреле Alibaba намеревается выпустить ещё одно крупное обновление — флагманскую модель Qwen 3. Ранее компания представила новую версию ИИ-помощника Quark AI, включающую возможности чат-бота, функции рассуждений и выполнения задач. Помимо облачных сервисов, направленных на привлечение разработчиков приложений с ИИ на свою платформу, компания представила новый набор продуктов класса SaaS (ПО как услуга). В их число вошли средство анализа документов AI Doc и Smart Studio — инструмент для создания контента с помощью генеративного ИИ.

Мощнейшая ИИ-модель OpenAI o3 тратит до $30 000 на решение одной задачи

В декабре OpenAI представила рассуждающую модель искусственного интеллекта o3 и продемонстрировала результаты бенчмарка ARC-AGI — самого сложного теста для оценки возможностей ИИ. Теперь результаты теста пришлось пересмотреть, и выглядят они менее впечатляющими: модель оказалась слишком дорогой в обслуживании.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

На минувшей неделе организация Arc Prize Foundation, ответственная за ARC-AGI, обновила свою оценку затрат на вычисления для OpenAI o3. Первоначально считалось, что её наиболее мощная конфигурация o3 high требует расходов в размере около $3000 на решение одной задачи ARC-AGI. Теперь же было установлено, что стоимость обслуживания намного выше — она, возможно, достигает $30 000 за задачу. Это иллюстрирует, насколько дорогими могут оказаться самые сложные современные модели ИИ в определённых задачах, по крайней мере, на начальном этапе. Цену на o3 компания OpenAI ещё не установила, и в общий доступ модель не поступила, но в Arc Prize Foundation предположили, что можно ориентироваться на показатели OpenAI o1-pro.

«Считаем, что o1-pro является более близким сравнением [для определения] истинной стоимости o3 <..> из-за объёма используемых во время тестирования вычислений. Но это не точная оценка, и мы оставили для o3 пометку о предварительной версии в нашей таблице лидеров, чтобы отразить неопределённость, пока не объявлена официальная цена», — рассказали в Arc Prize Foundation ресурсу TechCrunch. Известно, что при решении одной задачи o3 high использовала в 172 раза больше вычислительных ресурсов в ARC-AGI, чем o3 low — наиболее слабая модель в линейке.

Ранее стало известно, что тарифные планы на передовые системы OpenAI могут оказаться чрезвычайно дорогостоящими — до $20 000 в месяц за работу специализированных агентов ИИ. При этом моделям свойственно ошибаться: той же o3 high потребовалось 1024 попытки для решения каждой задачи теста ARC-AGI, чтобы показать лучший результат.

Meta✴ лишилась главы фундаментальных ИИ-исследований

Вице-президент Meta по исследованиям в области ИИ Джоэль Пино (Joelle Pineau) объявила о своём уходе из компании. Её последний рабочий день в Meta назначен на 30 мая 2025 года. Отставка происходит на фоне активной инвестиционной стратегии компании в сфере ИИ, направленной на опережение OpenAI и Google.

О своём уходе Пино сообщила в публикации на LinkedIn, где подтвердила, что покинет Meta. Она занимала должность вице-президента компании по исследованиям в области ИИ и с 2023 года возглавляла подразделение Fundamental AI Research (FAIR). FAIR занимается фундаментальными разработками в области ИИ, часть которых впоследствии внедряется в ключевые цифровые продукты Meta.

Уход Пино совпал с этапом технологического переосмысления внутри компании. Генеральный директор Meta Марк Цукерберг (Mark Zuckerberg) обозначил ИИ как приоритетное направление и инвестировал в него многомиллиардные ресурсы. Согласно его заявлениям, Meta стремится к созданию ИИ-ассистента, которым будут пользоваться более одного миллиарда человек, а также к разработке так называемого сильного ИИ (Artificial General Intelligence — AGI), то есть ИИ-систем, способных мыслить и действовать на уровне человека.

В своём заявлении Пино указала, что на фоне глобальных изменений и ускоряющейся гонки в сфере ИИ она считает целесообразным «освободить пространство для других». Она добавила, что будет наблюдать за дальнейшим развитием событий «со стороны», зная, что у команды Meta есть всё необходимое для построения эффективных и этически устойчивых ИИ-систем, способных интегрироваться в повседневную жизнь миллиардов людей.

Пино присоединилась к Meta в 2017 году для руководства лабораторией по исследованиям в области ИИ в Монреале. Она также занимает должность профессора информатики в Университете Макгилла (McGill University), где является содиректором лаборатории по обучению и логическому выводу. Среди проектов, курируемых Пино, — семейство открытых языковых моделей LLaMA, а также PyTorch — фреймворк машинного обучения для языка Python для разработчиков ИИ. Разработки под её руководством охватывали передовые направления в области компьютерных наук и впоследствии использовались в технологических решениях Meta.

Объявление Пино прозвучало за несколько недель до проведения ежегодной конференции LlamaCon, которая состоится 29 апреля. Ожидается, что на мероприятии Meta представит очередную версию большой языковой модели LLaMA. Главный директор по продуктам компании Крис Кокс (Chris Cox) заявил, что LLaMA 4 станет основой для ИИ-агентов нового поколения. По информации издания CNBC, компания также планирует выпустить отдельное приложение для чат-бота Meta AI. На фоне этих разработок отставка Пино приобретает особое значение, учитывая её ключевую роль в формировании научного направления FAIR.

OpenAI пообещала выпустить открытую рассуждающую ИИ-модель в ближайшие месяцы

«В ближайшие месяцы» OpenAI намерена выпустить открытую большую языковую модель искусственного интеллекта — она станет первой со времён GPT-2. Об этом говорится на специальной странице на сайте компании; здесь же размещена форма, которую предлагается заполнить «разработчикам, исследователям и всему сообществу».

 Источник изображения: Growtika / unsplash.com

Источник изображения: Growtika / unsplash.com

«Мы рады сотрудничеству с разработчиками, исследователями и сообществом, чтобы собрать мнения и сделать эту модель максимально полезной. Если вы заинтересованы дать обратную связь команде OpenAI, сообщите нам об этом [через форму] ниже», — говорится на сайте OpenAI. Дополнительно собрать отзывы и показать прототипы модели компания хочет на мероприятиях, которые проведёт сама. Первое через несколько недель пройдёт в Сан-Франциско, за ним последуют встречи в Европе и Азиатско-Тихоокеанском регионе.

OpenAI приходится всё активнее отбивать атаки конкурентов, в том числе китайской DeepSeek, которые выпускают открытые модели ИИ. Конкуренты позволяют сообществу использовать эти системы как для экспериментов, так и в коммерческих целях. Значительные средства в разработку моделей семейства Llama вложила Meta — в марте эти модели набрали более 1 млрд загрузок. Большую базу пользователей быстро собрала DeepSeek.

«[Лично я считаю,] нам нужно выработать другую стратегию в отношении открытого исходного кода. Эту точку зрения в OpenAI разделяют не все, и сейчас это нашим приоритетом не является. [В будущем] мы станем выпускать лучшие модели, но наше лидерство станет меньшим, чем в предыдущие годы», — рассказал ранее глава OpenAI Сэм Альтман (Sam Altman).

Новая открытая модель будет поддерживать функцию рассуждений, добавил он накануне в соцсети X. Компания проведёт все стандартные проверки, как перед выпуском коммерческих моделей, и ряд дополнительных, учитывая, что после выпуска пользователи начнут её дорабатывать самостоятельно. Развёртывать её будут крупные компании и правительственные учреждения, считает господин Альтман.


window-new
Soft
Hard
Тренды 🔥
Уязвимость EntrySign в Ryzen 9000 наконец-то будет закрыта — свежие версии BIOS получили заплатку 3 ч.
«Леста Игры» обжаловала решение суда, остановившее весь её бизнес 4 ч.
Электронную подпись через «Госключ» получили более 20 млн россиян 7 ч.
Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry 8 ч.
Учёные уличили ИИ в неспособности строить математические доказательства в олимпиадных задачах USAMO 2025 года 8 ч.
«Клянусь Азурой!»: за три дня в The Elder Scrolls IV: Oblivion Remastered сыграло более 4 миллионов человек 9 ч.
ИИ-помощник Google Gemini появится в автомобилях, умных часах и наушниках 10 ч.
ФБР объявило награду $10 млн за данные о хакерах Salt Typhoon 10 ч.
Прокуратура США усомнилась в праве «Википедии» на налоговые льготы из-за иностранного вмешательства 10 ч.
Холдинг xAI Илона Маска готовится привлечь $20 млрд в свой капитал 15 ч.
Nintendo Switch 2 предрекли крупнейший консольный запуск в истории 3 ч.
«Невозможно работать»: производители периферии отказываются от экспорта в США 3 ч.
Представлен смартфон Realme 14T с процессором Dimensity 6300 и ёмкой батареей 3 ч.
На МКС подселили искусственный интеллект — он будет помогать космонавтам советами 4 ч.
Европейцы успешно испытали новый ракетный двигатель для ракет-носителей Ariane 6 и Vega 4 ч.
Портативная консоль Figment объединила книги и генерацию сюжетов с помощью ИИ 4 ч.
Alphabet в полтора раза нарастил квартальную прибыль и подтвердил планы потратить $75 млрд на ИИ-инфраструктуру 7 ч.
Марсоход Curiosity впервые сфотографировали с орбиты во время передвижения по Красной планете 8 ч.
Общественники уличили xAI Илона Маска во лжи — её мощнейший ИИ-суперкомпьютер тайно вредит экологии 10 ч.
В процессорах Nova Lake будет больше кристаллов Intel, чем в Panther Lake 13 ч.