Сегодня 30 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → нейросеть
Быстрый переход

Alibaba представила ИИ-модель Qwen VLo, которая умеет редактировать картинки

Alibaba представила ИИ нового поколения, который существенно упростит пользователям создание и редактирование изображений на основе текстов и визуальных материалов. Модель, получившая название Qwen VLo, станет частью серии ИИ-сервисов под брендом Qwen и позволит не только генерировать изображения по текстовым запросам, но и модифицировать уже существующие.

 Источник изображения: Copilot

Источник изображения: Copilot

Как сообщает Bloomberg, новая модель не только анализирует данные, но и способна на их основе генерировать высокачественные изображения. Например, пользователь может ввести текстовой запрос, а после генерации попросить добавить какие-либо детали, например, шляпу для кота. Также можно загрузить готовое изображение и «дорисовать» его.

Одной из ключевых особенностей Qwen VLo является технология прогрессивной генерации, при которой пользователь может наблюдать за процессом создания изображения шаг за шагом. Например, можно отправить запрос «Создай картинку милого кота», и система начнёт формировать изображение прямо на глазах.

В своём блоге компания также отметила, что новая версия модели не просто «воспринимает окружающий мир, но и способна создавать высококачественные реконструкции на основе этого восприятия». Это соотносится с тем, что ранее генеральный директор компании Эдди Ву (Eddie Wu) заявлял, что основной целью Alibaba на текущий момент является разработка сильного искусственного интеллекта (AGI), который будет обладать уровнем развития человека.

Модель Qwen VLo позиционируется как конкурентный ответ на другие решения рынка, включая продукты OpenAI. Однако Alibaba также сталкивается с агрессивной конкуренцией внутри Китая, например, со стороны DeepSeek, которая произвела в индустрии фурор, заявив о создании мощной модели всего за несколько миллионов долларов. В ответ компания Alibaba ещё активнее стала добавлять новые функции для обработки текстов, изображений, аудио и видео, также оптимизируя модель и для работы на смартфонах.

Runway готовит платформу для создания игр с помощью ИИ

ИИ-стартап Runway, чья оценочная стоимость составляет $3 млрд, намерен расширить горизонты своего влияния. После крупного успеха нейросети в киноиндустрии, компания планирует запустить платформу для генерации видеоигр.

 Источник изображения: Runway

Источник изображения: Runway

По словам генерального директора компании Кристобаля Валенсуэлы (Cristóbal Valenzuela), первые пользователи смогут протестировать новый продукт уже на следующей неделе. Пока это просто минималистичный интерфейс, позволяющий взаимодействовать с моделью в текстовом чате и создавать изображения, но в дальнейшем появится возможность генерировать полноценные игры, сообщает The Verge.

Runway в настоящий момент активно ведёт переговоры с крупными игровыми студиями о внедрении своих технологий в производственные процессы и о доступе к их базам данных для обучения моделей. По мнению Валенсуэлы, игровая индустрия сейчас находится примерно в той же точке, в которой находилась киноиндустрия пару лет назад, когда впервые столкнулась с применением ИИ в процессе создания контента. Тогда тоже наблюдалось немалое сопротивление, но со временем ИИ-технологии начали активно внедряться в работу. Глава Runway уверен, что сейчас процесс принятия ИИ в играх будет происходить быстрее.

Компания уже имеет опыт сотрудничества с крупнейшими игроками развлекательного рынка. Например, её технологии применялись при производстве сериала Amazon «Дом Дэвида», также продолжается сотрудничество почти со всеми голливудскими студиями и большинством компаний из списка Fortune 100. Валенсуэла считает, что если Runway может помочь студии ускорить производство фильма на 40 процентов, то аналогичный эффект возможен и в разработке игр.

«Сбер» научил GigaChat рассуждать над запросами, но функцию пока открыл не всем

Функция рассуждений с доступом к актуальным данным в GigaChat стала доступна бизнес-клиентам «Сбербанка» в формате on-premise, когда программное обеспечение разворачивается на собственных серверах заказчика. Об этом в рамках конференции GigaConf рассказал вице-президент «Сбербанка» Андрей Белевцев.

 Источник изображения: sber.ru

Источник изображения: sber.ru

После активации функции рассуждений система анализирует текстовый запрос для определения наиболее подходящего способа обработки, после чего автоматически подключает соответствующий режим, например, работу с внешними ссылками или документами. За счёт этого нейросеть быстро адаптируется к поставленной задаче, обеспечивая точный и комплексный ответ без необходимости выбирать что-то вручную.

«GigaChat выходит на новый уровень — теперь модель способна рассуждать и объяснять свои выводы. Это значит, что наши клиенты смогут не только получать точные ответы, но и понимать ход мыслей системы, прослеживая логику её решений», — сообщил господин Белевцев. Он добавил, что новая функция станет особенно ценной в обучении, поскольку в сложных вопросах важен не только результат, но и процесс его получения. Также было сказано, что для всех пользователей GigaChat функция рассуждений станет доступна в следующем месяце.

Нейросеть победила квантовую интерференцию и превзошла учёных в анализе данных по бозону Хиггса

Пока учёные прогнозировали результаты исследования бозона Хиггса на Большом адронном коллайдере на 15 лет вперёд, нейросеть выполнила всю работу за них. Теперь необходимо строить новый прогноз по экспериментам, что требует разработки новых опытов и условий их проведения. Но в этом и заключается прелесть ситуации: наука может заметно быстрее продвигаться вперёд к пока ещё неизвестной физике.

 Источник изображения: CERN

Источник изображения: CERN

Эта история началась в 2017 году, когда один из руководителей коллаборации ATLAS на БАК поручил аспиранту Айшику Гошу (Aishik Ghosh) проработать один из вариантов детектирования бозона Хиггса, впервые зарегистрированного пятью годами ранее. Бозон Хиггса считается ответственным за массу элементарных частиц. На ускорителе он возникает в процессе сталкивания протонов и их распада.

В частности, при распаде могут возникать W-бозоны, которые отвечают за слабые ядерные взаимодействия в ядрах. При слиянии W-бозонов может возникать бозон Хиггса, который тут же распадается на два Z-бозона, тоже являющихся переносчиками слабого ядерного взаимодействия. В свою очередь, Z-бозоны распадаются на лептоны, например, на электронно-позитронные пары. Нюанс в том, что бозон Хиггса образуется не всегда, и этот этап в процессе распада может быть пропущен без изменения всей схемы. И анализировать приходится не то, что есть, а то, что пропало, а это гораздо труднее. По крайней мере, для нейронной сети, для которой, таким образом, отсутствует база для обучения.

Все эти замечательные явления можно обнаружить лишь при скрупулёзном моделировании и анализе невообразимого объёма данных по экспериментам. Ситуацию также осложняет тот факт, что частицы, а по сути — это квантовые поля, подвержены эффекту интерференции. Вспомните о поведении множества кругов на воде во время дождя. Примерно в таких, но стократ более сложных условиях учёные ищут следы каждой «капли» и умудряются узнать о ней буквально всё — от массы до других физических характеристик. Если бы не явление квантовой интерференции, жизнь исследователей была бы проще. Но не в этой Вселенной…

Аспирант, которому поручили проработать один из вариантов распада протонов на W-бозоны, быстро понял, что он занимается чем-то не тем. Явление интерференции вносило настолько большую погрешность в анализ, что требовалось видеть всю картину целиком, а не работать над одним из её вариантов. Тогда начинающий учёный скормил данные нейронной сети, которая до этого не применялась к анализу подобных массивов данных — это Neural Simulation-Based Inference (NSBI) (по-русски, вывод на основе нейронного моделирования).

Нейронной сети NSBI было дано задание самостоятельно смоделировать явления в эксперименте на БАК и на основе моделей предсказать результаты измерений по бозону Хиггса. Тем самым, вместо попыток изучать по отдельности те или иные пути распада, новый метод учитывал все возможные пути и их интерференцию, что позволяло более точно анализировать данные.

К этому времени работой аспиранта заинтересовался руководитель проекта, и подключились другие специалисты коллаборации ATLAS. К декабрю 2024 года были подготовлены и опубликованы две научные статьи, прошедшие строгое рецензирование. Одна статья рассказала о методе, а вторая заново проанализировала старые данные ATLAS с помощью нейронной сети. Результат превзошёл ожидания. Нейронная сеть дала более точные характеристики бозона Хиггса, чем коллектив учёных.

«Одна из забавных особенностей этого метода, который Айшик так сильно продвигал, заключается в том, что каждый раз, когда мы делаем прогноз — вот насколько хорошо мы будем работать через 15 лет, — мы подчистую разбиваем эти прогнозы, — говорят исследователи. — Так что сейчас нам приходится переделывать набор прогнозов, потому что мы уже сегодня [с помощью нейронной сети] достигли наших старых прогнозов на 15 лет вперёд. Это очень забавная проблема».

Китайская MiniMax представила ИИ-модель M1 — её обучение обошлось в 200 раз дешевле GPT-4

Это становится привычной практикой: каждые несколько месяцев малоизвестная компания из Китая выпускает большую языковую модель (LLM), которая опровергает представления о стоимости обучения и эксплуатации передовых ИИ-алгоритмов. На этот раз в центре внимания оказался стартап MiniMax, который объявил о запуске новой ИИ-модели M1, на обучение которой было потрачено значительно меньше средств по сравнению с западными аналогами, такими как GPT-4 от OpenAI.

 Источник изображения: ChatGPT

Источник изображения: ChatGPT

В январе этого года в центре внимания был стартап DeepSeek и её алгоритм R1. В марте в центре внимание ненадолго оказался стартап Butterfly Effect с ИИ-моделью Manus, который хоть и базируется в Сингапуре, но значительная часть сотрудников располагается в Китае. На этой неделе внимание привлекла компания MiniMax из Шанхая, ранее известная разработкой сервиса для создания видеоигр с помощью алгоритмов на базе искусственного интеллекта.

В этот раз поводом вспомнить MiniMax стал запуск ИИ-модели M1, которая дебютировала 16 июня. По словам разработчиков, этот алгоритм может конкурировать с аналогами ведущих отраслевых игроков, включая OpenAI, Anthropic и DeepSeek, в плане производительности и креативности, но при этом новая ИИ-модель значительно дешевле в обучении и эксплуатации. MiniMax заявила, что потратила всего $534 700 на аренду вычислительных мощностей центра обработки данных для обучения M1. Для сравнения, отраслевые эксперты подсчитали, что обучение алгоритма GPT-4o обошлось примерно в 200 раз дороже и OpenAI потратила на это более $100 млн. Официальные данные разработчика по этому вопросу не разглашаются.

Если данные MiniMax точны, а их ещё предстоит проверить независимым образом, то, вероятно, они вызовут некоторую обеспокоенность среди крупных инвесторов, вложивших миллиарды долларов в такие компании, как OpenAI и Anthropic, а также среди акционеров Microsoft и Google. Это связано с тем, что бизнес в сфере ИИ крайне убыточен. Исследование издания The Information показало, что OpenAI может потерять до $14 млрд в следующем году и вряд ли компания сможет достигнуть безубыточности до 2028 года.

Если клиенты могут добиться таких же результатов, как с моделями OpenAI, используя для этого ИИ-модели с открытым исходным кодом MiniMax, это, вероятно, снизит спрос на продукты OpenAI. Разработчик ChatGPT уже активно снижает цены на свои наиболее производительные ИИ-модели, чтобы сохранить долю рынка. Недавно производитель снизил стоимость использования своей рассуждающей модели GPT-o3 на 80 %, но это было ещё до выпуска алгоритма MiniMax M1.

Результаты MiniMax также означают, что компаниям, возможно, не придётся тратить так много средств на вычислительные мощности для запуска и эксплуатации передовых ИИ-алгоритмов. Потенциально это может снизить прибыль облачных провайдеров, таких как Amazon AWS, Microsoft Azure и Google Cloud. Это в свою очередь может означать снижение спроса на ИИ-ускорители Nvidia, которые используются для обучения ИИ-моделей в центрах обработки данных.

Эффект от запуска MiniMax M1 в конечном счёте может стать таким же, как от появления алгоритма DeepSeek R1. Стартап заявил, что нейросеть R1 функционирует наравне с ChatGPT при меньших затратах на обучение. Заявление DeepSeek привело к падению курса акций Nvidia на 17 % за один день и снижению рыночной стоимости компании примерно на $600 млрд. Пока новость о появлении алгоритма MiniMax не привела к чему-то подобному.

Согласно имеющимся данным, MiniMax поддерживают крупнейшие технологические компании Китая, такие как Tencent и Alibaba. Неясно, сколько человек работает в компании, а также почти нет информации о гендиректоре MiniMax Яне Цзюньцзе (Yan Junjie). В арсенале компании также есть генератор изображений Hailuo AI и приложение для создания виртуальных аватаров Talkie. Благодаря этим приложениям у MiniMax есть десятки миллионов пользователей в 200 странах, а также 50 000 корпоративных клиентов, многие из которых были привлечены Hailuo из-за способности сервиса создавать видеоигры «на лету».

«Бездонная яма плагиата»: Disney и Universal подали в суд на Midjourney из-за ИИ

Кинокомпании Disney и Universal подали иск против Midjourney, обвинив сервис в создании копий их персонажей с помощью искусственного интеллекта (ИИ). Иск, поданный в федеральный суд Центрального округа Калифорнии, касается генерации изображений таких персонажей, как Шрек, Дарт Вейдер, Базз Лайтер и других защищённых авторским правом известных героев.

 Источник изображений: theverge.com

Источник изображений: theverge.com

В заявлении говорится, что Midjourney действует как «виртуальный торговый автомат», производя бесконечные незаконные копии их работ. По мнению истцов, сервис сознательно использует популярных персонажей для продвижения своих инструментов, не вкладывая средств в их создание. В качестве примеров приведены изображения инопланетянина Йоды — одного из главных героев «Звёздных войн», Человека-паука, Эльзы из «Холодного сердца» и персонажей из «Миньонов».

Disney и Universal утверждают, что Midjourney игнорирует их требования прекратить нарушение авторских прав, в отличие от других сервисов ИИ, которые внедрили защитные механизмы. Особую обеспокоенность вызывает готовящийся к выпуску видеогенератор Midjourney, который, по мнению студий, уже сейчас может нарушать их права в связи с обучением ИИ на защищённом авторском контенте. Компании потребовали суда присяжных.

Как отмечает издание The Verge, это первый крупный иск Голливуда против генеративного ИИ, однако подобные судебные разбирательства становятся все более частыми. Ранее с исками к OpenAI, создателю ChatGPT, обращались The New York Times, группа авторов во главе с Джорджем Мартином (George R.R. Martin), а также издатели других газет. На компанию Anthropic, разработавшую чат-бот Claude, подали иски компании Universal Music и Reddit.

Дело техники: «Википедия» поручит генеративному ИИ рутину, чтобы не испортить труд людей

«Википедия» объявила о новой стратегии использования искусственного интеллекта в своей интернет-энциклопедии, но с важной оговоркой — ИИ не заменит живых редакторов. Вместо этого он станет их помощником в рутинных задачах.

 Источник изображения: wikipedia.org, AI

Источник изображения: wikipedia.org, AI

«Википедия» не планирует заменять своих редакторов и волонтёров искусственным интеллектом, несмотря на растущую популярность ИИ-технологий. Вместо этого платформа будет использовать нейросети для устранения технических барьеров, чтобы участники могли сосредоточиться на содержании, а не на сложностях реализации, сообщает TechCrunch, ссылаясь на официальное заявление организации.

В отличие от многих компаний, которые рассматривают ИИ как угрозу рабочим местам, «Википедия» видит в нём инструмент для автоматизации рутинных задач. Например, нейросети помогут в переводе, модерации и поиске информации, освобождая время редакторов для обсуждений и проверки данных, что особенно важно, поскольку «Википедия» строится на консенсусе среди её участников.

«Мы уверены, что успех нашей работы с ИИ зависит не только от того, что мы делаем, но и от того, как мы это делаем», — написал Крис Албон (Chris Albon), директор по машинному обучению «Фонда Викимедиа» (Wikimedia Foundation). По его словам, «Википедия» будет придерживаться принципов прозрачности, открытого кода и защиты прав человека, чтобы ИИ оставался под контролем людей.

Албон подчеркнул, что с появлением генеративного ИИ, который иногда допускает ошибки и «галлюцинирует», роль «Википедии» как достоверного источника знаний ещё больше возросла. «Мы будем использовать ИИ взвешенно, сохраняя многоязычность и человекоориентированный подход», — добавил он.

Nvidia придумала, как с помощью ИИ генерировать точные изображения без текстовых запросов — подойдёт он не всем

Nvidia выпустила мощный инструмент, позволяющий разработчикам генерировать изображения в Blender, используя в качестве основы 3D-модель, а не текстовые промпты. Инструмент получил длинное название — AI Blueprint for 3D-guided generative AI — и уже доступен для скачивания.

 Источник изображения: Nvidia

Источник изображения: Nvidia/YouTube

Суть технологии заключается в том, что пользователь может собрать сцену в популярном 3D-редакторе Blender с генеративной нейросетью FLUX.1 от Black Forest Lab, расставив здания, деревья, транспорт и другие объекты, а затем на основе этой композиции нейросеть сгенерирует реалистичное и детализированное 2D-изображение. Такой подход, как отмечает The Verge, даёт больше контроля, чем традиционные текстовые описания. Например, можно точно задать ракурс, расположение элементов и даже их пропорции, избежав долгих правок.

 Источник изображения: Nvidia

Источник изображения: Nvidia/YouTube

«Этот инструмент использует 3D-сцену как каркас, поэтому подойдут даже грубые модели, так как нейросеть сама доработает детали», — поясняют в Nvidia. Отмечается, что такой метод особенно полезен, когда необходимо получить конкретный результат, а не полагаться на случайность генерации. Например, если дизайнер создаёт город с определённым количеством зданий и машин, он может быстро собрать сцену в Blender, а FLUX.1 превратит её в финальное изображение и избавит от необходимости бесконечно корректировать промпты, пытаясь приблизиться к желаемому, более точному результату.

 Источник изображения: Nvidia/YouTube

Источник изображения: Nvidia/YouTube

Вообще, Nvidia позиционирует свои AI Blueprints как «готовые, настраиваемые рабочие процессы», упрощающие разработку приложений на основе генеративного ИИ. В данном случае инструмент включает пошаговые инструкции, примеры ассетов и предустановленную среду для удобства пользователей. Однако идея не уникальна: ранее компания Adobe также представила прототип похожего решения под названием Project Concept на своей конференции MAX в октябре. Однако пока её вариант остаётся экспериментальным, и о широком релизе речи не идёт.

Тем временем новый инструмент от Nvidia уже доступен для загрузки, но требует мощной видеокарты — например, RTX 4080 или выше. Эксперты отмечают, что подобные технологии могут ускорить работу дизайнеров, концепт-художников и геймдев-студий, стремящихся к более точным результатам при работе с ИИ-генерацией, а также сократить время на подбор промптов.

«Голосовое протезирование с ИИ» превратит мозговые волны немых людей в беглую речь

Немало людей страдают от потери речи в результате заболеваний, хотя их когнитивные функции остаются незатронутыми. Поэтому на волне прогресса в области ИИ многие исследователи сосредоточились на синтезе естественной речи (вокализации) с помощью комбинации мозговых имплантатов и нейросети. В случае успеха эта технология может быть расширена для помощи людям, испытывающим трудности с вокализацией из-за таких состояний, как церебральный паралич или аутизм.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Долгое время основные инвестиции и внимание учёных были сосредоточены на имплантах, которые позволяют людям с тяжёлыми формами инвалидности использовать клавиатуру, управлять роботизированными руками или частично восстанавливать использование парализованных конечностей. Одновременно многие исследователи сконцентрировались на разработке технологий вокализации, которые преобразует мыслительные модели в речь.

«Мы добиваемся большого прогресса. Сделать передачу голоса от мозга к синтетическому голосу такой же плавной, как диалог между двумя говорящими людьми — наша главная цель, — рассказал нейрохирург из Калифорнийского университета Эдвард Чанг (Edward Chang). — Используемые нами алгоритмы ИИ становятся быстрее, и мы учимся с каждым новым участником наших исследований».

В марте 2025 года Чанг с коллегами опубликовали статью в журнале Nature Neuroscience, в которой описали работу с парализованной женщиной, которая не могла говорить в течение 18 лет после перенесённого инсульта. При помощи учёных она обучала нейронную сеть, безмолвно пытаясь произнести предложения, составленные из 1024 разных слов. Затем звук её голоса был синтезирован путём потоковой передачи её нейронных данных в совместную модель синтеза речи и декодирования текста.

 Источник изображения: New England Journal of Medicine

Источник изображения: New England Journal of Medicine

Технология позволила сократить задержку между мозговыми сигналами пациента и полученным звуком с первоначальных восьми до одной секунды. Этот результат уже сопоставим с естественным для обычной речи временным интервалом в 100–200 миллисекунд. Медианная скорость декодирования системы достигла 47,5 слов в минуту, что составляет примерно треть от скорости обычного разговора.

Аналогичные исследования были произведены компанией Precision Neuroscience, причём её генеральный директор Майкл Магер (Michael Mager) утверждает, что их подход позволяет захватывать мозговые сигналы с более высоким разрешением за счёт «более плотной упаковки электродов».

На данный момент Precision Neuroscience провела успешные эксперименты с 31 пациентом и даже получила разрешение регулирующих органов оставлять свои датчики имплантированными на срок до 30 дней. Магер утверждает, что это позволит в течение года обучить нейросеть на «крупнейшим хранилище нейронных данных высокого разрешения, которое существует на планете Земля». Следующим шагом, по словам Магера, будет «миниатюризация компонентов и их помещение в герметичные биосовместимые пакеты, чтобы их можно было навсегда внедрить в тело».

 Источник изображения: UC Davis Health

Источник изображения: UC Davis Health

Самым серьёзным препятствием для разработки и использования технологии «мозг-голос» является время, которое требуется пациентам, чтобы научиться пользоваться системой. Ключевой нерешённый вопрос заключается в степени различия шаблонов реагирования в двигательной коре — части мозга, которая контролирует произвольные действия, включая речь, — у разных людей. Если они окажутся схожими, предварительно обученные модели можно будет использовать для новых пациентов. Это ускорит процесс индивидуального обучения, который занимает десятки или даже сотни часов.

Все исследователи вокализации солидарны в вопросе о недопустимости «расшифровки внутренних мыслей», то есть того, что человек не хочет высказывать. По словам одного из учёных, «есть много вещей, которые я не говорю вслух, потому что они не пойдут мне на пользу или могут навредить другим».

На сегодняшний учёные ещё далеки от вокализации, сопоставимой с обычным разговором среднестатистических людей. Хотя точность декодирования удалось довести до 98 %, голосовой вывод происходит не мгновенно и не в состоянии передать такие важные особенности речи, как тон и настроение. Учёные надеются, что в конечном итоге им удастся создать голосовой нейропротез, который обеспечит полный экспрессивный диапазон человеческого голоса, чтобы пациенты могли контролировать тон и ритм своей речи и даже петь.

OpenAI заподозрили в манипуляциях с тестами мощной ИИ-модели o3

В декабре прошлого года OpenAI представила большую языковую модель o3, заявив, что она способна справиться более чем с 25 % набора сложных математических задач FrontierMath, тогда как другие ИИ-модели справлялись только с 2 % заданий из этого набора. Однако расхождения между результатами внутренних и независимых тестов вызывали вопросы о прозрачности компании и практике тестирования нейросетей.

 Источник изображения: Levart_Photographer / unsplash.com

Источник изображения: Levart_Photographer / unsplash.com

На момент анонса ИИ-модели o3 представитель компании особо отметил результаты алгоритма при решении задач FrontierMath. Однако выпущенная на прошлой неделе потребительская версия алгоритма далеко не так хорошо справляется с вычислениями. Это может указывать на то, что OpenAI либо завысила результаты тестирования, либо в нём была задействована другая, более способная к решению математических задач версия o3.

Исследователи из Epoch AI, стоящие за созданием FrontierMath, опубликовали результаты независимых тестов общедоступной версии ИИ-модели o3. Оказалось, что алгоритм сумел справиться только с 10 % задач, что значительно ниже заявленных OpenAI 25 %. Вместе с этим исследователи протестировали ИИ-модель o4-mini, более компактный и дешёвый алгоритм, который является преемником o3-mini.

 Источник изображения: @EpochAIResearch / X

Источник изображения: @EpochAIResearch / X

Конечно, расхождение в результатах тестирования не означает, что OpenAI намеренно завысила показатели ИИ-модели. Нижняя граница результатов тестирования OpenAI практически совпадает с результатами, полученными Epoch AI. В Epoch AI также отметили, что тестируемая ими модель, скорее всего, отличается от той, что тестировалась OpenAI. Также отмечается, что исследователи задействовали обновлённую версию набора задач FrontierMath.

«Разница между нашими результатами и результатами OpenAI может быть связана с тем, что OpenAI оценивает результаты с помощью более мощной внутренней версии, используя больше времени для вычислений, или потому, что эти результаты были получены на другом подмножестве FrontierMath (180 задач в frontiermath-2024-11-26 против 290 задач в frontiermath-2025-02-28)», — сказано в сообщении Epoch AI.

По данным организации ARC Foundation, которая тестировала предварительную версию o3, публичная версия ИИ-алгоритма «представляет собой другую модель», которая оптимизирована для использования в чате/продуктах. «Вычислительный уровень всех выпущенных версий o3 ниже, чем у версии, которую мы тестировали», — сказано в сообщении ARC.

Сотрудница OpenAI Венда Чжоу (Wenda Zhou) рассказала, что публичная версия o3 «более оптимизирована для реальных случаев использования» и повышения скорости обработки запросов по сравнению с версией o3, которую компания тестировала в декабре. По её словам, это и является причиной того, что результаты тестирования в бенчмарках могут отличаться от того, что показывала OpenAI.

ИИ-модели Gemini позволили анализировать снимки в «Google Фото», но пока не у всех пользователей

Компания Google начала интеграцию своей нейросети Gemini в сервис «Google Фото». Благодаря этому пользователи теперь имеют возможность объединения Gemini со своим аккаунтом в «Google Фото», благодаря чему можно искать нужные снимки на основе текстовых запросов об их содержимом. На данный момент нововведение доступно только на территории США для запросов на английском языке.

 Источник изображения: BoliviaInteligente / Unsplash

Источник изображения: BoliviaInteligente / Unsplash

Согласно имеющимся данным, упомянутое нововведение доступно для всех пользователей устройств на базе Android, у которых установлено приложение Gemini. Для активации интеграции необходимо запустить приложение Gemini и в настройках профиля активировать соответствующую опцию. После этого алгоритм сможет помочь отыскать снимки, например, по сделанным пользователем меткам, местоположению, дате съёмки или описанию того, что изображено на фотографии.

После того, как Gemini отобразит список найденных объектов, пользователь может нажать на миниатюру какого-то конкретного снимка или альбома, чтобы открыть его в «Google Фото». При необходимости снимки можно по одному перетаскивать из окна Gemini в другие приложения.

Google не объявляла, когда интеграция Gemini с сервисом «Google Фото» станет доступна за пределами рынка США и получит поддержку большего количества языков. Вероятно, это произойдёт после того, как разработчики убедятся в том, что алгоритм работает полностью корректно.

Лучше GPT-4o «почти по всем параметрам»: OpenAI представила флагманскую ИИ-модель GPT-4.1

OpenAI официально представила большую языковую модель GPT-4.1, которая является преемником выпущенного в прошлом году мультимодального алгоритма GPT-4o. По данным компании, новая ИИ-модель получила контекстное окно большего размера и в целом превосходит GPT-4o «почти по всем параметрам». В дополнение к этому были улучшены возможности алгоритма в плане написания программного кода и следования инструкциям.

 Источник изображения: Levart_Photographer / unsplash.com

Источник изображения: Levart_Photographer / unsplash.com

GPT-4.1 уже доступна для разработчиков вместе с двумя версиями нейросети меньшего размера. Речь идёт об алгоритмах GPT-4.1 Mini и GPT-4.1 Nano, которая, по словам OpenAI, является «самой маленькой, самой быстрой и самой дешёвой» ИИ-моделью. Все три версии GPT-4.1 являются мультимодальными, то есть могут работать не только с текстом, но и с другими данными — например, изображениями или видео. Размер контекстного окна увеличился до 1 млн токенов, что значительно больше по сравнению со 128 тыс. токенов у GPT-4o.

Отмечается, что GPT-4.1 способна качественно обрабатывать информацию внутри контекстного окна на протяжении всего взаимодействия с пользователем. «Мы также обучили её гораздо более надёжно, чем GPT-4o, распознавать релевантный текст и игнорировать отвлекающие элементы на длинных и коротких отрезках контекста», — говорится в сообщении OpenAI. GPT-4.1 также на 26 % дешевле GPT-4o, что стало особенно важным показателем после дебюта сверхэффективной ИИ-модели китайской компании DeepSeek.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Запуск GPT-4.1 происходит на фоне подготовки OpenAI к отказу от использования ИИ-модели двухлетней давности GPT-4. Согласно официальным данным, после 30 апреля модель GPT-4o станет «естественным преемником» GPT-4. OpenAI также закроет доступ к предварительной версии GPT-4.5 через API 14 июля, поскольку «GPT-4.1 предлагает улучшенную или аналогичную производительность по многим ключевым функциям при гораздо меньших затратах и издержках».

«Яндекс» представила «ТВ Станцию» второго поколения — QLED и ИИ для оптимизации изображения

Компания «Яндекс» представила новый умный телевизор — «ТВ Станцию» второго поколения. Это первый умный телевизор «Яндекса» с QLED-экраном в среднем ценовом сегменте. Новинка доступна с диагональю экрана 43, 50, 55 и 65 дюймов по цене от 49 990 руб.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

«ТВ Станция QLED» получила поддержку технологии AI Picture Quality, также внедрённой в «ТВ Станции» первого поколения. Она использует ИИ для оптимизации изображения. Как сообщает компания, нейросеть анализирует происходящее на экране и самостоятельно меняет настройки: улучшает цветопередачу, яркость, контрастность и детализацию. Благодаря этому лица людей выглядят более естественно, краски природы становятся насыщеннее, а детали архитектуры отображаются более чётко. Новая технология доступна для любых фильмов, сериалов и роликов, которые не защищены от копирования.

Смарт-функции на основе нейросетей также упрощают голосовое управление телевизором. По данным производителя, голосовой помощник «Алиса» понимает даже те команды, которым её не обучали, а также умеет разбивать сложные запросы на простые и учитывать происходящее на экране. Например, теперь голосовой помощник поймёт просьбы: «Алиса, включи ТНТ и сделай погромче» или «Алиса, выключи телевизор, когда закончится фильм». Кроме того, открывать сайты, прокручивать страницы, искать информацию в интернете и управлять историей поиска теперь можно с помощью голосовой команды — без необходимости использовать пульт или клавиатуру.

Через приложение «Дом с Алисой» родители смогут устанавливать, продлевать и сокращать время просмотра ТВ для своих детей, а также блокировать выход из детского аккаунта с помощью ПИН-кода.

Как и другие модели, «ТВ Станция QLED» предлагает возможности умной колонки и смарт-ТВ: прослушивание музыки и просмотр видео, управление умным домом и общение с «Алисой».

Телевизор поддерживает разрешение экрана Ultra HD (4K) с яркостью 450 кд/м², а также технологии MEMC и HDR10. Благодаря технологии KSF QLED устройство обеспечивает яркие цвета при воспроизведении любого контента. Заводская калибровка баланса белого индивидуальна для каждой модели, что гарантирует высокое качество изображения.

Акустическая система телевизора включает четыре динамика с поддержкой Dolby Audio и общей мощностью 34 Вт: два широкополосных и два высокочастотных. Инженеры «Яндекса» провели фирменную настройку звука, благодаря чему обеспечивается качественное, сбалансированное звучание как при прослушивании музыки, так и при просмотре фильмов.

Кроме того, с выходом «ТВ Станции QLED» компания «Яндекс» увеличила срок службы всех «ТВ Станций», включая ранее приобретённые модели, до пяти лет.

Российские специалисты из Smart Engines расшифровали рукописи Пушкина при помощи ИИ

Специалисты российской компании Smart Engines расшифровали зачёркнутые фрагменты черновых рукописей Александра Пушкина с помощью разработанной ими системы искусственного интеллекта «Да Винчи». Нейросетевая архитектура «Да Винчи» широко используется для распознавания документов, в частности российских паспортов, вне зависимости от угла и условий съёмки.

 Источник изображения: Wikipedia, «Литературные места России»

Источник изображения: Wikipedia, «Литературные места России»

В процессе обучения ИИ запомнил, какие движения пера в незачёркнутых словах характерны для почерка великого русского поэта, а затем восстановил утраченные места, пользуясь созданной моделью движений его руки. Таким способом удалось идентифицировать несколько неопределяемых ранее слов из черновых рукописей Пушкина. Эти находки внесли существенный вклад в понимание творческого процесса поэта.

Узнать, какие слова пришлись Пушкину не по душе, удалось с помощью нейросетевой архитектуры «Да Винчи», разработанной специалистами Smart Engines для удаления линий разграфки, затрудняющих распознавание рукописных данных в официальных документах. Эта технология позволяет автоматически определять геометрию документа и распознавать данные вне зависимости от его расположения в кадре, наличия помех и искажений. Технология одинаково успешно справляется как со сканами, так и с фотографиями документов, в том числе в зеркальном отражении.

Алгоритмы Smart Engines уже интегрированы в решения для мгновенного распознавания данных паспорта и других документов. Распознавание паспорта РФ при помощи камеры смартфона требует всего 0,15 секунды. Серверные решения позволяют распознавать до 55 паспортов в секунду на процессор без использования GPU.

 Источник изображения: Smart Engines

Источник изображения: Smart Engines

«Проведённый нами эксперимент по расшифровке ранее нечитаемых слов в рукописях Александра Пушкина подтвердил колоссальный потенциал нейросетей в самых разных областях науки. Мы видим, что искусственный интеллект может стать надёжным инструментом для исследователя […] Предложенный метод снятия зачёркиваний при помощи ИИ может быть применён не только к рукописям Пушкина, но и к архивным записям других известных авторов, а также историческим документам. Это открывает новые возможности для изучения творческого процесса написания знаменитых литературных произведений», — уверен генеральный директор Smart Engines Владимир Арлазаров.

Остаётся неясным лишь одно: если великий русский поэт какие-то слова зачёркивал, возможно, он не хотел, чтобы кто-нибудь их прочитал, в том числе и искусственный интеллект?

OpenAI пока не будет подавать в суд на DeepSeek

OpenAI не планирует подавать в суд на китайскую компанию DeepSeek на фоне ранее озвученных подозрений Microsoft и OpenAI в отношении последней в том, что она могла использовать их данные для обучения своей нейросети R1. Об этом заявил сам глава OpenAI Сэм Альтман (Sam Altman).

 Источник изображения: Solen Feyissa / unsplash.com

Источник изображения: Solen Feyissa / unsplash.com

«У нас нет планов прямо сейчас судиться с DeepSeek. Мы собираемся продолжать делать отличные продукты и лидировать в мире по мощности модели, я думаю, это хорошо работает», — передаёт слова Альтмана издание Nikkei.

Ранее DeepSeek выпустила собственную модель искусственного интеллекта R1, создание которой, согласно её разработчикам, обошлась значительно дешевле по сравнению с западными аналогами. При этом она не проигрывает им по характеристикам. На прошлой неделе сообщалось, что Microsoft и OpenAI заподозрили DeepSeek в краже данных при разработке R1. Позже Альтман назвал R1 «впечатляющей моделью» и заявил, что «появление нового соперника нас реально вдохновляет». Затем SemiAnalysis выразили предположение, что DeepSeek могла потратить куда больше средств на создание R1, чем было заявлено изначально.

Нынешнее заявление Альтман сделал во время поездки в Японию, где встречался премьер-министром страны Сигэру Исибой (Shigeru Ishiba) и главой японского холдинга SoftBank Масаёси Соном (Masayoshi Son). OpenAI и SoftBank объявили о создании совместного предприятия в Японии SB OpenAI Japan, которое будет развивать ИИ-сервисы. Ожидается, что это будет самый масштабный проект по предоставлению ИИ-инструментов американского стартапа корпоративным клиентам за пределами США.


window-new
Soft
Hard
Тренды 🔥
The Blood of Dawnwalker, Code Vein 2 и многие другие: анонсирована игровая презентация Bandai Namco Summer Showcase 2025 42 мин.
Комиссионный хаос: Apple изменила правила App Store для ЕС так, что теперь их никто не понимает 2 ч.
«Это был ошибочный выбор»: авторы The Alters подтвердили, что в игру попал ИИ-контент, и объяснили, как так получилось 2 ч.
AMD выпустила драйвер с поддержкой FSR 4 для Monster Hunter Wilds и GTA V Enhanced 3 ч.
Календарь релизов — 1–6 июля: Mecha Break, Dying Light Retouched и девятый сезон Diablo IV 3 ч.
Avanpost: в корпоративном сегменте по-прежнему большей частью полагаются на обычные пароли и LDAP 3 ч.
Надёжный инсайдер раскрыл, когда ждать анонс и релиз следующей Ghost Recon 4 ч.
Rockstar готовится к старту рекламной кампании GTA VI — студии понадобились специалисты по локализации, в том числе русской 5 ч.
Миллионы наушников можно превратить в подслушивающие устройства из-за уязвимости в чипе Bluetooth 5 ч.
«Революционные» технологии, истоки проекта и поддержка после релиза: новые подробности ролевого MMO-шутера The Cube во вселенной Atomic Heart 6 ч.
ИИ создаст спрос на передовые чипы: выпуск 7-нм и более тонких полупроводников вырастет на 69 % к 2028 году 31 мин.
Google подключит серверы к термоядерному реактору Commonwealth Fusion Systems 58 мин.
В деревню, в глушь, на север: московский регион страдает от дефицита мощностей ЦОД, но скоро операторы могут уйти в провинцию 2 ч.
Смартфоны Google Pixel 10 Pro и Pixel 10 Pro XL полностью рассекречены задолго до анонса 3 ч.
DJI выпустила грузовой дрон FlyCart 100 с грузоподъёмностью до 80 кг и передовыми системами безопасности 3 ч.
Дубай стал на шаг ближе к запуску аэротакси — Joby Aviation доставила первый серийный электролёт в ОАЭ 6 ч.
SpaceX запустила британский спутник для производства полупроводников прямо на орбите Земли 7 ч.
Слухи: Apple выпустит недорогой MacBook с чипом от iPhone 7 ч.
Б/у автоаккумуляторы запитали ИИ ЦОД с 2 тыс. ускорителей 8 ч.
Anker отзовёт ещё несколько миллионов пауэрбанков с потенциально пожароопасными элементами 9 ч.