Сегодня 26 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ии
Быстрый переход

Microsoft организовала подразделение для изучения воздействия ИИ

Microsoft объявила о создании нового подразделения Advanced Planning Unit (APU). Оно станет частью подразделения Microsoft AI и будет помогать компании понимать социальные, медицинские и трудовые последствия воздействия искусственного интеллекта, который компания рассчитывает создать в конечном счёте.

Развитие сферы ИИ становится для Microsoft основой стратегии роста, что не нравится некоторым акционерам софтверного гиганта. На этой неделе Microsoft объявила, что капитальные затраты в четвёртом квартале 2024 года составили $22,6 млрд, что является новым рекордом.

Гендиректор Microsoft Сатья Наделла (Satya Nadella) заявил, что эти траты обусловлены необходимостью удовлетворения спроса на ИИ и облачные продукты компании. «По мере того, как искусственный интеллект становится всё более эффективным и доступным, спрос будет расти в геометрической прогрессии», — сказал Наделла во время подведения итогов четвёртого квартала 2024 года.

Новое подразделение APU будет подчиняться главе Microsoft AI Мустафе Сулейману (Mustafa Suleyman). Одной из задач сотрудников APU будет объединение результатов «передовых исследований», чтобы «изучить и сформулировать» возможные сценарии влияния будущего ИИ. В обязанности подразделения входит выработка рекомендаций по ИИ-продуктам и прогнозирование результатов их запуска, а также составление постоянной программы мероприятий, публикаций и других отчётов для улучшения понимания воздействия ИИ.

Некоторые члены APU будут отвечать за проведение брифингов с участием менеджеров по продуктам, разработчиков и руководителей Microsoft, а другие займутся организацией конференций и составлением документов для коммуникаций. Все они будут работать в офисах Microsoft AI в Кремниевой долине и Лондоне. Мустафа Сулейман недавно писал в соцсети X, что APU требуются экономисты, психологи «и не только». «Мы ищем [людей], которые смогут охватить это гиперэволюционное пространство и дать нам понять, что происходит, и почему это важно. Эти роли — невероятная, редкая возможность глубоко погрузиться в мир ИИ и мыслить о нём с фантазией, работая на переднем крае науки об ИИ и разработки продуктов», — заявил Сулейман.

Создание APU произошло вскоре после того, как Microsoft организовала команду инженеров CoreAI — Platform and Tools, ориентированную на искусственный интеллект. На этом фоне Сатья Наделла заявил, что нынешний год станет ключевым этапом в развитии ИИ-платформ и «изменит все категории приложений». «В начале нового года становится ясно, что мы вступаем в следующий этап смены платформы ИИ. Тридцать лет перемен сжимаются в три года», — добавил Наделла.

Сэм Альтман: OpenAI перешла на «неправильную сторону истории» в отношении открытых проектов

Выпустив накануне несколько новых продуктов, инженеры и руководство OpenAI, в том числе гендиректор Сэм Альтман (Sam Altman), ответили на несколько вопросов на платформе Reddit. Глава компании заявил, что она готова пересмотреть отношение к проектам с открытым исходным кодом.

 Источник изображения: Dima Solomin / unsplash.com

Источник изображения: Dima Solomin / unsplash.com

Появление китайской DeepSeek пошатнуло положение OpenAI как мирового лидера в области искусственного интеллекта — дошло до подозрений в краже интеллектуальной собственности. Разработчик ChatGPT стремится укрепить свои отношения с Вашингтоном и реализовать проект Stargate, который может заложить основу для одного из крупнейших раундов финансирования в истории. Альтман признал, что DeepSeek ослабила лидерство OpenAI в области ИИ и высказался по поводу проектов с открытым исходным кодом — в этом отношении компания, по мнению её главы, оказалась на «неправильной стороне истории». Ранее OpenAI выпускала открытые модели ИИ, но впоследствии отказалась от этого.

«[Лично я считаю,] нам нужно выработать другую стратегию в отношении открытого исходного кода. Эту точку зрения в OpenAI разделяют не все, и сейчас это нашим приоритетом не является. [В будущем] мы станем выпускать лучшие модели, но наше лидерство станет меньшим, чем в предыдущие годы», — заявил Альтман. OpenAI подумывает открыть код уже неактуальных моделей, добавил директор по продуктам компании Кевин Вейл (Kevin Weil). Опыт DeepSeek подтолкнул OpenAI сделать механизмы работы актуальных продуктов более прозрачными: DeepSeek R1 показывает всю цепочку рассуждений, а o3-mini этих данных не выводит. «Мы работаем над тем, чтобы показывать гораздо больше, чем сегодня — [демонстрация рассуждений модели] появится очень-очень скоро. Пока не всех — показ всей цепочки приведёт к дистилляции конкурентами, но мы знаем, что люди (по меньшей мере, опытные пользователи) этого хотят, так что найдём подходящий способ это сбалансировать», — пообещал Вейл.

 Источник изображения: Growtika / unsplash.com

Источник изображения: Growtika / unsplash.com

Альтман и Вейл попытались развеять слухи, что работа с ChatGPT, платформой, на которой компания запускает многие свои модели, скоро подорожает — напротив, OpenAI хотела бы сделать сервис ещё дешевле, если представится такая возможность. Ранее Альтман рассказал, что самая дорогая подписка ChatGPT Pro за $200 в месяц является для OpenAI убыточной. В беседе с пользователями Reddit руководители компании также отметили, что с ростом вычислительной мощности растут производительность и способности моделей — эти соображения побудили OpenAI инициировать проект Stargate. Правдоподобным, по мнению Альтмана, теперь представляется и механизм рекурсивного самосовершенствования — процесса, при котором ИИ самостоятельно повышает свой уровень без участия человека.

На вопрос о том, будут ли самосовершенствующиеся или любые другие модели OpenAI использоваться для разработки ядерного оружия, Вейл отметил, что компания доверяет властям, работающие в правительственных учреждениях учёные являются экспертами в области ИИ и исследователями мирового класса — едва ли они решатся включить ответы ИИ в проекты с обширной экспериментальной базой. Представители компании ответили и на другие волнующие общественность вопросы: новая рассуждающая модель OpenAI o3 выйдет «больше, чем через несколько недель, и меньше, чем через несколько месяцев»; сроки выхода флагманской «нерассуждающей» модели GPT-5 пока не установлены; генератор изображений DALL-E 3 вышел уже более двух лет назад, и сейчас компания готовит его новую версию.

Microsoft добавила ИИ-помощника Copilot в Paint

Разработчики из Microsoft продолжают расширять доступность ИИ-помощника Copilot в разных приложениях операционной системы Windows 11. На этот раз специальная кнопка для быстрого запуска Copilot появилась в графическом редакторе Paint. С её помощью пользователи смогут получить доступ ко всем доступным в приложении функциям на базе искусственного интеллекта.

 Источник изображения: Microsoft

Источник изображения: Microsoft

После нажатия кнопки Copilot в Paint открывается небольшое меню, в котором собраны функции на базе генеративных алгоритмов, такие как Cocreator, Image Creator и Generative Erase. Появление кнопки Copilot в Paint стало очередным шагом Microsoft в стремлении интегрировать своего ИИ-помощника куда только можно, начиная от клавиатур и заканчивая панелью задач Windows.

За последнее время Microsoft уже добавила в Paint несколько функций для создания изображений, основанных на работе генеративных нейросетей. В конце 2023 года в графическом редакторе появилась функция Cocreator на базе алгоритма DALL-E. Позднее разработчики добавили ещё несколько ИИ-инструментов, которые после появления кнопки Copilot будут собраны в одном месте.

Упомянутое нововведение является частью обновления, которое начало распространяться на этой неделе и станет доступно участникам программы предварительной оценки Windows Insider на каналах Dev и Canary. Обновление также содержит улучшения для функции ИИ-поиска. Теперь пользователи смогут задействовать этот инструмент для поиска фотографий в облаке посредством команд на естественном языке. Ранее такая возможность была ограничена локальными файлами.

Размышляющий ИИ стал доступен в бесплатном ChatGPT — OpenAI выпустила мощнейшую модель o3-mini

Генеральный директор OpenAI Сэм Альтман (Sam Altman) ровно две недели назад пообещал, что большая языковая модель нового поколения o3-mini со способностью к рассуждению будет выпущена «через пару недель». И ведь не обманул — сегодня OpenAI запустила o3-mini в ChatGPT, а также в API-сервисах. Самое интересное в том, что новая ИИ-модель стала доступна даже бесплатным пользователям ChatGPT, пусть и с ограничениями.

 Источник изображения: OpenAI

Источник изображений: OpenAI

Первоначально анонсированная в рамках 12-дневного предрождественского марафона премьер OpenAI, модель o3-mini призвана сравниться с o1 по производительности в задачах, связанных с математикой, написанием программного кода и научными дисциплинами, при этом отвечая быстрее. OpenAI утверждает, что o3-mini работает на 24 % быстрее, чем o1-mini, и при этом даёт более точные ответы. Как и o1-mini, новая модель будет демонстрировать ход своих размышлений при решении задачи, а не просто предоставлять готовый ответ.

В декабре OpenAI представила несколько ранних тестов, демонстрирующих превосходство o3 над o1. Теперь разработчики утверждают, что версия o3-mini превзойдёт o1 в ряде задач, связанных с кодированием и рассуждениями, при меньших затратах и задержках. Разработчики смогут использовать o3-mini через API-сервисы OpenAI, включая Chat Completions API, Assistants API и Batch API.

Платным пользователям также будет доступна модель o3-mini-high, которая, по словам OpenAI, станет «лучшим вариантом для написания программного кода в ChatGPT» и предложит ответы с более высоким уровнем интеллекта, пусть и с небольшой задержкой. Кроме того, o3-mini будет поддерживать поиск в интернете, позволяя находить ответы со ссылками на веб-источники.

Это также первый случай, когда бесплатные пользователи ChatGPT смогут опробовать модели OpenAI со способностью к рассуждениям. Вероятно, за это стоит благодарить китайский стартап DeepSeek, который всколыхнул мир ИИ. Хотя нельзя исключать и влияние Microsoft, которая ранее открыла доступ к o1 для всех пользователей Copilot.

Пользователи смогут бесплатно протестировать o3-mini в ChatGPT, выбрав функцию Reason на панели чата. Ограничения будут такими же, как для GPT-4o. У платных пользователей лимиты окажутся выше: подписчики тарифов ChatGPT Plus и Teams смогут отправлять до 150 сообщений в день. А пользователи тарифа ChatGPT Pro за $200 в месяц получат неограниченный доступ к o3-mini.

Видеокарты Nvidia научились превращать звук плохого микрофона в профессиональный

Компания Nvidia представила две новые ИИ-функции в составе своего приложения Broadcast, призванные значительно улучшить качество работы обычных веб-камер. Первая функция называется Studio Voice. Она «позволяет улучшить качество звука обычного пользовательского микрофона до практически профессионального уровня».

 Источник изображений: Nvidia

Источник изображений: Nvidia

Как пишет портал The Verge, функция Studio Voice действительно работает так, как заявлено. Она смогла значительно улучшить качество передачи звука встроенного микрофона веб-камеры Logitech C922, сделав его более чистым, громким и насыщенным. Примеры здесь.

Другая новая ИИ-функция от Nvidia — Virtual Key Light, которая «перестраивает и делает более равномерным освещение пользователя в кадре веб-камеры для более выразительной передачи его изображения».

Nvidia заявляет, что для работы Studio Voice и Virtual Key Light требуется видеокарта GeForce RTX 4080 или RTX 5080/RTX 5090. Однако журналистам The Verge удалось запустить Studio Voice на видеокарте RTX 3070.

Последняя версия приложения Nvidia Broadcast также включает функции Background Noise Removal (удаляет шумы микрофона), Eye Contact (создаёт эффект постоянного зрительного контакта с камерой), а также Virtual Background (обеспечивает более чёткое отделение изображения пользователя от фона).

Технология ИИ-масштабирование видео RTX Video Super Resolution теперь потребляет на 30 % меньше ресурсов GPU

Технология RTX Video Super Resolution (VSR — «суперразрешение видео») позволяет масштабировать видеоконтент, «на лету» повышая разрешение видеопотока. Её основным недостатком является высокий расход электроэнергии — в зависимости от профиля масштабирования видеокарта потребляет от 70 до 240 Вт. Теперь Nvidia представила улучшенную модель ИИ, применяемую для масштабирования видео, которая, как утверждает компания, требует на 30 % меньше энергии.

 Источник изображения: Nvidia

Источник изображения: Nvidia

VSR является частью программного обеспечения Nvidia. Включить её можно в разделе «Видео» на вкладке «Система». Там же доступна опция отображения индикатора при использовании этой функции. Nvidia добавила для VSR новую настройку качества — «Авто», которая будет использовать минимально необходимую мощность графического процессора. В то же время настройка «Высокая» будет загружать видеокарту по максимуму для достижения наилучшего качества.

Установка использования графического процессора на более низкие уровни позволит зарезервировать больше ресурсов для игр или творческих приложений. В ручном режиме пользователь может задать фиксированный уровень качества, который затем будет использоваться по умолчанию.

 Источник изображения: VideoCardz

Источник изображения: VideoCardz

«[Технология] VSR была обновлена до более эффективной модели ИИ, использующей до 30 % меньше ресурсов графического процессора при настройке самого высокого качества, что позволяет большему количеству графических процессоров GeForce RTX включить его», — заявил представитель Nvidia.

По его словам, VSR теперь также поддерживает масштабирование HDR-видео. Это означает, что при просмотре в браузере любого HDR-видеоконтента с разрешением ниже разрешения монитора оно автоматически будет повышено до нативного разрешения панели.

Apple Intelligence скоро получит поддержку восьми новых языков

Генеральный директор Apple Тим Кук (Tim Cook) объявил во время финансового отчёта компании за четвёртый квартал 2024 года, что ИИ-платформа Apple Intelligence вскоре получит поддержку восьми дополнительных языков, включая французский, немецкий, итальянский, португальский, испанский, японский, корейский и упрощённый китайский.

 Источник изображения: Apple

Источник изображения: Apple

Обновление, которое выйдет в апреле и, вероятно, станет частью iOS 18.4, также обеспечит локализованную поддержку английского языка для пользователей в Индии и Сингапуре, сказал Кук. В настоящее время поддержка Apple Intelligence ограничена англоязычными регионами, включая США, Великобританию, Австралию, Канаду, Новую Зеландию и Южную Африку.

Во время своего выступления Кук выразил веру в важность функций Apple Intelligence, отметив, что «как только вы начнёте ими пользоваться, то не сможете представить, как без них можно было бы обходиться». В частности, он выделил функцию резюмирования электронных писем как особенно ценный инструмент, заявив, что лично полагается на неё для разбора сотен ежедневных электронных писем.

Несколько функций Apple Intelligence были доступны с момента выпуска iOS 18.1, но лимитированная языковая поддержка ограничила их глобальный охват. В состав функций Apple Intelligence также входят умные уведомления, нейросетевой фоторедактор с функцией Clean Up, видеовоспоминания, встроенный ChatGPT. Apple Intelligence поддерживается на устройствах с процессором A17 Pro и новее, например, iPhone 15 Pro и 15 Pro Max, iPhone 16 и 16 Plus, iPhone 16 Pro и 16 Pro Max. На устройстве должна быть установлена iOS 18.1 или выше.

Представлена быстрая открытая ИИ-модель Mistral Small 3 — её можно запустить на MacBook или GeForce RTX 4090

Французская компания Mistral AI, основанная выходцами из Google DeepMind и Meta, представила компактную модель искусственного интеллекта Mistral Small 3 — она распространяется с открытым кодом и предлагает высокую производительность.

 Источник изображения: Michael Dziedzic / unsplash.com

Источник изображения: Michael Dziedzic / unsplash.com

Mistral Small 3 имеет 24 млрд параметров и позиционируется как прямой конкурент более крупным моделям, в том числе Meta Llama 3.3 70B и Alibaba Qwen 32B, а также как бесплатная замена закрытым системам, включая OpenAI GPT-4o mini. Разработчик уверяет, что новая модель выдаёт результаты на одном уровне с Llama 3.3 70B instruct, но работает втрое быстрее на том же оборудовании, и рассчитана она на 80 % задач генеративного ИИ.

 Здесь и далее источник изображения: mistral.ai

Здесь и далее источник изображения: mistral.ai

Система создана с прицелом на локальное развёртывание — её архитектура имеет значительно меньше слоёв в сравнении с конкурирующими моделями, что сокращает время на прямой проход. Точность Mistral Small 3 в тесте MMLU составляет 81 % при задержке 150 токенов в секунду, что, как утверждает разработчик, делает её самой эффективной в своей категории. Она также может послужить основой для создания более сложных рассуждающих моделей, таких как DeepSeek R1.

Новая нейросеть прошла тестирование вслепую у сторонних подрядчиков — процедура включала более тысячи заданий на написание кода и ответов на общие вопросы. Mistral Small 3 выдала конкурентоспособные результаты в сравнении с открытыми моделями втрое большего размера, а также закрытой GPT-4o mini в испытаниях, связанных с написанием кода, решением математических задач, проверки общих знаний и выполнения инструкций.

На практике модель окажется полезной в тех случаях, когда критически важны быстрые и точные ответы — это могут быть работающие в реальном времени виртуальные помощники, ИИ-агенты и системы автоматизации рабочих процессов. Разработчик предусмотрел для пользователей возможность проводить тонкую настройку Mistral Small 3 для её специализации в определённых областях — это могут быть юридические консультации, медицинская диагностика и техническая поддержка.

В сфере медицинских услуг Mistral Small 3 способна выявлять попытки мошенничества; в медицине — направлять пациентов к нужным специалистам; в робототехнике, автопроме и на производстве — осуществлять функции управления и контроля; предусмотрены сценарии виртуального обслуживания клиентов, анализа настроений и отзывов. Её можно запустить на системе с одной видеокартой Nvidia GeForce RTX 4090 или на актуальном Apple MacBook с 32 Гбайт оперативной памяти.

Mistral Small 3 уже доступна и в ближайшее время появится на всех наиболее крупных профильных платформах — она распространяется по бесплатной и открытой лицензии Apache 2.0.

ИИ оставили без авторских прав на творчество, но есть и исключения

Медиаконтент, созданный с помощью генеративных нейросетей и основанный только на текстовых подсказках автора, не защищён действующим в США законом об авторском праве. Об этом сказано в опубликованном на этой неделе документе Бюро авторского права США по вопросам политики ведомства в сфере ИИ и возможности защиты авторским правом контента, создаваемого с помощью нейросетей.

 Источник изображения: Copilot

Источник изображения: Copilot

В ведомстве отметили, что при определении произведения, подлежащего защите авторским правом, основным моментом является творческая роль человека. Существует разница между искусственным интеллектом, используемым в качестве вспомогательного инструмента в творческом процессе, и искусственным интеллектом, заменяющим человеческое творчество.

Это означает, что созданное с помощью ИИ произведение может быть защищено авторским правом, если алгоритм использовался для модификации работы человека. Для художников такими работами могут стать рисунки, которые обрабатывались ИИ-алгоритмами для добавления разных эффектов, например, эффекта 3D. Полностью сгенерированные ИИ изображения по-прежнему не будут защищены авторским правом, но это не касается работ, в которых после обработки остаётся узнаваема изначальная работа человека. Это также касается случаев, когда автор добавляет на принадлежащее ему изображение какие-то новые элементы с помощью ИИ. Аналогичным образом видео с добавленными с помощью ИИ эффектами по-прежнему будут защищены законом об авторском праве.

Бюро авторского права США не исключает, что по мере развития технологий действующее законодательство потребует внесения изменений. Позднее в этом году ведомство планирует выпустить окончательную версию отчёта по результатам проведённых исследований в сфере генерации контента и произведений искусства с помощью ИИ.

Samsung наконец начнёт поставлять Nvidia память HBM3E, но для флагманов она не подойдёт

Являясь крупнейшим поставщиком памяти в целом, Samsung Electronics до сих пор не принимала активного участия в снабжении Nvidia микросхемами типа HBM3E для ускорителей вычислений. С подачи Bloomberg сегодня стало известно, что в декабре 8-ярусная память HBM3E прошла сертификацию Nvidia, но будет использоваться последней только в ускорителях для китайского рынка.

 Источник изображения: Samsung Electronics

Источник изображения: Samsung Electronics

Добавим, что передовой среди массово поставляемых изделий сейчас считается 12-ярусная память HBM3E, её формально предлагают все три участника рынка: SK hynix, Micron и Samsung. Последняя, впрочем, уже долгое время не может сертифицировать свою 12-ярусную HBM3E для использования в ускорителях Nvidia, хотя до сих пор не оставляет надежды сделать это. Конкурирующая SK hynix уже снабжает Nvidia передовыми 12-ярусными чипами HBM3E собственного производства. Оба корейских производителя памяти надеются наладить массовые поставки микросхем HBM4 во второй половине текущего года, и позднее заполучить заказы Nvidia на этот вид продукции. Переработанную версию HBM3E корейский гигант надеется начать выпускать в марте этого года.

Ограниченность сферы применения HBM3E производства Samsung компанией Nvidia позволяет предположить, что этот поставщик до сих пор не может в полной мере удовлетворить запросы американского разработчика ускорителей для систем искусственного интеллекта. По всей видимости, Nvidia пока не может применять память HBM3E этой корейской марки в своих передовых ускорителях поколения Blackwell, и ограничится использованием в составе ускорителей семейства Hopper, которые пока можно поставлять в Китай с некоторыми оговорками. Если же санкции США на этом направлении будут усилены, то Samsung на время лишится возможности сотрудничать с Nvidia.

Google запустила ИИ-функцию Ask for Me для звонков в автомастерские и маникюрные салоны вместо пользователя

Google тестирует новый ИИ-инструмент, который обзванивает компании от имени пользователей, чтобы выяснить интересующие их вопросы и записать на встречу. Функция под названием Ask for Me собирает информацию о ценах и доступности услуг, но пока поддерживается только для поиска подходящих под те или иные критерии пользователей маникюрных салонов и автомастерских.

 Источник изображения: Google

Источник изображения: Google

Включение экспериментальной функции в Google Search Labs добавит в результаты веб-поиска местных маникюрных салонов или автомастерских сноску Ask for Me. При её выборе Google задаст пользователю ряд вопросов. Например, если речь об обслуживании автомобиля, то система спросит марку и модель авто, желаемый тип обслуживания (например, замена масла, смена шин и т.д.), а также время и дату, на которые пользователь хотел бы записаться для посещения автомастерской. Также необходимо будет ввести свой адрес электронной почты и/или номер телефона, на которые пользователь будет получать обновления по его запросу.

По словам руководителя отдела продуктов Google Роуз Яо (Rose Yao), функция Ask for Me создана на базе Duplex — инструмента в виде бесплатного сервиса, который использует ИИ для звонков в рестораны и, имитируя человеческий голос, от имени пользователя резервирует места.

В разговоре с порталом The Verge представитель Google Крейг Эвер (Craig Ewer) добавил, что с помощью Ask for Me «каждый звонок начинается с сообщения том, что это автоматизированная система Google, звонящая от имени пользователя». Компании могут отказаться от получения автоматизированных звонков в настройках своего профиля Google Business Profile или при непосредственном общении с ИИ-ботом. Эвер говорит, что для системы предусмотрена система квот по звонкам, чтобы компании не получали такие автоматические звонки слишком часто. Он также добавил, что любая собираемая ИИ-ботом информация «может быть использована для помощи с аналогичными запросами от других пользователей».

Бесплатный ChatGPT стал «умнее по всем параметрам» — OpenAI обновила модель GPT-4o

Компания OpenAI анонсировала обновление для своей ИИ-модели GPT-4o, которая является основой для чат-бота ChatGPT, в том числе его бесплатной версии. Обновление сделало нейросеть «умнее по всем параметрам», а также «наделило более актуальной информацией», а также научило «более глубокому пониманию и анализу загружаемых [пользователями] изображений».

 Источник изображения: OpenAI

Источник изображения: OpenAI

Ключевая особенность свежего обновления ИИ-модели GPT-4o заключается в том, что чат-бот ChatGPT на её основе теперь лучше справляется с задачами по STEM-дисциплинам, то есть лучше разбирается в вопросах науки, технологий, инженерии, математики и программирования. Хорошая новость для тех, кто полагается на помощь ChatGPT, например, в вопросах написания кода или решения задач, связанных с кросс-доменными проблемами.

Также ИИ-модель GPT-4o была обучена на основе более свежей информации, поэтому чат-боты на её основе теперь могут ссылаться на данные до июня 2024 года. Это означает, что ChatGPT сможет предоставлять больше контекста относительно более свежих тенденций и событий.

Что касается функций, связанных с генерацией и редактированием изображений, то ChatGPT теперь лучше «понимает» и анализирует изображения, загружаемые пользователем. Например, чат-бот сможет предоставлять более качественные советы по редактированию изображений, а также лучше анализировать сложные графики и диаграммы.

Наконец, ChatGPT будет проявлять больше энтузиазма в использовании различных эмодзи в своих ответах, особенно, когда в запросах пользователя тоже будут использоваться эмодзи.

Китайская ИИ-модель Kimi k1.5 освоила мультимодальные рассуждения и превзошла OpenAI o1

Если 2024 год стал годом клонов ChatGPT, то 2025 год обещает стать эрой рассуждающих моделей ИИ, а лидерство в этой области захватывают китайские лаборатории. На прошлой неделе много шума наделала DeepSeek со своей рассуждающей моделью R1. А на днях Moonshot AI представила мультимодальную Kimi k1.5, которая обгоняет в тестах OpenAI o1, а стоит в разы меньше. Эти модели представляют собой смену представления о «мыслительном процессе» ИИ.

 Источник изображения: kimi.ai

Источник изображения: kimi.ai

Новые модели далеко ушли от банального пересказа Википедии. Им по силам сложные проблемы — от решения головоломок до объяснения квантовой физики. А Kimi k1.5 уже успела заработать звание «первого настоящего конкурента o1». По оценкам экспертов, Kimi k1.5 — это не просто ещё одна модель ИИ — это скачок вперёд в мультимодальном рассуждении и обучении с подкреплением. Kimi k1.5 от Moonshot AI объединяет текст, код и визуальные данные для решения сложных задач, порою в разы превосходя таких лидеров отрасли, как GPT-4o и Claude Sonnet 3.5 в ключевых тестах.

Контекстное окно Kimi k1.5 на 128 тыс. токенов позволяет модели «за один подход» обрабатывать объём информации, эквивалентный солидному роману. В математических задачах модель может планировать, отражать и корректировать свои шаги на протяжении сотен токенов, имитируя решение проблемы человеком. Вместо того, чтобы повторно генерировать полные ответы, Kimi использует фрагменты предыдущих траекторий, повышая эффективность и сокращая затраты на обучение.

 Источник изображений: medium.com

Источник изображений: medium.com

Традиционный подход, основанный на принципах обучения с подкреплением, предполагает использование сложных инструментов, таких как поиск по дереву Монте-Карло или сети ценностей. Команда Moonshot AI отказалась от них и создала упрощённый фреймворк на базе обучения с подкреплением, используя штраф за длину и баланс между исследованием и эксплуатацией. В результате разработчикам удалось создать модель, которая обучается быстрее и избегает «чрезмерного обдумывания» — распространённой ошибки, когда ИИ тратит вычислительные ресурсы на ненужные шаги.

Kimi k1.5 успела показать себя как мощный инструмент визуализации и одновременной работы с текстом. Модель умеет анализировать диаграммы, решать геометрические задачи и отлаживать код — в тесте MathVista модель показала точность 74,9 %, объединив текстовые подсказки с графическими диаграммами.

Исследователи Moonshot AI, вместо того чтобы полагаться на мощные, но медленные длинноцепочечные рассуждения (Long-CoT), использовали метод Long2Short («длинные-в-короткие»), добившись более лаконичных и быстрых ответов. Для этого применялись следующие методы:

  • Объединение моделей путём смешивания весов длинных и коротких версий CoT.
  • Выборка кратчайшего отклонения — отбор самого короткого и корректного ответа из восьми сгенерированных вариантов.
  • Оптимизация DPO — обучение модели предпочтению кратких ответов без потери смысла.

Даже при прямом сравнении Kimi K1.5 оставляет GPT-4o и Claude Sonnet 3.5 далеко позади. Разработчикам Moonshot AI удалось оптимизировать процесс обучения с подкреплением благодаря:

  • Гибридному развёртыванию — совместному использованию ресурсов GPU для обучения и вывода.
  • Частичным развёртываниям — разделению длинных траекторий на управляемые фрагменты для более эффективного обучения.
  • Песочницам кода — безопасным средам для тестирования выходных данных кода, что гарантирует их надёжность.

По мнению экспертов, Kimi K1.5 — это не просто технологический прорыв, а взгляд в будущее ИИ. Объединяя обучение с подкреплением с мультимодальным рассуждением, эта модель решает задачи быстрее, умнее и эффективнее.

Google научила ИИ-чат-бот Gemini создавать диаграммы и визуализировать данные из таблиц

Разработчики из Google продолжают расширять интеграцию своего ИИ-бота Gemini с разными сервисами компании. На этот раз алгоритм получил новые возможности в сервисе «Google Таблицы». Пользователи могут задействовать Gemini для построения диаграмм на основе собственных данных, а также для анализа тенденций, выявления закономерностей и связей между разными показателями.

 Источник изображения: Google

Источник изображения: Google

Созданные с помощью Gemini диаграммы представляют собой изображения, которые, например, в дальнейшем можно вставить в презентацию или какой-либо документ. Поскольку алгоритм создаёт статические изображения, пользователям нужно будет генерировать изображения каждый раз после обновления данных, на основе которых создаются диаграммы.

Отмечается, что на точность работы Gemini могут влиять некоторые факторы, включая непоследовательное форматирование данных или отсутствие некоторых значений. Кроме того, снизить качество генерируемых диаграмм могут недостаточно точные подсказки, с помощью которых пользователь объясняет чат-боту, что именно хочет получить в конечном итоге.

Функция генерации изображений диаграмм, а также другие опции, позволяющие анализировать данные, в ближайшее время станут доступны подписчикам Google One AI Premium за $19,99, а также платным подписчикам платформы Google Workspace и пользователям продуктов Gemini Enterprise, Gemini Business и Gemini Education Premium. Масштабное развёртывание новых инструментов займёт несколько недель.

Microsoft открыла доступ к DeepSeek R1 своим клиентам в GitHub и Azure

Компания Microsoft на удивление оперативно предоставила доступ своим клиентам к продвинутой ИИ-модели DeepSeek R1 со способностью к размышлению, пишет The Verge. Теперь она является частью каталога моделей на Azure AI Foundry и GitHub, что позволяет клиентам Microsoft интегрировать её в свои приложения ИИ.

 Источник изображения: Solen Feyissa/unsplash.com

Источник изображения: Solen Feyissa/unsplash.com

«Одним из ключевых преимуществ использования DeepSeek R1 или любой другой модели на Azure AI Foundry является скорость, с которой разработчики могут экспериментировать и интегрировать ИИ в свои рабочие процессы», — отметила Аша Шарма (Asha Sharma), корпоративный вице-президент Microsoft по ИИ. По её словам, DeepSeek R1, анонс которой привёл к резкому падению акций многих технологических компаний США на этой неделе из-за возможности обучения с гораздо меньшими затратами по сравнению с ведущими моделями OpenAI, прошла строгие проверки защищённости в формате Red Teaming и безопасности, включая автоматизированные оценки поведения модели и обширные проверки безопасности для снижения потенциальных рисков.

Microsoft также вскоре сделает уменьшенную версию R1 доступной для локального запуска на ПК Copilot Plus, и вполне возможно, что R1 появится в других сервисах на базе ИИ от Microsoft.

Ранее появились сообщения о том, что OpenAI и Microsoft проводят расследование по поводу возможного использования китайской компанией API OpenAI для обучения своих моделей.


window-new
Soft
Hard
Тренды 🔥
Фанатам придётся набраться терпения: Amazon раскрыла, когда начнутся съёмки сериала Mass Effect от команды «Фоллаут» 14 мин.
Sony наконец упростила процесс возврата средств в PS Store, но есть нюанс 53 мин.
Трамп задумал поддержать американских ИТ-гигантов санкциями против стран и чиновников ЕС 3 ч.
Сезон скидок на обучение: как выбрать курс и сэкономить 5 ч.
«Я бы не стал выпускать продукт в таком виде»: эксперт Digital Foundry не оценил Elden Ring на Nintendo Switch 2 6 ч.
ИИ-блокнот NotebookLM научился делать видеообзоры на русском и десятках других языков 14 ч.
Ещё одна жертва Silksong: тактическую ролевую игру Demonschool с элементами Persona и Into the Breach перенесли вопреки желанию разработчиков 16 ч.
Гендиректора Ubisoft Ива Гиймо вызвали в суд по делу о домогательствах подчинённых 18 ч.
Календарь релизов — 25–31 августа: Metal Gear Solid Delta, Gears of War Reloaded и Lost Soul Aside 19 ч.
Слухи: следующая Nintendo Direct пройдёт совсем скоро и будет включать анонс даты выхода Metroid Prime 4: Beyond 19 ч.