Сегодня 19 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ио
Быстрый переход

Вежливость — это дорого: OpenAI тратит миллионы долларов на «спасибо» и «пожалуйста» в ChatGPT

Компания OpenAI ежегодно тратит десятки миллионов долларов на обработку вежливых фраз вроде «спасибо» и «пожалуйста» в ChatGPT. Несмотря на высокие затраты, генеральный директор компании Сэм Альтман (Sam Altman) считает это оправданным. По его мнению, такие ответы делают общение с искусственным интеллектом более человечным и дружелюбным.

 Источник изображения: AI

Источник изображения: AI

Хотя известно, что ИИ не испытывает эмоций, многие пользователи инстинктивно благодарят ChatGPT, как если бы общались с реальным человеком, но как отмечает Альтман, даже короткие ответы вроде «не за что» требуют значительных вычислительных ресурсов. Как пишет Tom's Hardware, один такой ответ «стоит» 40–50 миллилитров воды и энергозатрат на работу дата-центров.

OpenAI могла бы заранее запрограммировать шаблонные ответы на вежливые реплики, но это сложно реализовать технически. Поэтому компания предпочитает сохранять естественность диалога, даже если это увеличивает расходы. При этом часть пользователей настолько привыкает к ChatGPT, что начинает воспринимать его как собеседника, что, по мнению исследователей из OpenAI и Массачусетского технологического института (MIT), может привести даже к эмоциональной зависимости.

Интересно, что пользователи, которые оплачивают каждый запрос токенам, формально уже «включили» вежливые ответы в стоимость сервиса. Эксперты не исключают, что по мере развития ИИ граница между человеческим и машинным общением исчезнет, и тогда привычка быть вежливым с ChatGPT может оказаться полезной. Впрочем, пока это лишь теория, а миллионные расходы OpenAI на любезности вполне реальны.

Среди пользователей ChatGPT завирусилась новая забава — поиск местоположения по фото

На этой неделе OpenAI выпустила новейшие модели искусственного интеллекта o3 и o4-mini, способные рассуждать, используя загружаемые пользователями фотографии. На практике они обрезают, вращают и увеличивают снимки, даже размытые и искажённые, и проводят их тщательный анализ. Расширенные возможности анализа сделали ChatGPT мощным инструментом для поиска местоположения.

 Источник изображения: ilgmyzin / unsplash.com

Источник изображения: ilgmyzin / unsplash.com

Рассуждающая модель OpenAI o3, установили пользователи соцсети X, хорошо проявила себя в задаче по определению представленных на снимков городов, достопримечательностей и даже заведений общепита по едва заметным визуальным подсказкам. Во многих случаях ИИ обходится без анализа прошлой переписки с пользователем и без геолокации в метаданных. ChatGPT демонстрируют меню ресторанов, снимки окрестностей, фасады зданий и свои селфи и якобы предлагают сыграть в GeoGuessr, когда нужно угадывать местоположения по панорамам в «Google Картах».

 Источник изображения: x.com/izyuuumi

Источник изображения: x.com/izyuuumi

Возникают очевидные вопросы о конфиденциальности: гипотетический злоумышленник может сделать снимок экрана при просмотре Instagram Stories какого-либо пользователя и раскрыть информацию о нём с целью последующей травли и других противоправных действий. На деле эта функция ChatGPT работала ещё до выхода o3 и o4-mini, обратил внимание ресурс TechCrunch: его журналисты попробовали провернуть тот же трюк с версией чат-бота на основе модели GPT-4o — она давала преимущественно те же результаты и отвечала быстрее. Модель o3 как более мощная чаще давала правильно ответы, но иногда были и сбои.

 Источник изображения: x.com/swax

Источник изображения: x.com/swax

В отчётах о безопасности для моделей o3 и o4-mini компания OpenAI о таком их применении не упомянула. Но дала развёрнутый комментарий ресурсу TechCrunch: «OpenAI o3 и o4-mini привнесли в ChatGPT визуальные рассуждения, сделав его более полезным в таких областях как специальные возможности, исследования или определение местоположения при реагировании на чрезвычайные ситуации. Мы провели работу над тем, чтобы обучить наши модели отклонять запросы на выдачу частной или конфиденциальной информации, добавили меры безопасности, призванные не дать модели идентифицировать частных лиц на изображениях; мы активно отслеживаем и принимаем меры против злоупотреблений нашими политиками конфиденциальности».

Отчёт Google о Gemini 2.5 Pro раскритиковали за отсутствие прозрачности о безопасности ИИ

Эксперты раскритиковали Google за недостаток прозрачности и минимальное количество информации в техническом отчёте по Gemini 2.5 Pro. Они считают, что документ без полных данных не даёт адекватного представления о возможных рисках новой ИИ-модели .

 Источник изображений: Google

Источник изображений: Google

Отчёт был опубликован спустя несколько недель после запуска Gemini 2.5 Pro — самой мощной на сегодняшний день модели Google. Хотя такие документы обычно считаются важной частью обеспечения безопасности искусственного интеллекта (ИИ) и помогают независимым исследователям проводить собственные оценки рисков, в данном случае отчёт оказался «очень скудным», пишет TechCrunch.

«В документе минимум информации, и он появился уже после того, как модель была доступна широкой публике, — заявил Питер Уилдефорд (Peter Wildeford), сооснователь Института политики и стратегии в области ИИ. — Невозможно проверить, выполняет ли Google свои публичные обещания, а значит невозможно оценить безопасность и надёжность моделей компании».

Отдельную критику вызвало отсутствие упоминания о внутренней системе оценки рисков Frontier Safety Framework (FSF), которую Google представила в прошлом году для выявления потенциально опасных возможностей ИИ. В новом отчёте не содержится результатов тестов по опасным способностям модели — эти данные Google хранит отдельно и обычно не публикует вместе с основным документом.

Эксперты считают, что Google, некогда выступавшая за стандартизацию отчётности по ИИ, теперь сама отходит от своих принципов. Отдельная обеспокоенность связана с тем, что компания до сих пор не представила отчёт по недавно анонсированной модели Gemini 2.5 Flash. Однако представитель Google заявил изданию TechCrunch, что этот документ выйдет в ближайшее время.

Отмечается, что ситуация с Google, очевидно, является частью более широкой тенденции. Например, Meta недавно также подверглась критике за поверхностный анализ рисков своей новейшей ИИ-модели Llama 4, а OpenAI вовсе не представила отчёт по линейке GPT-4.1.

«Мы явно наблюдаем гонку на понижение стандартов, — заявил Кевин Бэнкстон (Kevin Bankston), старший советник по вопросам управления ИИ Центра демократии и технологий. — А на фоне сообщений о том, что другие компании, включая OpenAI, сокращают время на тестирование с месяцев до дней, такой уровень отчётности Google является тревожным сигналом».

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Grok научился запоминать предпочтения пользователя

Стартап Илона Маска (Elon Musk) xAI представил функцию «памяти» для Grok, тем самым приблизив его к ведущим конкурентам, таким как OpenAI ChatGPT и Google Gemini. Благодаря новой возможности чат-бот сможет запоминать предпочтения пользователя.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

Компания xAI анонсировала функцию «памяти» для Grok, с которой он сможет запоминать подробности прежних разговоров с пользователем. Если попросить Grok дать рекомендации, его ответы будут персонализированными — предполагается, что у пользователя уже есть некоторый опыт общения с системой, и у той была возможность изучить его предпочтения.

Аналогичная функция памяти у ChatGPT есть уже продолжительное время; недавно OpenAI усовершенствовала её механизмы и дала системе возможность учитывать историю всех переписок с пользователем. Собственная долговременная память есть и у Google Gemini, который адаптирует ответы под отдельных пользователей.

«Воспоминания прозрачны. Вы можете в точности увидеть, что знает Grok, и выбрать, что ему забыть», — пояснили в xAI. Функция памяти доступна на собственном сайте чат-бота и в приложениях под Android и iOS; пользователи из ЕС и Великобритании воспользоваться ей пока не смогут. Отключить функцию можно в настройках чат-бота; отдельные «воспоминания» удаляются через веб-интерфейс — вскоре функция дебютирует в приложении для Android. Сейчас идёт работа над добавлением функции памяти в Grok на платформе X.

В Microsoft разработали сверхэффективную ИИ-модель, которая запускается на CPU

Исследователи из Microsoft сообщили о разработке самой масштабной однобитной модели искусственного интеллекта — такой архитектурный подход называется «битнет». Модель BitNet b1.58 2B4T выложена в открытый доступ по лицензии MIT, и для её работы достаточно центрального процессора, в том числе Apple M2.

Системы «битнет» — это сжатые модели, предназначенные для запуска на оборудовании невысокой производительности. В случае стандартных моделей веса — значения, которые определяют её внутреннюю структуру, — зачастую квантуются. При квантизации уменьшается количество битов, необходимых для представления весов, а модели получают возможность быстрее работать на системах с меньшим объёмом памяти. Битнет предполагает квантование веса в три значения: «-1», «0» и «1», то есть в теории такие модели оказываются значительно эффективнее с точки зрения памяти и вычислительных ресурсов, чем большинство современных систем ИИ.

BitNet b1.58 2B4T, утверждают в Microsoft, — это первая модель на основе данной архитектуры, у которой 2 млрд параметров, причём параметры в значительной степени — то же, что веса. Она была обучена на массиве данных в 4 трлн токенов, что, по оценкам, эквивалентно примерно 33 млн книг. BitNet b1.58 2B4T не уступает аналогичным моделям того же размера: она превзошла Meta Llama 3.2 1B, Google Gemma 3 1B и Alibaba Qwen 2.5 1.5B в тестах GSM8K (математика уровня начальной школы) и PIQA (оценка здравого смысла). При этом модель в некоторых случаях работает вдвое быстрее аналогов и использует меньше памяти.

Но есть один нюанс: для достижения максимальной производительности модели необходим разработанный Microsoft фреймворк bitnet.cpp, который поддерживает лишь определённое оборудование. В списке поддерживаемых чипов отсутствуют графические процессоры, без которых современная отрасль ИИ немыслима. Таким образом, архитектурный подход «битнет» представляется перспективным направлением, но препятствием пока является аппаратная совместимость.

Microsoft научила бесплатный Copilot «подсматривать» за тем, что пользователь делает в браузере Edge

Функция Copilot Vision, которая позволяет фирменному ИИ-помощнику Microsoft просматривать и понимать происходящее на экране пользовательского устройства, теперь доступна для бесплатного использования в браузере Edge. Об этом сообщил глава подразделения Microsoft AI Мустафа Сулейман (Mustafa Suleyman).

 Источник изображения: Microsoft

Источник изображения: Microsoft

Он также рассказал, что функция Copilot Vision позволяет ИИ-алгоритму буквально видеть то, что видит пользователь на экране. Это нововведение может пригодится в разных ситуациях, например, Copilot может подсказывать выведенный на экран рецепт приготовления какого-то блюда. При этом он не будет самостоятельно переходить по ссылкам или выполнять какие-то действия от имени пользователя.

Более продвинутые общесистемные функции Copilot Vision останутся доступными только платным подписчикам Copilot Pro. С этой подпиской Copilot Vision выходит за пределы Edge и может помогать при взаимодействии с другими приложениями. Например, ИИ-помощник подскажет, как использовать ту или иную функцию Photoshop, расскажет, как пройти трудное место в игре, и др.

Для начала использования Copilot Vision в браузере необходимо с помощью Edge открыть соответствующий раздел на сайте Microsoft и подтвердить своё согласие на использование ИИ-функции. После этого будет достаточно открыть боковую панель Copilot и нажать на ярлык с изображением микрофона. Начало работы функции Copilot Vision будет сопровождаться характерным звуковым сигналом, а в браузере также немного изменится цветовое оформление. Согласно имеющимся данным, Microsoft регистрирует ответы Copilot, но не собирает пользовательскую информацию, изображения или содержание страниц во время взаимодействия с Copilot Vision. Для отключения функции достаточно закрыть окно браузера.

Новая статья: Расширяя границы возможностей: обзор российских студенческих разработок в сфере искусственного интеллекта

Данные берутся из публикации Расширяя границы возможностей: обзор российских студенческих разработок в сфере искусственного интеллекта

OpenAI выпустила o3 и o4-mini — самые мощные рассуждающие модели, которые умеют «думать» картинками

Компания OpenAI объявила о выпуске двух новых моделей искусственного интеллекта, в которых основной акцент сделан на улучшение способности к рассуждению. Модель OpenAI o3 разработчики называют «самой мощной моделью со способностью к рассуждению». А OpenAI o4-mini — это более компактная и быстрая рассуждающая модель, которая демонстрирует «впечатляющую производительность для своего размера и стоимости».

 Источник изображений: OpenAI

Источник изображений: OpenAI

Особенностью новых больших языковых моделей является их способность «думать» изображениями, то есть интегрировать визуальную информацию непосредственно в цепочку рассуждений. Это особенно полезно при работе с эскизами или контентом на электронных досках. Модели также умеют изменять изображения — увеличивать, поворачивать и анализировать их в процессе обработки.

OpenAI также сообщает, что новые модели смогут использовать все инструменты ChatGPT, включая веб-поиск, анализ и генерацию изображений, а также чтение файлов. Эти функции становятся доступны с сегодняшнего дня пользователям тарифов ChatGPT Plus, Pro и Team, использующим модели o3, o4-mini и o4-mini-high. Поддержка инструментов для самой мощной модели o3-pro ожидается «в течение нескольких недель». При этом текущие модели o1, o3-mini и o3-mini-high будут постепенно выведены из эксплуатации в рамках указанных тарифных планов.

Сегодняшние анонсы последовали за презентацией флагманской модели ИИ GPT-4.1 — преемницы GPT-4o, состоявшейся в понедельник.

Игровой ИИ-помощник от Microsoft стал доступен сотрудникам Xbox — подробности тестовой версии Copilot for Gaming

Старший редактор The Verge Том Уоррен (Tom Warren) со ссылкой на свои источники сообщает, что Microsoft приступила к тестированию среди сотрудников ранней версии анонсированного в марте игрового ИИ-помощника Copilot for Gaming.

 Источник изображения: Steam (steppingonlegos)

Источник изображения: Steam (steppingonlegos)

По данным информаторов Уоррена, работники Microsoft получили доступ к Copilot в мобильном приложении Xbox — эта версия чат-бота напоминает существующую, но предназначена для интеграции с учётной записью Xbox.

Сейчас Copilot for Gaming включает возможность «подтянуть» последние достижения, получить рекомендации игр на основе своей истории и советы по прохождению. Чат-бота также можно использовать для загрузки/установки игр на консоль Xbox.

Как и в случае с существующей версией Copilot, пользователь может напечатать свой запрос чат-боту или озвучить вопрос. Среди доступных голосов ассистента фигурируют энергичный, мудрый, спокойный и мужественный.

 Экран настройки Copilot for Gaming (источник изображения: The Verge)

Экран настройки Copilot for Gaming (источник изображения: The Verge)

В будущем Microsoft планирует добавить в игровой Copilot анимированные версии персонажей для помощника и функцию Copilot Vision, которая позволит ИИ «видеть» экран пользователя и помогать ему в ходе геймплея.

Стартовая версия Copilot for Gaming станет доступна участникам программы Xbox Insider уже совсем скоро (обещали в апреле). Microsoft собирается активно дорабатывать ИИ-помощника на основе пользовательских отзывов.

Согласно мартовскому анонсу, в конечном итоге Copilot for Gaming будет доступен на разных устройствах, включая консоли Xbox, в качестве ассистента и компаньона, который сможет давать советы по играм, их загрузке, запуску и многому другому.

Grok получил функцию Studio для совместной работы ИИ и пользователя над документами и кодом

Чат-бот с искусственным интеллектом Grok, созданный стартапом Илона Маска (Elon Musk) xAI, получил новую функцию, которая позволит ему участвовать в создании документов и приложений наравне с пользователем. Функция, получившая название Grok Studio, доступна для пользователей бесплатной и платной версий Grok на отдельном сайте проекта.

 Источник изображения: x.com/grok

Источник изображения: x.com/grok

«Теперь Grok может генерировать документы, код, отчёты, и браузерные игры. Grok Studio открывает ваши материалы в отдельном окне, что позволяет вам и Grok совместно работать над ними», — гласит опубликованный в соцсети X анонс новой функции. Это уже не первый чат-бот с ИИ, которому выделили отдельное пространство для совместной работы с пользователем: в версии OpenAI ChatGPT эта функция называется Canvas, а у Anthropic это Artifacts for Claude.

Существенных отличий Grok Studio от служб конкурентов, видимо, нет. Сервис позволяет просматривать элементы HTML и запускать код на языках Python, C++ и JavaScript — все материалы демонстрируются в окне справа от ответов Grok. Возможности Grok Studio обещают дополнительно расшириться за счёт ещё одной новой функции чат-бота — интеграции с «Google Диском». Она позволяет отправлять файлы в Grok прямо из облачного хранилища. Чат-бот работает с текстовыми документами, электронными таблицами и презентациями.

Microsoft позволила Copilot Studio самостоятельно управлять компьютером по заданию пользователя

Microsoft добавила в Copilot Studio новую функцию «Использовать компьютер» — она позволяет агентам искусственного интеллекта взаимодействовать с веб-сайтами и настольными приложениями. Copilot Studio, как ранее OpenAI Operator и аналогичная функция Anthropic Claude, может использовать сайты и локальное ПО как средства для автоматизации рабочих задач.

 Источник изображений: microsoft.com

Источник изображений: microsoft.com

«Использование компьютера позволяет агентам взаимодействовать с сайтами и настольными приложениями, нажимая кнопки, выбирая [пункты] меню и вводя текст в экранные поля. Агенты выполняют задачи, даже когда нет API для прямого подключения к системе. Если приложение может использовать человек, то может и агент», — рассказали о новой функции в Microsoft.

В Copilot Studio можно создавать агентов ИИ, способных автоматизировать ввод данных, проводить маркетинговые исследования или обрабатывать бухгалтерские документы. ИИ, уверяют в Microsoft, обучен обнаруживать, когда расположение кнопок в приложениях или на сайтах меняется, и продолжает работать без сбоев.

 Источник изображений: microsoft.com

Ранее похожую функцию Actions компания Microsoft добавила в потребительскую версию Copilot — действия выполняются в фоновом режиме, когда человек занят другими задачами. Copilot может бронировать столки в ресторане, покупать билеты на мероприятия и товары в интернет-магазинах. При этом возможности Actions ограничены установленными партнёрами Microsoft, а Copilot Studio предлагает бесплатную работу с бо́льшим числом сайтов и приложений.

ИИ помог Google заблокировать более 39 млн подозрительных рекламных аккаунтов

В 2024 году Google заблокировала на рекламной платформе 39,2 млн учётных записей — более чем в три раза больше, чем в предыдущем году. Такого результата компания добилась в рамках последней операции, направленной на борьбу с мошенничеством в рекламе.

 Источник изображений: Google

Источник изображений: Google

Большие языковые модели помогли учесть такие сигналы как выдача себя за другое лицо и не соответствующие действительности платёжные реквизиты — теперь компания уверена, что способна блокировать «подавляющее большинство» рекламных аккаунтов ещё до того, как их реклама начнёт демонстрироваться. В прошлом году Google внесла более 50 улучшений в большие языковые модели для улучшения механизмов безопасности на всех своих платформах. Компания собрала команду из более чем сотни экспертов, включая работников отдела Ads Safety, подразделения Trust and Safety и учёных из DeepMind — они проанализировали мошеннические схемы с присутствием фейков в рекламе, в том числе поддельных изображений известных людей, и разработали контрмеры. В прошлом году компания развернула технические контрмеры и внесла более 30 обновлений политики для рекламодателей и площадок. Это помогло заблокировать более 700 тыс. нарушающих правила учётных записей, и число жалоб на фейки в рекламе снизилось на 90 %.

Только в США Google за минувший год заблокировала 39,2 млн аккаунтов рекламодателей и удалила 1,8 млрд рекламных объявлений — основные нарушения были связаны со злоупотреблениями платформой, неправомерным использованием товарных знаков, заявлениями в области здравоохранения, персонализацией рекламы и искажением фактов. В Индии, самой густонаселённой стране мира и втором по величине интернет-рынке после Китая по количеству пользователей, в прошлом году компания заблокировала 2,9 млн учётных записей — по этому критерию страна стала второй в мире после США. Здесь были удалены 247,4 млн рекламных объявлений; самые частые нарушения были связаны с финансовыми услугами, неправомерным использованием товарных знаков, злоупотреблением рекламными сетями, персонализацией рекламы и азартными играми.

Из всех случаев блокировки рекламных аккаунтов Google заблокировала 5 млн учётных записей за нарушения, связанные с мошенничеством, и около полумиллиарда объявлений по той же причине. В 2024 году, который в большинстве стран мира оказался годом выборов, компания проверила более 8900 новых рекламодателей по данному направлению и удалила 10,7 млн предвыборных объявлений. В общей сложности Google за минувший год заблокировала 5,1 млрд объявлений и удалила 1,3 млрд страниц — для сравнения, в 2023 году это были 5,5 млрд объявлений и 2,1 млрд страниц на сайтах издателей. Снижение этих показателей указывает на улучшение профилактических мер, считают в компании. Из-за работы механизмов раннего обнаружения и блокировки учётных записей, нарушающих условия обслуживания, создаются меньше рекламных объявлений с нарушениями. Прочие ограничения были наложены на 9,1 млрд объявлений. В Google не исключают и собственных ошибок, поэтому предусмотрена процедура подачи апелляции — каждый спорный случай рассматривает уже человек.

Opera Mini получила ИИ-помощника Aria AI

Норвежский разработчик браузеров Opera сообщил о выходе в общий доступ помощника с искусственным интеллектом Aria AI для пользователей Opera Mini на Android. Воспользоваться им смогут владельцы недорогих устройств и абоненты, у которых тарифы с небольшими объёмами трафика.

 Источник изображения: opera.com

Источник изображения: opera.com

Aria AI поможет пользователям узнать последние новости и прочую информацию по разным темам, поддерживается генерация изображений. Для получения ответов на запросы пользователей инженеры Opera подключили модели ИИ от OpenAI и Google. Браузер Opera Mini дебютировал в 2005 году — он помогает пользователям экономить данные при веб-сёрфинге. Этот принцип не будет нарушаться даже с появлением ИИ-помощника в приложении, уверяют разработчики.

За минувшие годы компания заключила соглашения с несколькими телекоммуникационными компаниями в Африке, которые предложили бесплатный трафик для пользователей Opera Mini. В минувшем году Opera пришлось закрыть программу в Кении — местные власти ограничили показ рекламы в интерфейсе браузера.

К настоящему моменту число загрузок Opera Mini превысило 1 млрд — у браузера более 100 млн пользователей по всему миру. Только с начала этого года приложение Opera Mini скачали 7,1 млн раз, гласит статистика аналитической компании Appfigures. Помимо ИИ-помощника, разработчики Opera экспериментируют и с другими функциями на основе ИИ: это, в частности, управление вкладками при помощи команд естественной речью и запуск агентов, выполняющих операции в автономном режиме.

Шведские учёные обучили ИИ переводу с лошадиного

Группа учёных из Швеции разработала модель искусственного интеллекта Dessie, предназначенную для перевода языка тела лошадей в понятный для человека формат. В основу решения легли технологии машинного обучения и синтетические изображения.

 Источник изображений: Helena Lopes / unsplash.com

Источник изображений: Helena Lopes / unsplash.com

Во время клинических осмотров ветеринары часто изучают визуальные сигналы, которые подают животные, но этот способ не всегда надёжен: лошадь может перенести боль на другую ногу, изменить распределение веса или позу. Её поведение может указывать на проблемы ортопедического характера, расстройства поведения или признаки травмы. Традиционные средства диагностики, в том числе рентген и МРТ, дают результаты уже после того, как проблема возникла. Цель Dessie — прочитать язык тела лошади, чтобы обнаружить признаки проблемы заранее.

Во время работы модель в реальном времени преобразует плоские изображения в трёхмерные, которые отражают форму, позу и движение лошади. Это не просто визуализация, а попытка осуществить перевод с выразительного языка тела. При создании Dessie использовалось обучение с разделением факторов. В традиционных моделях вся информация — поза, форма, фон, освещение — идёт в едином потоке, что может сбить ИИ с толку и затруднить фокусировку на главном — самой лошади. Обучение с разделением факторов позволяет учитывать каждую особенность отдельно: форма представляется одной сущностью, поза — другой, а не имеющий отношения к задаче фоновый шум игнорируется.

Генерируемые Dessie трёхмерные объекты отличаются не только высокой детализацией, но и надёжностью. ИИ помогает исследователям изолировать шаблоны движения, не отвлекаясь на окружающие объекты и различия в освещении. Dessie не требует высококачественных камер и маркеров на теле лошади — ей достаточно одной простой камеры и базовых видеоматериалов. Воспользоваться технологией могут работники сельских клиник, не имеющие доступа к дорогостоящим средствам визуализации.

 Источник изображений: Helena Lopes / unsplash.com

Для обучения ИИ исследователям потребовались огромные объёмы визуальных данных. Поскольку собрать реальные изображения лошадей разных пород в различных позах и при разном освещении сложно, они разработали генератор синтетических данных DessiePIPE. Он способен создавать неограниченное количество изображений лошадей с использованием трёхмерной модели и текстур, сгенерированных ИИ, на основе характеристик разных пород. Это позволило авторам проекта обучить Dessie особенностям движений лошадей без необходимости изучения тысяч реальных животных: DessiePIPE визуализирует лошадей, которые ходят, едят, встают на дыбы или отдыхают — в различных фонах и условиях освещения. Система также создаёт пары изображений для сопоставления, отличающиеся лишь одним параметром — например, формой или позой, — чтобы модель научилась замечать тонкие различия. В результате Dessie научилась распознавать малые изменения в движении и стала эффективнее обобщать данные для новых условий.

Лошади сигнализируют о болевых ощущениях незначительными изменениями в походке и позе, заметными лишь опытному ветеринару. Dessie переводит эти сигналы в объективные трёхмерные показатели, помогая выявлять проблемы на ранней стадии. Она создаёт цифровую запись позы и движений животного, которую можно просматривать многократно, отслеживать в динамике и передавать в другие клиники. Несмотря на то что Dessie обучалась на синтетических данных, ИИ эффективно работает с реальными изображениями: для настройки системы потребовалось всего 150 реальных снимков с аннотациями. Этого набора хватило, чтобы Dessie обошла передовые модели в тестовых задачах: при обнаружении ключевых точек, таких как суставы и другие важные элементы, система показала лучшие результаты, чем MagicPony и Farm3D. Также Dessie точнее предсказывает форму тела и движение, что важно для диагностики хромоты или мышечной асимметрии. При увеличении объёма обучающих данных её эффективность возрастала ещё сильнее — благодаря преимуществам обучения с разделением факторов.

Dessie создавалась для анализа лошадей, но архитектура системы настолько гибка, что позволяет получать качественные результаты и при работе с другими похожими животными: коровами, зебрами, оленями. Модель успешно реконструировала их в 3D, несмотря на отсутствие прямого обучения на этих видах. Это открывает большой потенциал в сфере защиты животных: система может изучать редкие виды, используя только готовые фотографии и видео, без необходимости в инвазивном мониторинге. Dessie также продемонстрировала высокую эффективность при обработке художественных изображений, включая картины и мультфильмы, по которым она способна строить точные трёхмерные модели.

Однако у системы есть и недостатки. Она работает лучше всего, когда в кадре находится только одна лошадь, и испытывает трудности при столкновении с необычными формами тела, отсутствовавшими в обучающих данных. Эту проблему должна решить новая модель VAREN, поддерживающая большее разнообразие форм. В целом Dessie проста в использовании: она анализирует язык тела лошади и переводит его в синтезированную речь, благодаря чему общение человека с животным выходит на новый уровень.


window-new
Soft
Hard
Тренды 🔥
Новая статья: South of Midnight — соткана по лекалам. Рецензия 5 ч.
Вежливость — это дорого: OpenAI тратит миллионы долларов на «спасибо» и «пожалуйста» в ChatGPT 6 ч.
Спустя восемь лет «беты» Escape from Tarkov взяла курс на версию 1.0 — план обновлений игры на 2025 год 7 ч.
ChatGPT научился использовать воспоминания о пользователе для персонализации веб-поиска 7 ч.
Создатели следующей Battlefield рассказали о новом «языке разрушения» и показали его в деле 9 ч.
Глава Microsoft Gaming Фил Спенсер намекнул на продолжение Indiana Jones and the Great Circle 9 ч.
Разработчики Everspace 2 решили снизить цену на дополнение Wrath of the Ancients, потому что «вокруг дорожает буквально всё» 11 ч.
Google обжалует «неблагоприятное» решение суда о признании её монополистом в интернет-рекламе 11 ч.
84 % россиян выходят в интернет каждый день, подсчитал Mediascope 11 ч.
Cloud.ru представил первый в России управляемый облачный сервис для инференса ИИ-моделей — Evolution ML Inference 13 ч.
HP отделалась выплатой $4 млн по иску о завышенных ценах и фиктивных скидках 11 ч.
Xiaomi представила компактный домашний проектор Redmi 3 Lite за $100 11 ч.
Nintendo Switch 2 избежала подорожания, несмотря на новые пошлины США — аксессуары тем же похвастаться не могут 11 ч.
Western Digital запустила в США масштабную программу извлечения редкоземельных элементов из HDD — уже переработано почти 23 т дисков Microsoft 12 ч.
Физики обнаружили аномальный эффект Холла в неожиданном месте 13 ч.
Из-за политики США европейские пользователи задумались об уходе из американских облаков 14 ч.
Продажи российского электромобиля Lada e-Largus выросли до одного экземпляра в первом квартале 14 ч.
Intel расследует падение производительности видеокарт Arc при работе со старыми CPU 14 ч.
Китайская EHang пообещала запустить сервис летающих такси по разумной цене до конца года 15 ч.
$278 млрд налогов недоплатила «Кремниевая шестёрка» IT-гигантов благодаря лазейкам в законе 15 ч.