Сегодня 24 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ии
Быстрый переход

Meta✴ показала ИИ для метавселенной и создала альтернативу традиционным большим языковым моделям

Meta доложила о результатах последних исследований в области искусственного интеллекта в рамках проектов FAIR (Fundamental AI Research). Специалисты компании разработали модель ИИ, которая отвечает за правдоподобные движения у виртуальных персонажей; модель, которая оперирует не токенами — языковыми единицами, — а понятиями; и многое другое.

 Источник изображения: Google DeepMind / unsplash.com

Источник изображения: Google DeepMind / unsplash.com

Модель Meta Motivo управляет движениями виртуальных человекоподобных персонажей при выполнении сложных задач. Она была обучена с подкреплением на неразмеченном массиве с данными о движениях человеческого тела — эта система сможет использоваться в качестве вспомогательной при проектировании движений и положений тела персонажей. «Meta Motivo способна решать широкий спектр задач управления всем телом, в том числе отслеживание движения, принятие целевой позы <..> без какой-либо дополнительной подготовки или планирования», — рассказали в компании.

Важным достижением стало создание большой понятийной модели (Large Concept Model или LCM) — альтернативы традиционным большим языковым моделям. Исследователи Meta обратили внимание, что современные передовые системы ИИ работают на уровне токенов — языковых единиц, обычно представляющих фрагмент слова, но не демонстрируют явных иерархических рассуждений. В LCM механизм рассуждения отделён от языкового представления — схожим образом человек сначала формирует последовательность понятий, после чего облекает её в словесную форму. Так, при проведении серии презентаций на одну тему у докладчика уже есть сформированная серия понятий, но формулировки в речи могут меняться от одного мероприятия к другому.

При формировании ответа за запрос LCM предсказывает последовательность не токенов, а представленных полными предложениями понятий в мультимодальном и многоязычном пространстве. По мере увеличения контекста на вводе архитектура LCM, по мнению разработчиков, представляется более эффективной на вычислительном уровне. На практике эта работа поможет повысить качество работы языковых моделей с любой модальностью, то есть форматом данных, или при выводе ответов на любом языке.

 Источник изображения: ***

Источник изображения: Meta

Механизм Meta Dynamic Byte Latent Transformer также предлагает альтернативу языковым токенам, но не посредством их расширения до понятий, а, напротив, путём формирования иерархической модели на уровне байтов. Это, по словам разработчиков, повышает эффективность при работе с длинными последовательностями при обучении и запуске моделей. Вспомогательный инструмент Meta Explore Theory-of-Mind предназначается для привития навыков социального интеллекта моделям ИИ при их обучении, для оценки эффективности моделей в этих задачах и для тонкой настройки уже обученных систем ИИ. Meta Explore Theory-of-Mind не ограничивается заданным диапазоном взаимодействий, а генерирует собственные сценарии.

Технология Meta Memory Layers at Scale направлена на оптимизацию механизмов фактической памяти у больших языковых моделей. По мере увеличения числа параметров у моделей работа с фактической памятью требует всё больших ресурсов, и новый механизм направлен на их экономию. Проект Meta Image Diversity Modeling, который реализуется с привлечением сторонних экспертов, направлен на повышение приоритета генерируемых ИИ изображений, которые более точно соответствуют объектам реального мира; он также способствует повышению безопасности и ответственности разработчиков при создании картинок с помощью ИИ.

Модель Meta CLIP 1.2 — новый вариант системы, предназначенной для установки связи между текстовыми и визуальными данными. Она используется в том числе и для обучения других моделей ИИ. Инструмент Meta Video Seal предназначен для создания водяных знаков на видеороликах, генерируемых при помощи ИИ — эта маркировка незаметна при просмотре видео невооружённым глазом, но может обнаруживаться, чтобы определить происхождение видео. Водяной знак сохраняется при редактировании, включая наложение эффекта размытия, и при кодировании с использованием различных алгоритмов сжатия. Наконец, в Meta напомнили о парадигме Flow Matching, которая может использоваться при генерации изображений, видео, звука и даже трёхмерных структуры, в том числе белковых молекул — это решение помогает использовать информацию о движении между различным частями изображения и выступает альтернативой механизму диффузии.

Anthropic выпустила мощную текстовую нейросеть Claude 3.5 Haiku — она вчетверо дороже флагманской Claude 3 Opus

Anthropic обновила свой чат-бот Claude, добавив большую языковую модель 3.5 Haiku. Новая нейросеть превосходит по производительности предыдущие версии, но и использование её будет обходиться дороже. При этом модель предлагает улучшенную генерацию текста, но пока не поддерживает анализ изображений.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Издание TechCrunch подтверждает, что модель, начиная со вчерашнего дня доступна в веб-версии Claude и на мобильных устройствах. Впервые представленная в ноябре, Claude 3.5 Haiku по некоторым тестам показывает результаты, равные или даже превосходящие флагманскую модель Anthropic, Claude 3 Opus. По словам компании, новинка идеально подходит для рекомендаций по программированию, извлечению и классификации данных, а также модерации контента. В отличие от своего предшественника, эта версия способна генерировать более длинные текстовые фрагменты и в неё заложена более свежая информации.

Однако в Claude 3.5 Haiku отсутствует поддержка анализа изображений, что ставит версию в невыгодное положение по сравнению с другими моделями Anthropic, такими как Claude 3 Haiku и 3.5 Sonnet. Релиз также вызвал определённую реакцию из-за изменения ценовой политики. Первоначально Anthropic заявляла, что стоимость новой модели будет такой же, как у её предшественника. Однако позже компания пересмотрела свою позицию, объяснив высокую стоимость улучшенными интеллектуальными возможностями новинки. «Во время финального тестирования мы обнаружили, что Haiku превзошёл Claude 3 Opus по многим показателям. В результате мы увеличили цену модели 3.5 Haiku, чтобы отразить её возможности», — заявила компания в своём посте на платформе X.

Стоимость использования Claude 3.5 Haiku начинается с $1 за миллион входных токенов (примерно 750 000 слов) и $5 за миллион выходных токенов. Для сравнения, использование Claude 3 Haiku обходится в 25 центов за миллион входных токенов и $1,25 за миллион выходных, что делает новую модель в четыре раза дороже. Несмотря на это, Anthropic продолжает предлагать Claude 3 Haiku как более экономичное решение с поддержкой анализа изображений. «Claude 3 Haiku останется доступным для пользователей, которым важна максимальная экономичность и функциональность обработки изображений», — отметил глава отдела по работе с разработчиками Алекс Альберт (Alex Albert).

Несмотря на критику из-за роста цен, Anthropic подчёркивает, что Claude 3.5 Haiku обладает улучшенными возможностями генерации текста и может ссылаться на более актуальные события. Однако повышение стоимости для модели в рамках одной серии, как отмечает TechCrunch, редкая практика в индустрии, которая ставит вопрос в плане дальнейшей стратегии ценовой политики компании на её продукты.

«Яндекс» научил беспилотные авто ездить «по-человечески» с помощью натасканного ИИ

«Яндекс» подключил нейросеть-трансформер к системе автопилота, поручив ей прокладывать траекторию движения машины. Модель была обучена на испытаниях с участием водителей высокого класса — она поможет автономному транспорту более гибко реагировать на дорожную обстановку, а манера вождения станет более «человечной».

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

Чтобы сформировать массив обучающих данных, «Яндекс» привлёк водителей высокого класса, которые прошли курсы контраварийного вождения и подтвердили свои навыки. Они перемещались по городу, а система записывала полученную от датчиков информацию о дорожной обстановке и действиях водителя. Благодаря этому нейросеть научилась реагировать на известные и неизвестные ситуации, которые могут возникнуть гипотетически. Новый планировщик уже начали применять на практике: при поездках по городу и в симуляторе.

Как показали результаты тестирования, планировщик траектории на основе нейросетей оказался более эффективным, чем система на основе алгоритмов. В случаях, когда автопилот старого поколения не мог избежать столкновения, новый нередко находил траекторию, по которой машина объезжала препятствие, не попав в аварию. «Яндекс» занимается технологиями автопилота с 2017 года — такие машины проходят испытания в Москве, Иннополисе и Сириусе. А в октябре этого года беспилотный грузовик компании впервые доставил товары для «Яндекс Маркета» из Москвы в Тулу по трассе М-4 «Дон».

«Яндекс» научил телевизоры понимать незнакомые голосовые команды с помощью ИИ

Голосовой помощник «Алиса» получил возможность управлять «ТВ Станциями» при помощи команд в произвольной форме — для этого ассистент обрабатывает инструкции с помощью большой языковой модели YandexGPT 4. Ранее «Алиса» была ограничена только заранее заложенными командами.

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

«Алиса» научилась «думать» — использовать языковую модель YandexGPT 4 не только для подготовки развёрнутых ответов в диалоговом интерфейсе, но и для выполнения команд пользователя: запрос анализируется, после чего принимается решение о порядке его исполнения. Технология называется «смарт-функции». Ранее голосовой помощник обрабатывал только те команды, которым был предварительно обучен — при любом отклонении от этого стандарта «Алиса» отвечала, что «этого пока не умеет».

Сейчас, если система сталкивается с нестандартным запросом, она разделяет его на составные части и выполняет шаг за шагом. Можно попросить «Алису» выключить телевизор, когда закончится текущий матч — она узнает, сколько осталось до его завершения и поставит таймер на это время. Аналогичным образом упростилась процедура добавления фильма или сериала в список «Буду смотреть»: раньше для этого нужно было произвести поиск по соответствующему наименованию и только после этого добавить — сейчас фильм или сериал добавляются в список «Буду смотреть» без поиска или развёртывания карточки на экране.

Наконец, поддерживаются составные команды, предусматривающие последовательность действий и задачи разного типа, например «Алиса, добавь „Барсукот“ в „Буду смотреть“, а сейчас включи „Три кота“» или «Алиса, включи первый фильм на громкости 20». В перспективе «Яндекс» пообещал дополнительно усложнить механизм работы голосового помощника с нейросетью: задачи будут включать несколько этапов, в том числе взаимодействие с устройствами умного дома и службами «Яндекса».

Google показала ИИ-агента, который помогает проходить игры, наблюдая за действиями игрока

Google представила новую версию платформы искусственного интеллекта Gemini 2.0, с помощью которой можно создавать ИИ-агентов для советов и подсказок в видеоиграх. Агенты способны анализировать игровой процесс и предлагать оптимальные стратегии, а пользователи смогут получать рекомендации в режиме реального времени.

 Источник изображения: Supercell, theverge.com

Источник изображения: Supercell, theverge.com

Как сообщают в блоге компании генеральный директор Google DeepMind Демис Хассабис (Demis Hassabis) и технический директор Корай Кавукчуоглу (Koray Kavukcuoglu), агенты «делают выводы об игре, основываясь исключительно на действиях на экране, и предлагают решения в режиме реального времени». Кроме того, они могут использовать поиск Google по базам знаний для предоставления более полной информации. Агенты уже тестируются в популярных играх, таких как Clash of Clans и Hay Day от Supercell. Однако, как пишет The Verge, технология находится на ранней стадии разработки, и пока не ясно, насколько полезными такие наставники окажутся для игроков.

Помимо помощи в видеоиграх, Google развивает и другие направления применения Gemini 2.0. Например, ведётся работа над проектом Genie 2, который создаёт виртуальные игровые миры на основе лишь одного изображения. Пока эти миры остаются стабильными только около минуты, однако эксперты видят большой потенциал технологии.

Также компания представила мультимодальные возможности Gemini 2.0 Flash, которые уже доступны разработчикам через API в Google AI Studio и Vertex AI. Новая версия отличается высокой скоростью работы, улучшенной обработкой данных и способностью генерировать изображения и текст, а также преобразовывать текст в речь на нескольких языках. Эти функции уже тестируются ранними партнёрами, а в январе платформа станет доступна широкой аудитории.

Среди других проектов можно выделить Project Astra, Mariner и Jules. Project Astra, созданный для использования на Android-устройствах, был улучшен с помощью Gemini 2.0. Теперь ассистент на базе Astra может разговаривать на нескольких языках, использовать Google Search, Maps и Lens, а также запоминать больше данных, сохраняя при этом конфиденциальность. Project Mariner исследует, как ИИ может помогать в браузере, распознавая текст, изображения, код и другие элементы интерфейса, а Jules предназначен для помощи разработчикам в их рабочих процессах на GitHub.

ИИ-агенты также могут применяться в физическом мире. Исследования Google показывают, что Gemini 2.0 способен использовать пространственное мышление в робототехнике. Хотя эти разработки находятся на ранней стадии, сама компания видит большой потенциал в создании агентов, которые способны взаимодействовать с реальной средой.

Чтобы минимизировать риски и обеспечить безопасность своих ИИ-сервисов, компания проводит масштабные тестирования, сотрудничает с доверенными тестировщиками и внешними экспертами. В ближайшем будущем Google планирует интегрировать возможности Gemini 2.0 во все свои продукты, включая мобильное приложение Gemini.

Google представила Mariner — прототип ИИ-агента для Chrome, которому можно давать сложные поручения

Google представила исследовательский прототип ИИ-агента под названием Project Mariner, который способен выполнять действия в интернете за человека. За разработку отвечает подразделение Google — DeepMind. ИИ-агент на базе Gemini берет под контроль браузер Chrome, перемещает курсор на экране, нажимает кнопки и заполняет формы, что позволяет ему использовать веб-сайты и перемещаться по ним так же, как это делает человек.

 Источник изображений: Google

Источник изображений: Google

Компания сообщила, что в настоящий момент Project Mariner проходит стадию тестирования группой предварительно отобранных пользователей. В разговоре с порталом TechCrunch директор Google Labs Жаклин Конзельманн (Jaclyn Konzelmann) заявила, что Project Mariner представляет собой принципиально новый подход в пользовательском интерфейсе. Проект предлагает отказаться от прямого взаимодействия пользователей с веб-сайтами, возложив эти задачи на генеративную систему ИИ. По её словам, такие изменения могут затронуть миллионы предприятий — от веб-изданий до ритейла — которые традиционно полагались на Google как отправную точку для привлечения пользователей на свои веб-сайты.

После установки и настройки Project Mariner в качестве расширения для браузера Chrome у последнего появится специальное окно чата. В нём можно поручить ИИ-агенту выполнение различных задач. Например, его можно попросить создать корзину покупок в продуктовом магазине на основе заданного списка. После этого ИИ-агент самостоятельно перейдёт на страницу указанного магазина (в демонстрации использовался магазин Safeway), выполнит поиск нужных товаров и добавит их в корзину. Журналисты отмечают, что система работает не так быстро, как хотелось бы: между каждым движением курсора проходит примерно 5 секунд. Иногда ИИ-агент прерывает выполнение задачи и возвращается к окну чата, запрашивая уточнения, например, о весе или количестве товаров.

ИИ-агент от Google не может оформить заказ, так как в его алгоритм не включены функции заполнения номеров кредитных карт и другой платёжной информации. Project Mariner также не принимает файлы cookie и не подписывает соглашения об условиях использования от имени пользователей. Google подчёркивает, что это сделано намеренно, чтобы предоставить пользователям больше контроля.

Кроме того, ИИ-агент делает снимки экрана окна браузера, с чем пользователи должны согласиться перед его использованием. Эти изображения отправляются для обработки в облачный сервис Gemini, который затем передаёт инструкции обратно на устройство пользователя для навигации по веб-странице. Project Mariner можно использовать для поиска рейсов и отелей, покупок товаров для дома, поиска рецептов и других задач, которые сейчас требуют самостоятельной навигации по сайтам.

Одно из основных ограничений Project Mariner заключается в том, что он работает только на активной вкладке браузера Chrome. Иными словами, веб-страница, на которой действует ИИ-агент, должна быть постоянно открыта на экране монитора. Пользователям придётся наблюдать за каждым шагом бота. По словам главного технического директора Google DeepMind Корая Кавукчуоглу (Koray Kavukcuoglu), это сделано специально, чтобы пользователи знали, что именно делает ИИ-агент.

«Поскольку [Gemini] теперь выполняет действия от имени пользователя, важно делать это шаг за шагом. Это дополнительная функция. Вы, как человек, можете использовать веб-сайты, и теперь ваш агент может делать всё, что вы делаете на веб-сайте», — отметил Кавукчуоглу в интервью TechCrunch.

С одной стороны, пользователям всё равно придётся видеть страницу сайта, что выгодно для владельцев ресурсов. Однако использование Project Mariner снижает уровень непосредственного взаимодействия пользователей с функциями сайта и в перспективе может вообще исключить необходимость самостоятельного посещения веб-сайтов.

«Project Mariner — это принципиально новый сдвиг в парадигме UX, который мы наблюдаем прямо сейчас. Нам нужно понять, как правильно всё это настроить, чтобы изменить принципы взаимодействия пользователей с интернетом, а также найти способы, которыми издатели смогут создавать собственные решения для пользователей на базе ИИ-агентов в будущем», — добавила Конзельманн.

Помимо Project Mariner, Google представила несколько других ИИ-агентов для специализированных задач. Например, инструмент Deep Research для глубокого поиска и исследования в интернете. Также был представлен ИИ-агент Jules, предназначенный для помощи разработчикам в написании кода. Он интегрируется в рабочие процессы GitHub, анализирует текущий уровень разработки и может вносить изменения прямо в репозитории. Jules проходит тестирование и станет доступен в 2025 году.

Google DeepMind также разрабатывает ИИ-агента для помощи пользователям в видеоиграх. Для этого компания сотрудничает с разработчиком игр, студией Supercell, чтобы проверить способности Gemini интерпретировать игровые миры на примере Clash of Clans. Сроки запуска прототипа этого ИИ-агента пока неизвестны, но Google подчёркивает, что эта разработка помогает в создании ИИ-агентов для навигации как в реальном, так и в виртуальных мирах.

ИИ, который может управлять ПК без пользователя, обманом заставили скачать и запустить вирус

В октябре Anthropic представила модель искусственного интеллекта Claude Computer Use, которая позволяет нейросети Claude самостоятельно управлять компьютером по запросам пользователя. Исследователь в области безопасности ИИ нашёл способ обратить эту функцию во зло.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Эксперт в области кибербезопасности Иоганн Ренбергер (Johann Rehnberger) опубликовал доклад о том, как сумел злоупотребить функцией Computer Use: ИИ по его запросу загрузил и запустил вредоносное приложение, после чего вышел на связь с контролирующим зловред сервером.

Следует отметить, что Claude Computer Use пока остаётся на стадии бета-тестирования, и разработавшая её компания Anthropic предупредила, что функция может работать не так, как задумано: «Рекомендуем принять меры предосторожности, чтобы изолировать Claude от важных данных и действий, чтобы избежать рисков, связанных с инъекциями в запросах». Подобные схемы атаки против ИИ остаются распространёнными.

Ренбергер назвал свой эксплойт ZombAIs — с его помощью эксперт заставил систему загрузить среду удалённого управления Sliver, которая была разработана для тестирования на проникновение, но киберпреступники адаптировали её для своих нужд. Он также отметил, что это не единственный способ использовать ИИ для преступной деятельности — например, можно заставить Claude написать вирус с нуля и скомпилировать его, потому что он может писать код на C.

Установлено также, что перед атаками через инъекции в запросах уязвим китайский чат-бот DeepSeek AI. А большие языковые модели оказались способны выводить код с управляющими символами ANSI для взлома системных терминалов — этот подтип атак получил название Terminal DiLLMa.

«Яндекс» встроил нейросеть YandexGPT 4 в редакторы текста и таблиц — она знает русский или английский

Компания «Яндекс» обновила свои онлайн-редакторы для текстовых документов и электронных таблиц — в них теперь встроена поддержка нейросети YandexGPT 4, которая генерирует текст. Программы доступны в бета-режиме, и пользоваться ими можно бесплатно.

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

В новой версии редакторы справляются с документами объёмом до 1000 страниц и поддерживают совместную работу до 100 пользователей. Большая языковая модель YandexGPT 4 по текстовому запросу в произвольной форме помогает создать текст с нуля или отредактировать существующий: исправить в нём ошибки или изменить интонацию. Искусственный интеллект также может сократить текст, оставив в нём наиболее важные тезисы — поддерживаются русский и английский языки. В перспективе появится поддержка комментариев для документов.

Редакторы нового поколения доступны в службе «Документы» — чтобы подключиться к бета-тестированию, потребуется выбрать на верхней панели переключатель «Новый редактор». Сейчас приложения доступны в веб-версии сервиса, но в будущем году компания намеревается выпустить их варианты для настольных компьютеров. Бизнес-клиенты платформы «Яндекс 360» смогут развернуть платформу для документов на собственных серверах, чтобы обеспечить безопасность данных.

«Мы запустили редакторы в статусе бета-версии, чтобы пользователи могли оценить их производительность и попробовать новый интерфейс. В редакторах недостаёт ряда функций, но мы работаем над тем, чтобы они появились как можно быстрее», — отметил Сергей Педченко, руководитель группы технологического развития «Яндекс 360».

«Нам нужно генерировать прибыль»: Google нарастит присутствие ИИ в поиске

Холдинг Alphabet, в который входит Google, активно развивается в самых разных областях, в том числе на направлении беспилотного транспорта и квантовых вычислений, но приоритетным направлением для него остаётся веб-поиск. Здесь компания намерена увеличивать присутствие искусственного интеллекта.

 Источник изображения: BoliviaInteligente / unsplash.com

Источник изображения: BoliviaInteligente / unsplash.com

Применение ИИ в поиске, который сделал бренд Google именем нарицательным, остаётся самой крупной ставкой для компании, заявила на конференции Reuters NEXT президент и главный инвестиционный директор Alphabet Рут Порат (Ruth Porat). «Мы встретим людей там, где они хотят оказаться», — рассказала топ-менеджер. Годовая выручка Alphabet составляет более $300 млрд, и бо́льшая часть этой суммы поступает от связанной с поиском рекламы.

Прока что в поиск компания внедрила создаваемые генеративным ИИ сводки для запросов без очевидного ответа. Google была вынуждена пойти на этот шаг из-за конкуренции со стороны OpenAI ChatGPT. Но компании пришлось столкнуться с «галлюцинациями» ИИ, когда он даёт явно неправильные ответы. Google намерена продолжать развитие поиска с ИИ.

Ещё одной ключевой инвестицией являются облачные услуги. Alphabet достигла значительных результатов в области здравоохранения; входящее в холдинг подразделение Isomorphic Labs разрабатывает медицинские препараты, используя ИИ AlphaFold, который предсказывает структуры белковых молекул. ИИ, по мнению Порат, поможет сохранить зрение людям, которые рискуют его потерять; а медицинским работникам не придётся больше подолгу работать у экранов в ущерб времени, которое они могут потратить на лечение пациентов.

В 2024 году компания потратит $50 млрд на чипы, центры обработки данных и другие капитальные расходы; но и о результативности она забывать не намерена. «Нам нужно генерировать прибыль», — отметила президент Alphabet.

ИИ отправит на свалку истории поисковики и браузеры, считает глава Microsoft AI

Разработчики генеративных нейросетей, такие как Google и OpenAI, уверены, что в скором будущем пользователи будут делегировать обработку интернет-запросов и выполнение разных задач чат-ботам или ИИ-агентам. Глава подразделения Microsoft AI Мустафа Сулейман (Mustafa Suleyman) считает, что ИИ-алгоритмы смогут заменить веб-браузеры, а некоторые эксперты предсказывают, что со временем подобные приложения станут похожими на операционные системы.

 Источник изображений: techspot.com

Источник изображений: techspot.com

В беседе с журналистами портала The Verge Сулейман рассказал о будущем, в котором диалоговые генеративные ИИ-интерфейсы могут сделать обычные веб-браузеры устаревшими. Однако, прежде чем эта концепция будет реализована на практике, технология должна преодолеть массу препятствий. Он выразил уверенность в дальнейшем развитии ИИ, но умерил ожидания в отношении искусственного интеллекта общего назначения (Artificial General Intelligence), который также называют сильным ИИ, способным решать задачи наравне с человеком.

Сулейман считает, что в нынешнем виде процесс взаимодействия с поисковыми системами является слишком громоздким. По его мнению, гораздо более удобно делать запросы в приложении Copilot на своём iPhone. По мнению Сулеймана, ИИ-помощники с интерфейсами, сгенерированными нейросетями, смогут заменить традиционные поисковые системы и браузеры в течение трёх-пяти лет.

Если разработчики перепроектируют веб-порталы таким образом, чтобы на них можно было размещать ИИ-агентов, то такие агенты смогут выполнять запросы, взаимодействуя с другими ИИ-системами. Однако при таком сценарии не совсем понятно, сможет ли ИИ корректно находить точные ответы на запросы, и что произойдёт с доходами от рекламы, когда люди перестанут переходить по веб-сайтам. Сулейман не стал заострять внимание на этих вопросах, сказав, что Microsoft добилась значительного прогресса в минимизации количества галлюцинаций ИИ, которые являются основной проблемой ИИ-агентов.

Отраслевой аналитик Ом Малик (Om Malik) считает, что приложения на основе генеративного ИИ могут пойти ещё дальше. В недавней публикации он высказался об ограничениях традиционных браузеров в мире, где всё больше доминируют технологии дополненной и виртуальной реальности, а также искусственный интеллект. Браузеры не сильно изменились с момента их появления, они построены вокруг «интернета, ориентированного на документы». Появление генеративных нейросетей и диалоговых систем бросает вызов этим устоям. Потенциально ИИ способен фрагментировать веб-страницы в интерактивные, персонализированные потоки информации, что не соответствует первоначальным целям браузеров.

Нечто похожее тестирует Google в рамках проекта Project Jarvis, участники которого создали ИИ-агента, способного ограниченно контролировать курсор мыши и браузер пользователя для автоматизации процесса выполнения ряда задач. Бывшие сотрудники Google также работают над созданием работающей онлайн операционной системы на базе ИИ.

Миллионы роликов на YouTube получат дубляж на иностранных языках

Совершенствование больших языковых моделей, лежащих в основе ИИ-ассистента Gemini, уже позволило Google предложить ограниченному кругу создателей видеоконтента функцию автоматического дубляжа их роликов на различных языках. Теперь доступ к этой возможности расширен для авторов видеороликов познавательного и образовательного содержания.

 Источник изображения: Unsplash, Bhautik Patel

Источник изображения: Unsplash, Bhautik Patel

Как отмечает TechCrunch, сервис YouTube объявил о расширении поддержки функции автоматического дубляжа видеоконтента на сотни тысяч каналов, которые посвящены познавательным целям. Получить автоматический дубляж видео могут те авторы контента, которые, например, ведут кулинарные блоги или делятся секретами мастерства в различных сферах. В перспективе функция охватит и те каналы, которые специализируются на других типах контента.

Чтобы воспользоваться новшеством, автору видео достаточно загрузить исходный видеоролик в обычном режиме. YouTube сам определит язык исходного видео и создаст дублированные версии на различных языках, если пользователь поставил необходимую отметку в интерфейсе страницы загрузки. Пока поддерживаются английский, французский, немецкий, индийский, индонезийский, итальянский, японский, португальский и испанский языки.

Google предупреждает, что возможности Gemini по воссозданию человеческой речи на различных языках пока ограничены. Ассистент не только может допускать грамматические, стилистические и фонетические ошибки, но и отличаться от тембра владельца исходного голоса в видеоролике. В дальнейшем YouTube обещает добавить речи своего автоматического переводчика экспрессивности, что позволит лучше отображать эмоциональность оригинала и даже повторять окружающие звуки исходной аудиодорожки.

OpenAI запустила ИИ-генератор видео по текстовым запросам Sora — он косячит так же, как и другие

Компания OpenAI в понедельник запустила Sora — свою революционную модель искусственного интеллекта для генерации видео по текстовым описаниям. С сегодняшнего дня новая модель стала доступна на сайте Sora.com для платных пользователей ChatGPT в США и «большинстве других стран». России в списке нет, как и стран ЕС.

Представленная сегодня версия под названием Sora Turbo может генерировать ролики длиной от 5 до 20 секунд в различных соотношениях сторон и разрешениях от 480p до 1080p. Каждая генерация обойдётся пользователю в определённое количество так называемых «кредитов». Например, видео в 480p стоит от 20 до 150 кредитов, ролик в 720p — от 30 до 540 кредитов, а видео в 1080p — от 100 до 2000 кредитов. Что именно влияет на цену, пока не уточняется.

OpenAI сообщила, что подписчики базового тарифного плана ChatGPT Plus ($20 в месяц) получат 1000 кредитов в месяц. Это позволит сгенерировать до 50 «приоритетных видео» (то есть видео, которые генерируются быстро) в формате 720p и длительностью 5 секунд. В свою очередь, пользователи нового тарифа ChatGPT Pro за $200 в месяц получат 10 000 кредитов, которые смогут потратить на 500 приоритетных видео в формате 1080p и длительностью 20 секунд. Кроме того, более обеспеченные пользователи получат неограниченное количество низкоприоритетных генераций видео. Также пользователи с подпиской Pro смогут выполнять до пяти генераций одновременно и скачивать ролики без водяных знаков. OpenAI отмечает, что видео, созданные с помощью Sora, по умолчанию будут иметь видимые водяные знаки и метаданные C2PA, указывающие на их создание с помощью ИИ.

Sora может создавать несколько вариантов видеоклипов на основе текстовой подсказки или изображения, а также редактировать существующие видео с помощью инструмента Re-mix. Интерфейс Storyboard позволяет пользователям создавать видео на основе последовательности подсказок, инструмент Blend объединяет два видео, сохраняя элементы обоих, а опции Loop и Re-cut дают возможность авторам дополнительно настраивать и редактировать свои видео и сцены.

По словам видеоблогера Маркуса Браунли (Marcus Brownlee), известного как MKBHD, который получил доступ к предварительной версии Sora, система работает далеко не идеально. На создание среднего видеоролика в формате 1080p у него уходило «пара минут». Эта модель страдает от тех же недостатков, что и другие генераторы видео: ей не хватает постоянства объектов. В видеороликах Sora объекты перемещаются нелогично, исчезают и появляются вновь без видимой причины. Ноги — ещё один серьёзный источник проблем, отмечает Браунли. Если человек или животное с ногами долго ходит в ролике, Sora путает передние и задние ноги, а сами ноги могут «меняться местами».

Также сообщается, что в Sora встроен ряд защитных механизмов, запрещающих генерировать видео с изображением людей младше 18 лет, содержащие насилие, «откровенные темы» или нарушающие авторские права третьих лиц. По словам Браунли, Sora также не создаёт видео на основе изображений с общественными деятелями, узнаваемыми персонажами или логотипами. Компания предупреждает, что «неправомерное использование загружаемых медиафайлов» может привести к запрету или приостановке работы аккаунта.

По мнению блогера, новинка может быть полезна для генерации таких вещей, как заставки в определенном стиле, анимации, абстракции и стоп-кадры. Но он не стал бы рекомендовать её для создания фотореалистичных роликов.

OpenAI подчёркивает, что это «ранняя версия Sora», в которой «будут ошибки». «Она не идеальна, но уже на том этапе, когда мы думаем, что она будет действительно полезна для дополнения человеческого творчества, — заявил Уилл Пиблз (Will Peebles), член технического персонала OpenAI и руководитель исследования Sora. — Мы не можем дождаться, когда увидим, что мир создаст с помощью Sora».

Если у вас нет подписки на ChatGPT, вы всё равно сможете просматривать ленту видеороликов, созданных искусственным интеллектом другими пользователями с помощью Sora. В то время как модель станет доступна в США и многих других странах уже сегодня, генеральный директор OpenAI Сэм Альтман (Sam Altman) отметил, что запуск в «большинстве стран Европы и Великобритании» может «занять некоторое время».

ИИ-система производителя игрушек Funko вывела из строя сайт платформы itch.io

Площадка для размещения инди-игр itch.io на несколько часов 9 декабря стала недоступна из-за действий компании Funko, известной как производитель серии большеголовых фигурок Funko Pop.

 Источник изображения: Steam (Iblysi)

Источник изображения: Steam (Iblysi)

О случившемся сообщила администрация itch.io. Сайт вышел из строя в результате жалобы на одну из страниц магазина от системы защиты интеллектуальной собственности Funko, которая базируется на ИИ от BrandShield.

«Funko без шуток вывела из строя itch.io, потому что их мусорная защита бренда на основе ИИ от BrandShield создала липовый отчёт о фишинге для нашего регистратора iwantmyname, который проигнорировал наш ответ и отключил домен», — сообщили в itch.io.

 Источник изображения: Video Games Chronicle

Источник изображения: Video Games Chronicle

В администрации itch.io заверили, что скрыли проблемную страницу ещё несколько дней назад, когда получили уведомление, однако автоматическая система iwantmyname сработала раньше, чем отчёт об этом успел прочитать живой сотрудник.

Гнев системы BrandShield и подозрения в фишинге на себя навлекла созданная пользователем itch.io страница вышедшего в сентябре платформера Funko Fusion со скриншотами из игры и ссылками на официальный сайт.

 Источник изображения: itch.io

Источник изображения: itch.io

Представитель iwantmyname в комментарии для портала Polygon заверил, что домен itch.io был восстановлен вслед за тем, как «регистрант наконец ответил на наше уведомление и предпринял соответствующие действия для решения проблемы».

К настоящему моменту сайт itch.io вернулся в норму. Период простоя составил порядка трёх часов, на протяжении которых сервис был недоступен для пользователей, включая геймеров (сами игры запускались без проблем) и разработчиков.

Разработчик чипов Marvell Technology стал дороже Intel благодаря ИИ-буму

Американская компания Marvell Technology впервые обогнала Intel по рыночной капитализации, которая впервые превысила $100 млрд, тогда как у Intel показатель упал до $90 млрд. Этот успех обусловлен резким ростом выручки в сегменте чипов для дата-центров, на который теперь приходится 72 % выручки компании Marvell, а также её стратегическим партнёрством с Amazon.

 Источник изображений: marvell.com

Источник изображений: marvell.com

Под руководством Мэтта Мёрфи (Matt Murphy) Marvell Technology превратилась из сравнительно небольшой компании в одного из лидеров мирового рынка микросхем. За 7 лет её рыночная стоимость увеличилась с $5 млрд до более чем $100 млрд. Последний скачок произошёл на фоне успешного квартального отчёта, в результате которого акции компании выросли в цене на 18 %. Несмотря на то, что годовая выручка Marvell в 10 раз меньше, чем у Intel, её успехи в области дата-центров и ИИ делают её важным игроком в индустрии.

Мёрфи, с 2016 года возглавляющий Marvell, оказался в центре внимания СМИ как возможный кандидат на пост главы Intel после увольнения Пэта Гелсингера (Pat Gelsinger). Однако 3 декабря Мёрфи публично опроверг эти слухи, заявив: «Компания [Marvell] выдающаяся. Технологии — лучшие в своём классе. Я не могу представить себе лучшего места для работы, чем Marvell». Под его руководством Marvell не только увеличила рыночную стоимость почти в 20 раз, но и сделала значительные шаги в разработке ИИ-чипов.

Сегмент чипов дата-центров стал ключевым драйвером роста для Marvell, компенсируя снижение доходов в традиционных направлениях бизнеса, таких как телекоммуникационное оборудование, кабельные телевизионные приставки и автомобильная электроника. Доля выручки компании, приходящаяся на дата-центры, за год увеличилась с 40 % до 72 %. Это свидетельствует о стратегическом фокусе Marvell на облачных технологиях и высокопроизводительных вычислениях.

Заключённое с Amazon пятилетнее соглашение открывает новые перспективы для Marvell в области ИИ. Одной из ключевых задач компании станет участие в разработке чипа Trainium — мощного процессора для обучения ИИ-моделей, который Amazon представила на ежегодной конференции разработчиков. По прогнозам аналитиков, это сотрудничество удвоит доходы Marvell от кастомизированных ИИ-чипов уже в следующем финансовом году. Таким образом, Marvell продолжает укрепляться в качестве ведущего партнёра крупнейших технологических корпораций.

Несмотря на выдающиеся результаты, аналитики предупреждают о возможных рисках, связанных с зависимостью Marvell от инвестиций в ИИ. Любое замедление роста этого сектора или временные паузы в закупках оборудования крупными клиентами, такими как Amazon или Microsoft, могут негативно сказаться на её финансовых показателях. Подобные «периоды переваривания» давно стали характерной особенностью рынка дата-центров. Более того, акции Marvell торгуются с премией в 21 % к мультипликатору Nvidia, что делает компанию особенно чувствительной к возможной коррекции рынка.

Marvell демонстрирует впечатляющую способность адаптироваться к изменениям рынка, сосредотачиваясь на инновациях и передовых технологиях. Однако высокая рыночная оценка компании накладывает на неё ответственность за поддержание динамики роста в условиях потенциальной нестабильности спроса в будущем.

Китай ускорил локализацию полупроводников и за полгода потратил на это больше, чем США, Корея и Тайвань вместе

Локализация полупроводниковой отрасли в Китае стремительно набирает обороты, превращаясь в одну из важнейших стратегических целей страны. За первые шесть месяцев 2024 года Китай потратил рекордные $25 млрд на закупку оборудования для производства микросхем, превысив суммарные расходы Тайваня, Южной Кореи и США. Эти инвестиции подчёркивают стремление Китая ускорить обретение технологической независимости, что особенно актуально на фоне обострения санкций США.

 Источник изображения: Laura Ockel / Unsplash

Источник изображения: Laura Ockel / Unsplash

На сегодняшний день китайские компании обеспечивают производство микросхем практически на всех этапах технологической цепочки, за исключением литографического оборудования, где у Китая пока сохраняется зависимость от западных технологий. В то же время китайские производители активно развивают сегмент памяти DRAM, сосредотачивая усилия на выпуске DDR4 и LPDDR4. Растущий спрос на память, обусловленный развитием ИИ, предоставляет уникальные возможности для китайских компаний конкурировать с международными лидерами, которые уже работают над технологиями нового поколения, такими как DDR5 и HBM. Переход к новым стандартам становится ключевым приоритетом для Китая в ближайшие годы.

Китай добился значительного прогресса в производстве современных микросхем их карбида кремния (SiC), который стал основой для новых технологий. За последние два года более 100 китайских компаний вошли в этот сектор, а 50 новых проектов, по данным ресурса DRAMeXchange, ожидают завершения в 2024 году. Уже построены две производственные линии для обработки 200-мм SiC-пластин: первая, созданная компанией UNT, располагается в Шаосине, а вторая принадлежит компании Silan Microelectronics. Последний проект, запущенный 18 июня, привлёк инвестиции в размере 12 млрд юаней и стал первой в стране линией по производству чипов на основе 200-мм SiC-пластин для силовой электроники.

 Уровень локализации производства полупроводникового оборудования в Китае, доля внутреннего производства и ключевые производители в различных технологических сегментах. Источник изображения: TrendForce

Уровень локализации производства полупроводникового оборудования в Китае, доля внутреннего производства и ключевые производители в различных технологических сегментах. Источник изображения: TrendForce

Китайские фабрики продолжают занимать лидирующие позиции в производстве чипов по зрелым техпроцессам. Согласно отчёту TrendForce, к 2025 году их доля в общем объёме мощностей десяти крупнейших мировых производителей достигнет более 25 %. Основной прирост мощности придётся на узлы 28/22 нм, а общий рост мощностей в сегменте составит 6 %. Тем не менее, усиление конкуренции на этом рынке может привести к снижению цен. Помимо этого, китайские предприятия совершенствуют специализированные технологии, такие как HV-платформы, где массовое производство 28-нм решений намечено было на 2024 год.

Развитие продвинутых технологий упаковки, таких как 2.5D, 3D, WL-CSP, CoWoS и SiP, открывает перед китайской индустрией микросхем новые горизонты. Компании JCET, Tongfu Microelectronics и HT-Tech активно инвестируют в эти направления. Особое внимание уделяется FOPLP-технологиям, где HT-Tech, ECHINT, MIIC и SiPTORY демонстрируют значительный прогресс. Одновременно китайские производители работают над внедрением технологий чиплетной и 2.5D-упаковки, которые позволяют удовлетворить растущий спрос на высокопроизводительные чипы для ИИ.

Китайская индустрия ИИ также развивается впечатляющими темпами. Согласно данным за 2022 год, на долю Китая пришлось 61,1 % всех зарегистрированных патентов в этой области. Среди крупнейших игроков рынка можно выделить Infinigence AI, Alibaba Cloud, Baidu, Vastai Technologies и BIRENTECH. Однако отрасль сталкивается с серьёзными вызовами: нехватка вычислительных мощностей, отставание в разработке высокопроизводительных графических процессоров (GPU) и трудности в создании передовых ИИ-моделей остаются главными препятствиями на пути к технологическому лидерству. Успешное преодоление этих вызовов не только укрепит позиции Китая в глобальной индустрии, но и определит новые ориентиры для развития мировой полупроводниковой отрасли.


window-new
Soft
Hard
Тренды 🔥
VK запустила инициативу OpenVK для публикации ПО с открытым кодом 11 мин.
Глава GSC Game World отреагировал на слухи о скором выходе S.T.A.L.K.E.R. 2: Heart of Chornobyl на PS5 21 мин.
CD Projekt Red объяснила, почему оставила мужскую версию Ви за бортом кроссовера Fortnite и Cyberpunk 2077 2 ч.
Открытое ПО превратилось в многомиллиардную индустрию 3 ч.
Слухи: в вакансиях Blizzard нашли намёки на Diablo V 3 ч.
Nvidia App получило обновление, которое исправило замедление игр — «тормозящие» фильтры теперь отключены по умолчанию 5 ч.
Microsoft перестала полагаться только на ИИ-разработки OpenAI 5 ч.
Индустрия компьютерных клубов в России по итогам 2024 года достигла 25 миллиардов рублей и «продолжит расти ещё в течение четырёх−пяти лет» 6 ч.
VK представила платформу OpenVK для публикации открытого ПО, причём не только своего 6 ч.
Анимационный сериал «Аркейн» по League of Legends оказался финансовым провалом, но для Riot важно другое 7 ч.