Сегодня 21 ноября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → google gemini
Быстрый переход

Google выпустила для iPhone приложение ИИ-чат-бота Gemini

Бесплатное приложение ИИ-чат-бота Google Gemini, как и ожидалось, появилось в магазине приложений App Store компании Apple по всему миру. При его запуске появляется окно чата со списком предыдущих диалогов пользователя, который может отправлять запросы с помощью текста, голоса или камеры.

 Источник изображения: Apple

Источник изображений: Apple

До этого пользователям iOS-устройств для доступа к Gemini приходилось открывать приложение Google и переключаться на соответствующую вкладку. В качестве альтернативы, в сентябре был обновлен виджет главного экрана приложения Google с настраиваемыми ярлыками, которые позволили напрямую получать доступ к Gemini одним нажатием.

Приложение Gemini для iOS имеет новую функцию Gemini Live, обеспечивающую доступ к более интерактивному и разговорному режиму чата-бота, который похож на голосовой режим ChatGPT и доступен на платформе Android. Gemini Live отображается как на Dynamic Island iPhone, так и на экране блокировки.

Как и все другие чат-боты, не поддерживающие Siri, Gemini имеет некоторые ограничения. Он не может менять настройки или получать доступ к другим приложениям. Но он может получать доступ к программным решениям Google. Например, его можно попросить воспроизвести музыку, и он запустит YouTube Music. Также можно его попросить указать дорогу, и он откроет картографический сервис Google Maps.

Пузырь ИИ сдувается, пока OpenAI, Google и Anthropic пытаются создать более продвинутый ИИ

Три ведущие компании в области искусственного интеллекта столкнулись с ощутимым снижением отдачи от своих дорогостоящих усилий по разработке новых систем ИИ. Новая модель OpenAI, известная как Orion, не достигла желаемой компанией производительности, предстоящая итерация Google Gemini не оправдывает ожиданий, а Anthropic столкнулась с отставанием в графике выпуска своей модели Claude под названием 3.5 Opus.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

После многих лет стремительного выпуска всё более сложных продуктов ИИ три ведущие в этой сфере компании наблюдают убывающую отдачу от дорогостоящих усилий по созданию новых моделей. Становится все труднее находить свежие, ещё неиспользованные источники высококачественных данных для обучения более продвинутых систем ИИ. А нынешних весьма скромных улучшений недостаточно, чтобы окупить огромные затраты, связанные с созданием и эксплуатацией новых моделей, как и оправдать ожидания от выпуска новых продуктов.

Так, OpenAI утверждала, что находится на пороге важной вехи. В сентябре завершился начальный раунд обучения для новой масштабной модели Orion, которая должна была приблизится к созданию мощного ИИ, превосходящего людей. Но ожидания компании, по утверждению осведомлённых источников, не оправдались. Orion не смогла продемонстрировать прорыва, который ранее показала модель GPT-4 по сравнению с GPT-3.5.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Anthropic, как и её конкуренты, столкнулась с трудностями в процессе разработки и обучения 3.5 Opus. По словам инсайдеров, модель 3.5 Opus показала себя лучше, чем старая версия, но не так значительно, как ожидалось, учитывая размер модели и затраты на её создание и запуск.

Эти проблемы бросают вызов утвердившемуся в Кремниевой долине мнению о масштабируемости ИИ. Приверженцам глобального внедрения ИИ приходится признать, что бо́льшая вычислительная мощность, увеличенный объём данных и более крупные модели пока не прокладывают путь к технологическому прорыву в области ИИ.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Эксперты высказывают обоснованные сомнения в окупаемости крупных инвестиций в ИИ и достижимости всеобъемлющей цели, к которой стремятся разработчики ИИ-моделей, — создания общего искусственного интеллекта (AGI). Этот термин обычно применяется к гипотетическим ИИ-системам, способным соответствовать или превосходить человека в большинстве интеллектуальных задач. Руководители OpenAI и Anthropic ранее заявляли, что AGI может появиться уже через несколько лет.

Технология, лежащая в основе ChatGPT и конкурирующих ИИ-чат-ботов, была создана на основе данных из социальных сетей, онлайн-комментариев, книг и других источников из интернета. Этих данных хватило для создания продуктов, генерирующих суррогатные эссе и поэмы, но для разработки систем ИИ, которые превзойдут интеллектом лауреатов Нобелевской премии — как надеются некоторые компании, — могут потребоваться другие источники данных, помимо сообщений в Википедии и субтитров YouTube.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

OpenAI была вынуждена заключить соглашения с издателями, чтобы удовлетворить хотя бы часть потребности в высококачественных данных, а также адаптироваться к растущему юридическому давлению со стороны правообладателей контента, используемого для обучения ИИ. Отмечается высокий спрос на рынке труда на специалистов с высшим образованием, которые могут маркировать данные, связанные с их областью компетенции. Это помогает сделать обученные ИИ-системы более эффективными в ответах на запросы.

Подобные усилия обходятся дороже и требуют на порядок больше времени, чем простое индексирование интернета. Поэтому технологические компании обращаются к синтетическим данным, таким как сгенерированные компьютером изображения или текст, имитирующие контент, созданный людьми. Однако у такого подхода есть свои ограничения, так как трудно добиться качественного улучшения при использовании подобных данных для обучения ИИ.

Тем не менее компании ИИ продолжают следовать принципу «чем больше, тем лучше». В стремлении создавать продукты, приближающиеся к уровню человеческого интеллекта, технологические компании увеличивают объём вычислительной мощности, данных и времени, затрачиваемых на обучение новых моделей, что приводит к росту расходов. Генеральный директор Anthropic Дарио Амодеи (Dario Amodei) заявил, что в этом году компании потратят $100 млн на обучение новейших моделей, а в ближайшие годы эта сумма может достичь $100 млрд.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Безусловно, потенциал для улучшения моделей ИИ, помимо масштабирования, существует. Например, для своей новой модели Orion OpenAI применяет многомесячный процесс пост-обучения. Эта процедура включает использование обратной связи от людей для улучшения ответов и уточнения «эмоциональной окраски» взаимодействия с пользователями.

Разработчики ИИ-моделей оказываются перед выбором: либо предлагать старые модели с дополнительными улучшениями, либо запускать чрезвычайно дорогие новые версии, которые могут работать ненамного лучше. По мере роста затрат растут и ожидания — стремительное развитие ИИ на начальном этапе создало завышенные ожидания как у специалистов, так и у инвесторов.

Waymo и Gemini научат роботакси справляться со сложными дорожными ситуациями

Waymo, дочерняя компания Alphabet, представила новый подход к обучению своих беспилотных транспортных средств, используя модель Gemini — большую мультимодальную языковую модель (MLLM) от Google. Модель улучшит навигацию автономных автомобилей и позволит лучше справляться со сложными дорожными ситуациями.

 Источник изображения: waymo.com

Источник изображения: waymo.com

В новом исследовательском докладе Waymo дала определение своей разработке как «сквозной мультимодальной модели для автономного вождения» (EMMA), которая обрабатывает данные с сенсоров и помогает роботакси принимать решения о направлении движения, избегая препятствий. Как пишет The Verge, Waymo давно подчёркивала своё стратегическое преимущество благодаря доступу к научным исследованиям в области искусственного интеллекта (ИИ) Google DeepMind, ранее принадлежавшей британской компании DeepMind Technologies.

Новая система EMMA представляет собой принципиально иной подход к обучению автономных транспортных средств. Вместо традиционных модульных систем, которые разделяют функции на восприятие, планирование маршрута и другие задачи, EMMA предлагает единый подход, который позволит обрабатывать данные комплексно, поможет избежать ошибок, возникающих при передаче данных между модулями, и улучшит адаптацию к новым, незнакомым условиям на дороге в реальном масштабе времени.

Одним из ключевых преимуществ использования моделей MLLM, в частности Gemini, является их способность к обобщению знаний, почерпнутых из огромных объёмов данных, полученных из интернета. Это позволяет моделям лучше адаптироваться к нестандартным ситуациям на дороге, таким как неожиданное появление животных или ремонтные работы. Кроме того, модели, обученные на основе Gemini, способны к «цепочке рассуждений». Это метод, который помогает разбивать сложные задачи на последовательные логические шаги, улучшая процесс принятия решений.

Несмотря на успехи, Waymo признает, что EMMA имеет свои ограничения. Например, модель пока не поддерживает обработку 3D-данных с таких сенсоров, как лидар или радар, из-за высокой вычислительной сложности. Кроме того, EMMA способна обрабатывать лишь ограниченное количество кадров изображений одновременно. Подчёркивается, что потребуется дальнейшее исследование для преодоления всех этих ограничений перед полноценным внедрением модели в реальных условиях.

Waymo также осознает и риски, связанные с использованием MLLM в управлении автономными транспортными средствами. Модели, подобные Gemini, могут допускать ошибки или «галлюцинировать» в простых задачах, что конечно недопустимо на дороге. Тем не менее, есть надежда, что дальнейшие исследования и улучшения архитектуры ИИ-моделей для автономного вождения преодолеют эти проблемы.

Google стала маркировать тексты, сгенерированные ИИ

Google представила технологию для маркировки и распознавания текстов, созданных генеративными моделями ИИ. Инструмент под названием SynthID Text не повлияет на качество и скорость генерации контента, и будет доступен совершенно бесплатно для разработчиков и компаний.

 Источник изображения: Copilot

Источник изображения: Copilot

SynthID Text работает следующим образом. При генерации текста модель предсказывает, какой «токен» (символ или слово) будет следующим, основываясь на вероятности появления каждого токена, и добавляет дополнительную информацию в распределение этих вероятностей, модулируя скорректированные символы. В конечном итоге из них формируется водяной знак (watermark), который помогает определить, был ли текст создан ИИ. «Окончательный паттерн вероятностей слов, выбранных моделью, в сочетании с изменёнными оценками вероятностей будет считаться водяным знаком», — объясняется в блоге компании.

Google утверждает, что SynthID Text, который уже весной был интегрирован в Gemini, не влияет на качество, точность или скорость генерации. При этом текст, который был обрезан, перефразирован или изменён может обрабатываться несколько хуже. Что касается фактов, то «в ответах на слишком определённые и однозначные вопросы меньше возможностей для корректировки распределения токенов без ущерба для фактической точности».

Стоит отметить, Google — не единственная компания, работающая над технологией нанесения водяных знаков на текст, созданный ИИ. Например, OpenAI также разрабатывала методы нанесения «вотермарков», но отложила их запуск из-за технических препятствий и коммерческих соображений.

Если технология будет широко внедрена, то возможно получится переломить ситуацию с неточными, но все более популярными «детекторами ИИ», которые ошибочно определяют студенческие работы или эссе как сгенерированные нейросетью. Как пишет TechCrunch, «вопрос остаётся открытым». Однако в некоторых странах уже принимаются меры. Например, правительство Китая ввело обязательную маркировку контента, созданного ИИ, а штат Калифорния (США) собирается последовать этому примеру.

Продвинутый ИИ-художник Imagen 3 стал доступен всем пользователям Google Gemini

Как Google пообещала в августе, модель искусственного интеллекта для генерации изображений стала доступной для всех пользователей службы Gemini.

 Источник изображения: x.com/GeminiApp

Источник изображения: x.com/GeminiApp

Обновлённую модель Imagen 3, представленную в мае на мероприятии Google I/O 2024, по версии разработчика, отличают три аспекта:

  • потрясающее качество изображения — чёткие детали, яркие цвета и уменьшенное число недостатков;
  • реалистичные визуальные эффекты — яркие фотореалистичные детали;
  • разнообразие стилей — от классического масла до современного цифрового искусства.

Для создания изображений пользователям необходимо использовать в запросах к Gemini слова вроде «нарисуй» или «создай»; можно указать желаемый стиль, например, «фотореалистичная акварель» или «мультяшная иллюстрация»; помогут и детальные пояснения. В ответ чат-бот пояснит, что картинка создаётся при помощи Imagen 3; кроме того, скачиваемый файл получит пометку SynthID. Воспользоваться генератором изображений могут и пользователи бесплатных учётных записей, но для них возможности пока ограничены — система откажется создавать картинки с людьми. Первыми доступ к Imagen 3 получили англоязычные пользователи подписок Gemini Advanced, Business и Enterprise.

Голосовой помощник Gemini Live от Google стал доступен для всех Android-смартфонов, причём бесплатно

С 1 октября Google сделала бесплатной работу с голосовым помощником Gemini Live на телефонах под управлением Android. Система помогает в управлении устройствами, ориентируется в происходящем на экране и генерирует тексты в различных приложениях.

 Источник изображения: blog.google

Источник изображения: blog.google

Запуск Gemini Live производится долгим нажатием кнопки питания — вместо традиционного значка «Google Ассистента» появилась иконка с голубой звездой Gemini. Интеллектуальный помощник понимает, что происходит на экране — ему, например, можно задать вопрос о просматриваемом в настоящий момент видео на YouTube. В любом приложении он может создать изображение или текст. Ранее эти функции были доступны только пользователям подписки Gemini Advanced — в первый месяц она бесплатна, а в каждый последующий придётся отдавать $20. Если нажать и удерживать кнопку питания, появится всплывающее окно со значком сервиса в правом нижнем углу; далее потребуется изучить одностраничное руководство и выбрать мужской или женский голос с одним из диалектов английского языка.

В интерфейсе Gemini Live можно общаться с ИИ естественным образом, не беспокоясь о речевых ошибках, запинках или акценте, которые могли помешать «Google Ассистенту». При запущенном приложении микрофон по умолчанию включён — чтобы его отключить, придётся нажать соответствующие кнопки в интерфейсе. Расшифровки разговоров хранятся в журнале пользователя Gemini Apps в течение 72 часов. Для сравнения, представленная ранее функция Microsoft Copilot Vision не предполагает сохранения данных ни локально на устройстве, ни в облаке — они удаляются сразу по завершении работы с системой, уверяет разработчик.

Google запустила ИИ-ассистента Gemini Live с возможностью полного контроля над диалогом

Google запустила бесплатный голосовой режим Gemini Live для всех пользователей Android. Эта функция, доступная через приложение Gemini, позволяет вести голосовой диалог с ИИ-ассистентом в реальном времени, прерывать его ответы и выбирать различные голоса.

 Источник изображения: Google Gemini App / X

Источник изображения: Google Gemini App / X

Google впервые анонсировала Gemini Live на презентации Pixel 9 в прошлом месяце, но до сих пор эта функция была доступна только подписчикам Gemini Advanced. Как сообщает ресурс 9to5Google, для активации режима достаточно выбрать новую иконку в форме волны в правом нижнем углу интерфейса.

Gemini Live предлагает функциональность, схожую с голосовым чатом ChatGPT, но обладает рядом уникальных особенностей. Пользователи могут не только задавать вопросы голосом, но и прерывать ответы ИИ-ассистента в середине фразы, что позволяет вести с ним более естественный и динамичный диалог. Интерфейс предоставляет опции «hold» для приостановки ответа Gemini и «end» для завершения беседы, что даёт пользователю полный контроль над диалогом.

Для ещё большей персонализации взаимодействия с ИИ пользователи могут выбрать для ассистента один из понравившихся голосов. На данный момент Gemini Live работает только на английском языке, но Google уже сообщила о планах расширения языковой поддержки и разработки версии для iOS.

Google наконец починила ИИ-генератор изображений в Gemini — он перебарщивал с расовой инклюзивностью

Компания Google скоро вернёт пользователям доступ к генератору картинок в ИИ-чат-боте Gemini. Функция была удалена из чат-бота в феврале из-за того, что что она допускала серьёзные исторические ошибки в изображении людей, связанные с расовыми и гендерными вопросами. К примеру, расовое разнообразие солдат по запросу «римский легион» — явный анахронизм.

 Источник изображения: Google

Источник изображения: Google

Ранний доступ к новому генератору изображений Imagen 3 от Google откроется платным пользователям Gemini на тарифах Advanced, Business и Enterprise в ближайшие дни, сообщил в официальном блоге Google Дэйв Ситрон (Dave Citron), старший директор по продуктам Gemini. Изначально функция будет поддерживать запросы только на английском языке.

«Мы внесли технические исправления в продукт, а также поработали над более продвинутыми алгоритмами оценки и защитой от red-teaming-атак», — написал Ситрон.

В феврале этого года Google приостановила работу функцию генерации изображений в Gemini, объяснив это тем, что она предлагает «неточности» при генерации исторических изображений. Компания приняла решение направить генератор изображений Gemini на доработку менее чем через сутки после поступления первых жалоб.

По словам Ситрона, новый генератор Imagen 3 «не поддерживает создание фотореалистичных идентифицируемых лиц, изображений несовершеннолетний или чрезмерно кровавые, жестокие или сексуальные сцены».

«Конечно, как и в случае с любым генеративным инструментом ИИ, не каждое изображение, создаваемое Gemini, будет идеальным, но мы продолжим прислушиваться к отзывам пользователей и будем совершенствовать наш продукт».

Он также пообещал, что в дальнейшем пользоваться генератором изображений смогут больше людей, а сама функция получит поддержку дополнительных языков.

Google Gemini теперь поможет в доработке черновиков в Gmail

Google обновила инструменты системы искусственного интеллекта Gemini в Gmail — теперь ИИ поможет в доработке черновиков писем, которые пользователь уже написал. К присутствующим в Gmail функциям «Помощь в написании», «Формализация» и «Уточнение» добавилась опция «Доработать» (Polish).

 Источник изображений: workspaceupdates.googleblog.com

Источник изображений: workspaceupdates.googleblog.com

Чтобы с большей очевидностью указать пользователям на наличие новых функций, Google добавила ярлыки на них прямо в текст письма в приложениях для Android и iOS. Инструменты доступны только для подписчиков Google One AI Premium и тех, кто заплатил за дополнение Gemini в Workspace. При переходе к написанию письма эти пользователи увидят ярлык «Помощь в написании», по нажатии на который Gemini сам пишет черновик. Когда в черновике набираются более 12 слов, появляется ссылка на новую функцию «Доработать мой черновик» (Refine my draft), оформленная серыми буквами под основным текстом.

Можно также провести большим пальцем по тексту, и система предложит выбор «Доработать», «Формализовать», «Дополнить» или, напротив, «Сократить». Gemini может и полностью переписать черновик. Если ярлык «Доработать мой черновик» не появляется, эта функция также доступна по нажатии кнопки со значком карандаша.

Google запускает голосовой чат Gemini Live для живых интеллектуальных бесед

На презентации Pixel 9 компания Google объявила о запуске нового режима голосового чата для Gemini под названием «Gemini Live». Эта функция во многом напоминает функцию голосового чата ChatGPT, предлагая на выбор несколько вариантов голосов и возможность вести разговор в естественной манере, включая прерывание ответов ИИ в любое время.

 Источник изображения: Google

Источник изображения: Google

Как поясняет TheVerge, общение с Gemini Live может происходить в свободной форме, позволяя прерывать ответы на полуслове, приостанавливать разговор не нажимая никаких кнопок и возобновлять его позднее. Функция также работает в фоновом режиме и при заблокированном экране смартфона. Интересно, что о планах запуска Gemini Live компания Google впервые объявила на своей конференции разработчиков I/O ранее в этом году, где также было сказано, что «Live» сможет интерпретировать видео в режиме реального времени.

В дополнение к этому, Google представила 10 новых голосов для Gemini, которые пользователи смогут выбрать по своему усмотрению. Функция начала развёртываться сегодня на устройствах Android, пока только на английском языке, но нам обещают, что в ближайшие недели Gemini Live станет доступен на iOS и получит поддержку дополнительных языков.

 Источник изображения: Google

Источник изображения: Google

Помимо Gemini Live, анонсированы и другие функции для ИИ-ассистента, в частности возможность анализировать контекст экрана пользователя, что напоминает функцию ИИ, анонсированную недавно Apple на мероприятии WWDC. После того как пользователь выберет опцию «Ask about this screen» (Спросить о том, что изображено на экране) или «Ask about this video» (Спросить, что показано на видео), Gemini сможет предоставить информацию, включая извлечение деталей, например, пунктов назначения из туристических видео, для добавления в Google Maps.

Отметим, что Gemini Live будет доступен пока только для подписчиков Gemini Advanced.

Международная версия нового флагманского смартфона Xiaomi получит поддержку Google Gemini

Китайский электронный гигант Xiaomi работает с Google над интеграции большой языковой модели Gemini в новый флагманский телефон производителя, предназначенный для международного рынка.

 Источник изображения: x.com/leijun

Источник изображения: x.com/leijun

«Рад работать совместно с Google над будущими флагманскими устройствами Xiaomi для международных рынков. <..> Используя Google Cloud и Gemini, мы собираемся предложить более умные и интуитивно понятные функции», — написал в соцсети X глава Xiaomi Лэй Цзюнь (Lei Jun) после объявления, сделанного на двухдневном мероприятии Google I/O Connect China в Пекине, которое завершилось в минувший четверг.

Смартфоны Xiaomi 15, как ожидается, будут представлены в этом году. О намерении интегрировать какие-либо большие языковые модели в китайскую версию устройств сообщений пока не было, но известно, что Xiaomi разработала собственную модель MiLM — ещё в мае соответствующие документы появились у регуляторов. Система Google Gemini, как и многие другие зарубежные службы ИИ, недоступна в материковом Китае, где местные власти проводят их проверку перед выпуском в общий доступ.

 Источник изображения: blog.google

Источник изображения: blog.google

Совместный проект с Google может придать Xiaomi определённый импульс на международном рынке — компания, по версии аналитиков IDC, во II квартале стала третьим поставщиком смартфонов в мире с долей 14,8 % рынка. Первой и второй стали Samsung и Apple с долями 18,8 % и 15,8 % соответственно. Мировые поставки смартфонов во II квартале выросли на 6,5 % год к году и достигли 285,4 млн единиц, добавили в IDC.

Apple в этом году намеревается интегрировать в свои iPhone собственную систему Apple Intelligence, но в Китае компания, как ожидается, воспользуется услугами местного поставщика ИИ-решений. Пакет функций Galaxy AI, который появился на флагманских Samsung Galaxy S24 в этом году, основан на технологиях Google Gemini, а в Китае их заменит большая языковая модель Baidu Ernie.

Технологии Google Gemini интегрирует в международную версию своего флагмана и китайская Oppo — она вместе с Vivo заняла на мировом рынке смартфонов четвёртое место с долей 9 % рынка. На прошедшем мероприятии Oppo уже продемонстрировала функции на базе Gemini: перевод в реальном времени, составление сводок статей и генерацию мультимодального контента. Функции Gemini уже доступны в международной версии Oppo Reno12, и в этом году их работа будет улучшена.

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Google открыла всем пользователям бесплатный доступ к быстрой и лёгкой ИИ-модели Gemini 1.5 Flash

Google представила новую версию генеративной модели ИИ Gemini 1.5 Flash, которая доступна на более чем 40 языках и в более чем 230 странах и территориях. Компания анонсировала «общее улучшение качества и снижение задержек, особенно заметные улучшения в рассуждении и понимании изображений». Значительно увеличился размер контекстного окна, добавлена возможность загрузки файлов из Google «Диска», расширены возможности Gemini для подростков и мобильных приложений.

 Источник изображения: Google

Источник изображения: Google

Google поставила своей приоритетной целью добиться максимальной доступности новой модели Gemini. Компания начала постепенно внедрять Gemini в «Сообщениях» Google для устройств Android в Европейской экономической зоне (ЕС, Исландия, Лихтенштейн и Норвегия), Великобритании и Швейцарии. Пользователям стало доступно общение с Gemini на французском, польском и испанском языках.

Google расширила доступ к мобильному приложению Gemini в большем количестве регионов и стремится привлечь подростков старше 13 лет к использованию инструментов ИИ. Компания представила специальный процесс адаптации для подростков и руководство по грамотности в области ИИ, чтобы помочь пользователям любого уровня подготовки лучше понимать школьные предметы, готовиться к поступлению в университет или получать помощь в творческих проектах.

Google заявила о сотрудничестве с экспертами по безопасности и развитию детей, включая MediaSmarts, Miudos Seguros и Fad Juventud, которые «продолжают предоставлять экспертные знания по удовлетворению уникальных потребностей подростков и семей».

Google утверждает, что новая версия Gemini предложит существенное улучшение общего качества ответов и снижение задержек. Наибольший прогресс обещан в рассуждении и понимании изображений. Контекстное окно увеличено в четыре раза до 32 000 токенов. Для увеличения эффективности использования большого контекстного окна скоро появится возможность загружать файлы пользователя через Google «Диск» или непосредственно с устройства пользователя, что раньше было доступно лишь в Gemini Advanced.

В рамках работы по уменьшению галлюцинаций ИИ Google теперь отображает ссылки на соответствующий контент при ответе на вопросы, требующие подтверждения фактами. В конце абзаца ответа будет отображена ссылка на сайты, где можно прочитать больше по этой теме. Если ответ Gemini ссылается на информацию, найденную с помощью расширения Gmail, пользователь увидит ссылки на соответствующие электронные письма. В настоящее время эта функция ограничена подсказками только на английском языке.

Google подчёркивает, что развитие Gemini «всегда основывалось на приверженности ответственности и безопасности пользователей». Компания проводит политику максимальной открытости и прозрачности, подробно рассказывая о всех этапах разработки Gemini. В блоге Google можно получить подробную информацию о политике компании в отношении ИИ и о том, как компания решает сложные и деликатные вопросы, связанные с общественными интересами, а также политическими, религиозными или моральными убеждениями.

ИИ Gemini оказался совсем не так хорош в обработке больших объёмов данных, как заявляла Google

Новые исследования ставят под сомнение заявления Google о возможностях больших языковых моделей моделей Gemini по обработке больших объёмов данных, показывая, что их эффективность в анализе длинных текстов и видео значительно ниже заявленной.

 Источник изображения: Google

Источник изображения: Google

Недавние исследования выявили существенные недостатки в работе флагманских генеративных моделей искусственного интеллекта Google Gemini 1.5 Pro и 1.5 Flash, пишет издание TechCrunch. Google неоднократно подчёркивала способность Gemini обрабатывать огромные объёмы данных благодаря большому контекстному окну, утверждая, что модели могут анализировать документы объёмом в сотни страниц и искать информацию в видеозаписях. Однако два независимых исследования показали, что на практике эти модели справляются с такими задачами гораздо хуже.

Учёные из Массачусетского университета в Амхерсте (UMass Amherst), Института Аллена по искусственному интеллекту (Allen Institute for AI) и Принстона (Princeton University) тестировали Gemini на способность отвечать на вопросы о содержании художественных книг. Представленная для теста книга содержала около 260 000 слов (около 520 страниц). Результаты оказались неутешительными. Gemini 1.5 Pro правильно ответил только в 46,7 % случаев, а Gemini 1.5 Flash лишь в 20 % случаев. Далее усреднив результаты, выяснилось, что ни одна из моделей не смогла достичь точности ответов на вопросы выше случайной.

Маржена Карпинска (Marzena Karpinska), соавтор исследования, отметила: «Хотя такие модели, как Gemini 1.5 Pro, технически могут обрабатывать длинные контексты, мы видели много случаев, указывающих на то, что модели на самом деле не понимают содержание».

Второе исследование, проведённое учёными из Калифорнийского университета в Санта-Барбаре, фокусировалось на способности Gemini 1.5 Flash анализировать видеоконтент, а точнее слайды с изображениями. Результаты также оказались неудовлетворительными — из 25 изображений ИИ дал правильные ответы только в половине случаев, а при увеличении количества картинок точность ответов понизилась до 30 %, что ставит под сомнение эффективность модели в работе с мультимедийными данными.

Правда отмечается, что ни одно из исследований не прошло процесс рецензирования, и к тому же не тестировались самые последние версии моделей с контекстом в 2 миллиона токенов. Тем не менее, полученные результаты вызывают серьёзные вопросы в отношении реальных возможностей генеративных моделей ИИ в целом, и о том, насколько обоснованы маркетинговые заявления технологических гигантов.

Данные исследования появились на фоне растущего скептицизма в отношении генеративного ИИ. Так, недавние опросы международной консалтинговой компании Boston Consulting Group показали, что около половины опрошенных руководителей высшего звена не ожидают существенного повышения производительности от использования генеративного ИИ и обеспокоены возможными ошибками и проблемами с безопасностью данных.

Эксперты же призывают к разработке более объективных критериев оценки возможностей ИИ и к большему вниманию и независимой критике. Google пока не прокомментировал результаты этих исследований.

Apple может объявить о сделке с Google по интеграции Gemini в iPhone уже осенью

В рамках WWDC 2024 ранее в этом месяце Apple объявила о сотрудничестве с OpenAI для интеграции ChatGPT в свои устройства. Вместе с тем компания сообщила, что в будущем будут интегрированы и другие ИИ. Теперь сообщается, что Apple планирует заключить партнёрское соглашение с Google и позднее с Anthropic. Ожидается, что компания объявит о новых сделках этой осенью, одновременно с запуском собственной системы искусственного интеллекта Apple Intelligence в бета-версии.

 Источник изображения: Daniel Romero / Unsplash

Источник изображения: Daniel Romero / Unsplash

По информации Марка Гурмана (Mark Gurman) из Bloomberg, Apple готовится к значительному расширению возможностей искусственного интеллекта в своих устройствах. Помимо уже анонсированной интеграции с ChatGPT, компания планирует объявить о партнёрстве с Google для добавления чат-бота Gemini в свои продукты. Это объявление ожидается осенью, и намёки на потенциальную сделку уже были сделаны руководителем отдела программного обеспечения Apple Крейгом Федериги (Craig Federighi), также передаёт издание The Verge.

Кроме того, судя по слухам, фигурирует возможное сотрудничество с компанией Anthropic, хотя точные сроки анонса этого партнёрства пока неизвестны. В то же время, Гурман отмечает, что Apple отказалась от сотрудничества с Meta из-за вопросов конфиденциальности, связанных с её чат-ботом Llama.

Параллельно с интеграцией сторонних решений, Apple будет развивать собственную систему искусственного интеллекта, получившее название Apple Intelligence. Ожидается, что первая бета-версия этой системы будет представлена также осенью, однако пока неясно, будет ли она достаточно функциональна, чтобы стать основным стимулом для обновления устройств, таких как iPhone 15 Pro и Pro Max на более новые.

Эксперты полагают, что Apple рассматривает искусственный интеллект не только как набор функций для продвижения своих устройств, но и как потенциальный источник прямой прибыли. В будущем компания может внедрить платную подписку на некоторые возможности Apple Intelligence, а также получать долю от покупок в приложениях, связанных с подписками на чат-боты своих партнёров.

Интеграция сторонних ИИ-сервисов может стать хорошей временной альтернативой для Apple, так как компания не очень быстро разрабатывает собственную систему генеративного ИИ. При этом пользователи получат больший выбор и разнообразие функций искусственного интеллекта на устройствах Apple.


window-new
Soft
Hard
Тренды 🔥
Австралия представила беспрецедентный законопроект о полном запрете соцсетей для детей до 16 лет 21 мин.
Биткоин приближается к $100 000 — курс первой криптовалюты установил новый рекорд 59 мин.
В открытых лобби Warhammer 40,000: Space Marine 2 запретят играть с модами, но есть и хорошие новости 2 ч.
Apple попросила суд отклонить антимонопольный иск Минюста США 2 ч.
Битва за Chrome: Google рассказала об ужасных последствиях отчуждения браузера для США и инноваций 2 ч.
ИИ помог Google выявить 26 уязвимостей в открытом ПО, включая двадцатилетнюю 4 ч.
Минюст США потребовал от Google продать Chrome, чтобы разрушить поисковую монополию 4 ч.
Microsoft расширяет Xbox Cloud Gaming для стриминга игр на любых устройствах 5 ч.
«Симулятор загрузки»: Microsoft Flight Simulator 2024 оказалась не готова к взлёту 14 ч.
В Chrome устранили баг, из-за которого на сайтах могла не работать подсветка текста при выделении 14 ч.