Сегодня 22 февраля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → gemini
Быстрый переход

Google выпустила нейросеть Gemini 1.5 с огромнейшим контекстным окном — ИИ за раз осилит весь «Властелин колец»

Не прошло и двух месяцев с момента запуска передовой нейросети Gemini, а Google уже анонсировала её преемника. Сегодня была представлена большая языковая модель Gemini 1.5, которая сразу же стала доступна для разработчиков и корпоративных пользователей, а в скором времени начнется её распространение среди потребителей. Google ясно дала понять, что хочет использовать Gemini в качестве бизнес-инструмента, персонального помощника и не только.

В Gemini 1.5 много улучшений. Модель Gemini 1.5 Pro, которая ляжет в основу многих сервисов Google, превосходит Gemini 1.0 Pro на 87 % в тестах, и соответственно находится примерно на одном уровне с высококлассной Gemini 1.0 Ultra. При создании новой модели используется набирающий популярность подход «смесь экспертов» (Mixture of Experts — MoE), который подразумевает, что при отправке запроса запускается только часть общей модели, а не вся. Такой подход должен сделать модель более быстрой для пользователя и более эффективной для Google.

Но в Gemini 1.5 есть одна новая вещь, которая особенно радует всю компанию Google, начиная с генерального директора Сундара Пичаи (Sundar Pichai). Новая версия нейросети имеет огромное контекстное окно, что означает, что она может обрабатывать гораздо более объёмные запросы и просматривать гораздо больше информации одновременно. Размер окна составляет 1 миллион токенов, что намного больше 128 000 токенов у GPT-4 от OpenAI и 32 000 у текущей Gemini Pro. «Это примерно 10 или 11 часов видео, десятки тысяч строк кода», — отметил Пичаи. Ещё он добавил, что исследователи Google тестируют контекстное окно на 10 миллионов токенов — это, например, вся серия «Игры престолов» в одном запросе.

В качестве примера Пичаи говорит, что в это контекстное окно можно вместить всю трилогию «Властелин колец». Это кажется слишком специфичным, но, возможно, кто-то в Google проверит, не обнаружит ли Gemini ошибок в преемственности, пытается разобраться в сложной родословной Средиземья. Или ИИ, возможно, сможет понять Тома Бомбадила.

Пичаи также считает, что увеличенное контекстное окно будет очень полезно для бизнеса. «Это позволит вам использовать примеры, в которых вы можете добавить много личного контекста и информации в момент запроса, — говорит он. — Считайте, что мы значительно расширили окно запроса». Глава Google представляет себе, что кинематографисты могут загрузить весь свой фильм и спросить у Gemini, что скажут рецензенты, а компании смогут использовать Gemini для обработки массы финансовых документов. «Я считаю это одним из самых больших прорывов, которые мы совершили», — говорит он.

Пока что Gemini 1.5 будет доступна только для бизнес-пользователей и разработчиков через Google Vertex AI и AI Studio. Со временем она заменит Gemini 1.0, а стандартная версия Gemini Pro — та, что доступна всем на сайте gemini.google.com и в приложениях Google, — будет заменена на 1.5 Pro с контекстным окном на 128 000 токенов. Чтобы получить миллион, придется доплатить. Google также тестирует безопасность и этические границы модели, особенно в отношении нового увеличенного контекстного окна.

Сейчас Google находится в бешеной гонке за создание лучшего инструмента ИИ, в то время как компании по всему миру пытаются определить свою собственную стратегию ИИ и сотрудничать с OpenAI, Google или кем-то ещё. Буквально недавно OpenAI анонсировала «память» для ChatGPT и, похоже, готовится к выходу на рынок веб-поиска. Пока Gemini выглядит впечатляюще, особенно для тех, кто уже работает в экосистеме Google, компании предстоит еще много работы.

В конце концов, говорит Пичаи, все эти 1.0 и 1.5, Pro и Ultra, а также корпоративные битвы не будут иметь значения для пользователей. «Люди будут просто потреблять лучший пользовательский опыт, — говорит он. — Это как пользоваться смартфоном, не обращая внимания на процессор под крышкой». Но на данный момент, по его словам, мы всё еще находимся на стадии, когда каждый знает, какой чип находится внутри его телефона, потому что это имеет значение. «Базовые технологии меняются так быстро», — говорит глава Google. — Людям не все равно».

ИИ-бот Gemini стал доступен на iOS через приложение Google

Google активно расширяет присутствие основанного на искусственном интеллекте чат-бота Gemini, который пришёл на смену «Google Ассистенту» — соответствующее приложение появилось в ряде новых стран, а сам чат-бот теперь доступен в приложении Google для iOS, обратил внимание ресурс Android Authority.

 Источник изображения: androidauthority.com

Источник изображения: androidauthority.com

Для владельцев iPhone отдельного приложения Gemini нет, но теперь можно активировать чат-бот в верхней части основного приложения Google. С выбором нового ИИ-помощника меняется интерфейс всего приложения — внизу появляется крупное поле для ввода запросов. Чтобы задать запрос голосом, требуется нажать кнопку с изображением микрофона; отправка также производится нажатием отдельной кнопки. Ответы не озвучиваются в автоматическом режиме — для этого нужно коснуться значка с изображением динамика.

При взаимодействии с Gemini на iOS можно пользоваться текстом, голосом, отправлять изображения и открывать в приложении камеру. ИИ кратко излагает сложные темы, генерирует программный код, пишет тексты, например, благодарственные письма и письма электронной почты, создаёт изображения и многое другое. На iOS есть собственный помощник Siri, поэтому возможность вызвать Gemini на любом экране для получения контекстной помощи отсутствует — это есть только в Android.

По неподтверждённой пока информации, Apple также работает над новыми функциями ИИ для iPhone, и дебютировать они могут с выходом iOS 18.

Google по умолчанию собирается хранить переписку пользователей с Gemini три года

Google опубликовала на портале техподдержки разъяснение о пользовательских данных, которые собираются при взаимодействии с чат-ботом Gemini — это касается веб-интерфейса, а также переписки в приложениях для Android и iOS: по умолчанию она будет храниться три года.

 Источник изображения: Sascha Bosshard / unsplash.com

Источник изображения: Sascha Bosshard / unsplash.com

Компания отмечает, что создатели аннотаций для искусственного интеллекта регулярно читают, размечают и иным образом обрабатывают диалоги с Gemini для улучшения сервиса. Журналы переписки «отключены» от учётных записей Google, но не уточняется, кто именно читает их — собственные сотрудники компании или сторонние подрядчики. Диалоги хранятся на серверах до трёх лет вместе со «связанными данными»: языком переписки, устройством пользователя и его местоположением.

В разделе «Мои действия» настроек учётной записи Google есть страница с активной по умолчанию опцией, которая отключает сохранение переписки с Gemini — здесь же можно вручную удалить все запросы и команды, ранее отданные приложениям Gemini. Но в компании предупредили, что даже при отключении записи журналов переписка с чат-ботом будет сохраняться на сроки до 72 часов — это поможет «обеспечить безопасность приложений Gemini и улучшать приложения Gemini». Поэтому Google просит пользователей не вводить в переписке с ИИ конфиденциальные данные или любую другую информацию, которую они не хотели бы показывать сотрудникам сервиса или использовать для улучшения продуктов компании, а также её технологий машинного обучения.

Обработка конфиденциальных данных генеративным ИИ сегодня является проблемной областью. OpenAI в минувшем году пришлось по этому поводу объясняться с американскими и итальянскими властями. Amazon, Google, Microsoft и та же OpenAI предлагают основанные на ИИ сервисы для предприятий, и эти сервисы не предполагают продолжительного хранения данных. Отношения с потребителями, однако, выстраиваются по иным схемам.

Google открыла свою мощнейшую нейросеть широкой публике за $20 в месяц, а Bard переименовала в Gemini

Как и ожидалось, компания Google объявила о ребрендинге своего ИИ-бота Bard, который теперь официально называется Gemini. Вместе с этим пользователи могут задействовать новое Android-приложение Gemini, открывающее доступ к ИИ-боту, а функции Duet AI в Google Workspace объединяются вокруг единого бренда, символизирующего ИИ-инструменты от Google.

 Источник изображений: Google

Источник изображений: Google

Вероятно, мобильное приложение Gemini станет наиболее доступным вариантом для ознакомления с возможностями ИИ-бота Google. После установки на устройство с Android ИИ-бот Gemini, помимо прочего, может заменить собой голосового ассистента Google Assistant. «Я думаю, что это важный шаг на пути к созданию настоящего ИИ-помощника», — заявила Сисси Сяо (Sissie Hsiao), глава подразделения по разработке Bard (теперь Gemini). Она также добавила, что голосовой помощник компании стал «более полезным, чем когда-либо».

Приложения Gemini для iOS не существует, вероятно, из-за того, что пользователи iPhone всё равно не могли бы задействовать бота Google в качестве помощника по умолчанию. Однако владельцы устройств Apple могут получить доступ ко всем ИИ-функциям в приложении Google.

Остальные изменения в основном касаются брендинга. Google отказывается от имени Bard, но чат-бот компании при этом никуда не денется и будет развиваться в будущем. Это касается и всех ИИ-функций Google Workspace, которые прежде назывались Duet AI, но теперь объединились под брендом Gemini. Пользователи по-прежнему могут задействовать их для составления электронных писем, таблиц и выполнения других рабочих задач.

В основе бесплатной общедоступной версии ИИ-бота лежит большая языковая модель Gemini Pro. Чтобы получить доступ к самой мощной языковой модели Google Gemini Ultra, придётся оформить подписку Gemini Advanced, которая входит в пакет Google One AI Premium стоимостью $20 в месяц. Подписка также включает в себя 2 Тбайт облачного хранилища и другие возможности Google One.

Стремление Google активно продвигать Gemini вполне объяснимо, поскольку компания пытается конкурировать на рынке искусственного интеллекта с другими крупными игроками, такими как OpenAI, Anthropic, Perplexity и др. Google ещё предстоит доказать свою способность идти в ногу с отраслью, поскольку компания стремится одновременно создать привлекательный потребительский продукт и пытается убедить разработчиков использовать Gemini, а не ChatGPT.

Google переименует ИИ-бота Bard в Gemini и выпустит отдельное приложение для Android

В ближайшие несколько дней ИИ-бота Google Bard ждут большие перемены. Данные журнала изменений (changelog) говорят о том, что разработчики намерены переименовать чат-бота в Gemini, а также выпустить отдельное Android-приложение, позволяющее взаимодействовать с нейросетью.

 Источник изображения: 9to5google.com

Источник изображения: 9to5google.com

Последние несколько месяцев Google активно развивает своего ИИ-бота. Одно из важных изменений произошло в конце прошлого года, когда основой Bard стала большая языковая модель Gemini. Не так давно алгоритм получил возможность генерации изображений по текстовому описанию. Однако разработчики не намерены останавливаться на достигнутом, и вскоре Bard ждут новые изменения. По данным источника, уже на следующей неделе Bard будет официально переименован в Gemini. Этот шаг выглядит вполне логичным, поскольку с недавних пор именно продвинутая языковая модель Gemini Pro является основой чат-бота Google.

Данные журнала изменений указывают на то, что продвинутая версия ИИ-бота Gemini Advanced станет доступна с 7 февраля. Основой Gemini Advanced выступает продвинутая языковая модель Gemini Ultra, а для взаимодействия с этой версией ИИ-бота придётся оформлять платную подписку. В журнале изменений Google прямо указывает на то, что это платный продукт, и он будет развиваться за счёт интеграции дополнительных функций, которые не будут доступны в базовой версии алгоритма.

В дополнение к этому Google выпустит отдельное Android-приложение Gemini, с помощью которого можно взаимодействовать с ботом на мобильных устройствах. Несмотря на то, что ИИ-бот уже интегрирован в разные приложения Google, такие как Gmail и YouTube, все возможности Gemini будут раскрыты в отдельном приложении. Пользователи устройств с iOS, которые хотят взаимодействовать с ИИ-ботом Gemini, смогут сделать это посредством приложения Google.

Помощник программиста Google Duet AI for Developers переедет на нейросеть Gemini

Google объявила, что Duet AI for Developers, набор вспомогательных инструментов на базе ИИ для генерации кода, о котором компания рассказывала ранее в этом году, теперь общедоступен для личного и корпоративного использования. К тому же в ближайшие недели перейдёт на более мощную модель ИИ Google Gemini. Бесплатный тестовый период продлится до конца января 2024 года.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Инструменты генерации кода, среди которых лидирует Copilot от Microsoft, были положительно оценены разработчиками. Google не осталась в стороне и предложила свой вариант набора инструментов для разработчиков на базе ИИ — Duet AI for Developers. Google заключила соглашения с 25 софтверными компаниями, среди которых Confluent, HashiCorp и MongoDB, предоставившими наборы своих данных для обучения ИИ помощи при дополнении и генерации кода.

«Я по-прежнему возглавляю команду инженеров, которые занимаются взаимоотношениями с разработчиками и всей нашей документацией, — объяснил Ричард Серотер (Richard Seroter), главный евангелист Google Cloud. — Каждый день мы видим, что работы ещё много, с программным обеспечением ещё много сложностей. Как ИИ может помочь избавиться от этого шаблона, от вещей, которые нам не нравится делать? Как сделать кодирование лучше? Это было многое из того, что мы преследовали. Как нам создать своего рода ИИ-помощника, который будет ассистировать разработчикам, при этом добавляя в процесс разработки немного Google?»

 Источник изображения: Google

Источник изображения: Google

Duet AI for Developers в настоящее время поддерживает более 20 языков, включая C, C++, Java, JavaScript и Python. Помимо обычных возможностей кодирования, он включает поддержку объединения журналов ИИ, поиска и объяснения ошибок, интегрированных, например, с облачным журналированием Google, а также Smart Actions («Интеллектуальные действия»), которые позволяют одним щелчком мыши выполнять рутинные задачи, такие как создание модульных тестов. Применять новые инструменты Google Duet AI for Developers можно при помощи интеграции в Google Cloud Console поверх популярных IDE, используемых разработчиками.

Google полагает, что эти инструменты не заменят навыки кодирования, но помогут сделать разработчиков более продуктивными. В качестве примера компания сообщила, что Turing, компания, предоставляющая технические услуги на основе искусственного интеллекта, добилась увеличения производительности на 33 % после внедрения Duet AI for Developers.

Серотер особо подчеркнул, что набор инструментов Duet AI for Developers общедоступен как продукт корпоративного уровня с контролем доступа и гарантией возмещения ущерба от Google. До конца января 2024 года Duet AI for Developers можно использовать бесплатно. После этого месячная подписка будет стоить $19 за пользователя при заключении годового контракта.

Google запустила AI Studio — простой инструмент для разработки приложений и чат-ботов с ИИ

Представив на прошлой неделе семейство больших языковых моделей Gemini и внедрив их в чат-бот Bard, компания Google теперь предложила Gemini разработчикам сторонних приложений и сервисов. Компания запустила целый ряд новых и обновлённых сервисов, в том числе службу AI Studio, которая ранее была известна как MakerSuite.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

AI Studio — это веб-инструмент для разработчиков, который функционирует как шлюз в более широкую экосистему Gemini, начиная с продвинутой нейросети Gemini Pro и заканчивая самой мощной Gemini Ultra, выход которого намечен на следующий год. С помощью этого сервиса разработчики могут быстро создавать подсказки и чат-боты на базе Gemini, а затем получать API-ключи для использования их в своих приложениях, или доступ к коду, чтобы работать над ним в более полнофункциональной IDE.

Важно отметить, что существует относительно щедрая бесплатная квота на использование нейросети — до 60 запросов в секунду. Этого должно быть достаточно для быстрой итерации идей без обременительных ограничений и, возможно, даже достаточно для работы с некоторыми не слишком крупными приложениями.

Тем не менее, за скорость всё же придётся «платить»: для разработчиков, использующих бесплатную подписку (а это на текущий момент практически всё, поскольку Google планирует запустить платную версию только одновременно с запуском модели Gemini Ultra), рецензенты Google смогут контролировать входные и выходные данные API и веб-приложения, чтобы «улучшить качество продукта». Google при этом гарантирует, что эти данные не будут сопоставляться с аккаунтом Google и ключами API конкретного пользователя.

По сравнению с предыдущей версией MakerSuite, обновлённый софт выглядит более «навороченным». Среди прочего, в нём появится поддержка Gemini Pro и модели Gemini Pro Vision. Это позволит разработчикам работать как с текстом, так и с изображениями (хотя и не создавать их). «Мы хотим пригласить разработчиков протестировать новый инструмент, — сообщил Джош Вудворт (Josh Woodward), вице-президент Google Labs. — Это первая версия, и у нас много доработок, которые мы уже сейчас делаем для будущих обновлений, но мы стараемся разработать её таким образом, чтобы люди могли просто войти и начать создавать с её помощью».

Используя веб-интерфейс, разработчики могут выбирать модели, чтобы контролировать творческий диапазон ответов ИИ, и приводить примеры, чтобы дать указания боту по тону и стилю. Также можно настроить параметры безопасности модели. Вудворд также отметил, что команда постаралась разработать AI Studio таким образом, чтобы даже бесплатный уровень не был похож на пробный или закрытый продукт. И действительно, если ограничения по скорости бесплатного уровня достаточны для их использования, разработчики могут сразу же начать публиковать свои приложения AI Studio или использовать их через API или SDK Google.

Жанин Бэнкс (Jeanine Banks), вице-президент и генеральный директор Google Developer X и глава отдела по работе с разработчиками, также подчеркнула, что AI Studio — это вход в более широкую экосистему ИИ Google и, в частности, в Vertex AI, корпоративную платформу Google для разработчиков генеративного ИИ.

«[Мы предлагаем] идею "развиваться вместе с Google", когда вы можете войти, создать что-то, запустить, развернуть, позволить людям использовать это и иметь щедрый бесплатный уровень. Но затем мы также поставляем целый набор SDK, которые позволяют разработчикам запускать и создавать приложения на Gemini Pro, которые могут работать практически везде, от бэкенда с поддержкой Node.js и Python, до мобильных устройств с поддержкой Java, Kotlin и Swift, и до веба, конечно же, с JavaScript», — объяснила она. Говоря об экосистеме в целом, Бэнкс также пояснил, что в начале следующего года Google планирует внедрить Gemini в Chrome Dev Tools и мобильную платформу разработки Google Firebase.

Учитывая скорость развития генеративного ИИ, сложно даже предсказать, для чего разработчики захотят использовать эти инструменты в дальнейшем, но Бэнкс и Вудворд подчеркнули, что Google планирует создать AI Studio как лёгкую ступеньку для разработчиков всех уровней подготовки.

«ChatGPT, который знает всё о вашей жизни»: Google хочет рассказать людям историю их жизни с помощью ИИ

Проект Google с кодовым именем Ellmann позволит пользователям получить «ретроспективный взгляд» на историю их жизни. Идея заключается в том, чтобы использовать большие языковые модели, такие как Gemini, для обработки пользовательских поисковых запросов, выявления закономерностей в его фотографиях, создания индивидуального чат-бота и «ответов на ранее невозможные вопросы» о жизни человека. Команда также продемонстрировала «Чат Ellmann» с многообещающим и пугающим описанием: «Представьте, что вы открываете ChatGPT, а он уже знает всё о вашей жизни».

 Источник изображения: Google

Источник изображения: Google

Команда Google предложила использовать технологию искусственного интеллекта для создания картины жизни пользователей «в ретроспективе», используя данные мобильного телефона, такие как фотографии и поисковые запросы. Пока неясно, планирует ли компания внедрить эти возможности в «Google Фото» или в какой-либо другой свой продукт.

Проект Ellmann, названный в честь биографа и литературного критика Ричарда Дэвида Эллманна (Richard David Ellmann), предполагает использование LLM, таких как Gemini, для обработки результатов поиска, выявления закономерностей в фотографиях пользователя, создания чат-бота и «ответов на ранее невозможные вопросы», говорится в копии презентации Google. Цель проекта, как поясняется в презентации, — создать «Рассказчика истории вашей жизни».

Менеджер по продуктам «Google Фото» представил проект Ellmann вместе с командами Gemini на недавнем внутреннем саммите. Команды потратили несколько месяцев на то, чтобы определить, что большие языковые модели являются идеальной технологией для того, чтобы сделать этот подход к истории ретроспективного описания жизни реальностью.

Ellmann может использовать контекст биографии, предыдущих и последующих фотографий, чтобы описать конкретные фотографии пользователя более глубоко, чем «просто пиксели с ярлыками и метаданными», говорится в презентации. Он предлагает определять ряд моментов, таких как университетские годы, годы жизни в каком-то определённом месте и годы жизни в качестве родителя.

«Мы не сможем ответить на сложные вопросы или рассказать хорошую историю, не имея представления о вашей жизни в вашем же прошлом», — говорится в одном из описаний к фотографии маленького мальчика, играющего с собакой в грязи.

«Мы просматриваем ваши фотографии, изучаем их метки и местоположение, чтобы определить значимый момент, — говорится на слайде презентации. — Когда мы оглядываемся назад и понимаем вашу жизнь во всей её полноте, становится понятна ваша история жизни». В презентации отмечается, что большие языковые модели могут определять такие моменты, как рождение ребенка пользователя. «Эта LLM может использовать знания из более высоких частей дерева, чтобы сделать вывод о том, что это рождение Джека и что он первый и единственный ребенок Джеймса и Джеммы».

«Одна из причин, по которой LLM настолько эффективен для такого подхода ретроспективного анализа, заключается в том, что он может брать неструктурированный контекст с разных ветвей дерева модели и использовать его для улучшения понимания других областей дерева», — поясняется на слайде, сопровождающемся иллюстрацией различных жизненных «моментов» и «глав» из жизни пользователя.

Кроме того, команда проекта описала суть Ellmann следующей фразой: «Представьте, что вы открываете ChatGPT, а он уже знает всё о вашей жизни. О чём бы вы его спросили?». Далее команда показала пример чата, в котором пользователь спрашивает: «Есть ли у меня домашнее животное?». На что чат отвечает, что да, у пользователя есть собака, которая носит красный дождевик, затем предлагает имя собаки и имена двух членов семьи, с которыми питомец чаще всего проводит время.

Ellmann также представил краткую информацию о привычках пользователя в еде. «Похоже, вам нравится итальянская кухня. Здесь есть несколько фотографий блюд из пасты, а также фотография пиццы». В сообщении также говорилось, что пользователю, похоже, нравится новая еда, потому что на одной из его фотографий было меню с нераспознанным блюдом. Технология также определила, какие товары пользователь собирался приобрести, его интересы, работу и планы на путешествия, основываясь на скриншотах пользователя, говорится в презентации. Технология сможет узнать любимые сайты и приложения пользователей, приводя в пример Google Docs, Reddit и Instagram.

Представитель Google предоставил следующий комментарий: «В "Google Фото" всегда использовался искусственный интеллект для поиска фотографий и видео, и мы рады тому, что LLM могут открыть ещё более полезные возможности. Это было раннее внутреннее исследование, и, как всегда, если мы решим выпустить новые функции, мы потратим время, необходимое для того, чтобы убедиться, что они полезны для людей и разработаны с учётом защиты конфиденциальности и безопасности пользователей, что является нашим главным приоритетом».

Предлагаемый проект Ellmann может помочь Google в гонке вооружений между технологическими гигантами по созданию более персонализированных «воспоминаний» о жизни. Google Photos и Apple Photos уже много лет предлагают пользователям «воспоминания» и создают альбомы на основе тенденций в фотографиях.

В ноябре Google объявила, что с помощью искусственного интеллекта «Google Фото» теперь может группировать похожие фотографии и организовывать скриншоты в легко находимые альбомы.

Такие корпорации бигтеха, как Google, Facebook и Apple, со временем добавили элементы управления для минимизации нежелательных «воспоминаний», но пользователи сообщают, что иногда они всё равно появляются и требуют переключения нескольких настроек, чтобы минимизировать «неприятные воспоминания».

Акции Google подскочили более чем на 5 % после анонса нейросети Gemini

На этой неделе Google представила большую языковую модель Gemini, которая в перспективе должна стать главным конкурентом GPT-4 от OpenAI, а продукты на её основе — конкурентами ИИ-сервисов Microsoft. Для ценных бумаг компании 7 декабря, когда стоимость акций выросла более чем на 5 % до $136,93, стало лучшим днём с 29 августа.

 Источник изображений: Google

Источник изображений: Google

Представитель торгового отдела банковской холдинговой компании Wells Fargo считает, что анонса нейросети Gemini должно быть достаточно, чтобы успокоить скептиков, которые считают, что Google проигрывает Microsoft гонку в сфере искусственного интеллекта. Он также отметил, что большой вопрос заключается в том, как компания видит монетизацию своей нейросети.

Аналитики Bank of America отметили, что в этом году Alphabet находится под давлением из-за опасений по поводу возможностей Google в сфере искусственного интеллекта. Поэтому «хорошо раскрученная» конкурентная модель может иметь преимущества для её потребительской поисковой активности и корпоративных продаж облачных технологий. «Мы считаем, что Google обладает мощным потенциалом в сфере искусственного интеллекта, и данные, свидетельствующие о том, что Google обладает лучшими в своём классе собственными возможностями искусственного интеллекта, могут оказать положительное влияние на акции в первом полугодии 2024 года», — считают аналитики.

Пока неясно, планирует ли Google монетизировать Gemini через все свои продукты в долгосрочной перспективе, хотя уже в этом месяце компания начнёт лицензировать использование алгоритма клиентами через Google Cloud. Руководство Google заявило, что Gemini превосходит алгоритм GPT-3.5 от OpenAI, но не были озвучены сравнительные данные с моделью GPT-4 Turbo. Тем не менее, Gemini показывает, что существуют возможности для дальнейшей монетизации ИИ.

Например, Microsoft недавно запустила ИИ-помощника Copilot на базе ChatGPT, который встроен в Word, Excel и другие приложения офисного пакета компании, стоимостью $30 в месяц на пользователя. В октябре аналитики Piper Sandler заявили, что Copilot может принести Microsoft более $10 млрд ежегодного дохода к 2026 году.

Аналитики JPMorgan сообщили, что хотя инвесторы Уолл-стрит в основном не обратили внимания на анонс Google, они воодушевлены, увидев Google в «этом важном технологическом сдвиге». Однако они отмечают, что «неопределённость в отношении путей монетизации в поиске» будет иметь место. Они считают, что запуск Gemini представляет собой значительную инновацию для Google, поскольку вскоре начнётся второй год коммерциализации и широкой доступности генеративных алгоритмов на базе нейросетей.

Google всех обманула: видео о возможностях мощной нейросети Gemini оказалось подделкой

Google представила свою самую мощную модель искусственного интеллекта Gemini всего два дня назад, и компанию уже успели обвинить в фальсификации информации о ней. Как выяснилось, разработчик отредактировал демонстрационное видео Gemini и тем самым ввёл общественность в заблуждение относительно скорости её работы и даже возможностей.

 Источник изображения: blog.google

Источник изображения: blog.google

Google опубликовала шестиминутное видео, демонстрирующее всесторонние способности Gemini: ИИ неплохо справляется с распознаванием объектов, причём отслеживает динамику их внешнего вида и даже рассуждает. Но есть один нюанс. В описании видео присутствует фраза: «В целях этой демонстрации задержка была уменьшена, а ответы Gemini — сокращены».

Как выяснилось, у этого нюанса серьёзные последствия. В реальности, пояснил представитель Google, Gemini обрабатывала текстовые запросы, которые впоследствии были отдельно озвучены, и распознавала неподвижные изображения. И это в корне отличается от сценария, который подразумевается демонстрационным видео: у зрителя формируется впечатление, что он может вести непринуждённый диалог с Gemini, а ИИ способен наблюдать за объектами в реальном времени и реагировать на перемены в них.

Но в Google с такой версией изложения фактов не согласились и отвергли обвинения в фальсификации данных. Вице-президент по исследованиям и глубокому обучению подразделения DeepMind Ориол Виньялс (Oriol Vinyals) пояснил: «Все пользовательские запросы и ответы в видео настоящие, урезанные для краткости. Видео демонстрирует, как может выглядеть многорежимный пользовательский интерфейс, созданный с помощью Gemini. Мы сделали это, чтобы вдохновить разработчиков».

Первое знакомство с революционной нейросетью Google Gemini разочаровало пользователей

Вчера компания Google представила флагманскую большую языковую модель искусственного интеллекта (ИИ) Gemini. Нейросеть предназначена для целого ряда продуктов и сервисов, включая ИИ-чат-бота Bard, конкурента ChatGPT. Однако большинство пользователей, успевших протестировать обновлённый Bard на свежей нейросети, остались недовольны результатами.

 Источник изображения: Google

Источник изображения: Google

В своих блогах и материалах для прессы Google превозносит превосходную архитектуру и возможности Gemini, утверждая, что данная модель соответствует или даже превосходит по производительности другие ведущие модели генеративного ИИ, такие как GPT-4 от OpenAI. Однако первый опыт взаимодействия некоторых пользователей свидетельствует об обратном.

Так, вчера Bard получил апгрейд в виде «облегчённой» версии модели под названием Gemini Pro. Пользователи сразу начали высказывать своё недовольство обновлением на страницах социальной сети X (бывший Twitter). К примеру, чат-бот не смог правильно предоставить простые факты, например, победителей премии «Оскар» 2023 года. При этом Gemini Pro неверно утверждает, что в прошлом году лучшим актёром стал Брендон Глисон (Brendan Gleeson), в то время как фактически победителем был Брендан Фрейзер (Brendan Fraser). При попытках пользователей задать этот же вопрос, можно в результате получить другой неправильный ответ.

 Источник изображения: Google

Источник изображения: Google

Похожая ситуация с вопросами касательно лучших фильмов: «На западном фронте без перемен» стал лучшим международным фильмом по мнению модели, «Говорят женщины» стал лучшим адаптированным сценарием, а «Пиноккио» — лучшим анимационным фильмом. Модель во всех этих примерах выдала некорректные ответы.

Кроме того, Bard на базе Gemini продемонстрировал плохую производительность при переводах. К примеру, при попытках пользователей запросить у модели слово на французском языке, состоящее из 6 букв, Gemini выдаёт вариант из 7 букв.

 Источник изображения: Google

Источник изображения: Google

А как насчёт обобщения новостей? Gemini Pro, имея в своём распоряжении «Google Поиск» и «Google Новости», очевидно, может предоставить краткий обзор новостей. Как бы не так. Похоже, Gemini Pro не желает комментировать потенциально спорные темы новостей, предлагая пользователям... погуглить самим. При этом конкурент от OpenAI ChatGPT, напротив, легко справляется с этой задачей, предоставляя краткое изложение со ссылками на новостные статьи. Хотя доступна эта функция лишь платным подписчикам — бесплатная версия ChatGPT не подключена к интернету.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Как и все генеративные модели ИИ, Gemini Pro не застрахован от «взлома», то есть от запросов, которые обходят защитные фильтры, пытающиеся предотвратить обсуждение спорных тем. Используя автоматизированный метод алгоритмического изменения контекста подсказок до тех пор, пока защитные фильтры Gemini Pro не перестанут работать, исследователи ИИ-безопасности из стартапа Robust Intelligence, продающего инструменты для аудита моделей, смогли заставить Gemini Pro предложить способы аморальных действий, например, кражи у благотворительной организации.

Следует отметить, что Gemini Pro на текущий момент не является самой способной версией Gemini. Более продвинутая версия — Gemini Ultra — должна появиться на рынке в следующем году, в ИИ-чат-боте Bard и других продуктах. Поэтому сейчас Google сравнивает Gemini Pro с моделью конкурента GPT-3.5, которой уже около года, а не с последней версией GPT-4.

Тем не менее, Google пообещала, что Gemini Pro улучшит рассуждения, планирование и понимание по сравнению с предыдущей моделью, используемой в Bard, и заявила, что Gemini Pro лучше справляется с обобщением контента, мозговым штурмом и написанием текста. Пока что этого не видно.

Google представила свой самый быстрый ИИ-ускоритель — Cloud v5p

Сегодня Google объявила о запуске новой большой языковой модели Gemini. Вместе с ней компания представила свой новый ИИ-ускоритель Cloud TPU v5e (Tensor processing unit — тензорный процессор). Кластер на базе новых TPU состоит из 8960 чипов v5p и оснащён самым быстрым интерконнектом Google — скорость передачи данных может достигать 4800 Гбит/с на чип.

 Источник изображений: Google

Источник изображений: Google

Cloud TPU v5e оснащён 95 Гбайт памяти HBM3 с пропускной способностью 2765 Гбайт/с. Производительность в целочисленных операциях INT8 составляет 918 TOPS (триллионов операций в секунду), тогда как производительность в вычислениях на числах с плавающей запятой BF16 составляет 459 Тфлопс.

 Источник изображения: Google

Google утверждает, что новые чипы значительно быстрее, чем образец предыдущего поколения TPU v4. Новый Cloud TPU v5p предложит двукратное увеличение производительности в операциях с плавающей запятой (FLOPS) и трёхкратное увеличение объёма памяти с высокой пропускной способностью.

По словам Google, новые ускорители TPU v5p способны обучать большие языковые модели, например GPT-3 со 175 млрд параметров, в 2,8 раза быстрее, чем TPU v4, и при этом с меньшими затратами энергии. Более того, благодаря второму поколению SparseCore, TPU v5p может обучать embedding-dense модели в 1,9 раза быстрее, чем TPU v4. Помимо повышения производительности, TPU v5p обеспечивает вдвое более высокий уровень масштабируемости, чем TPU v4, что в сочетании с удвоением производительности обеспечивает в четыре раза больше Флопс на кластер.

Что интересно, по производительности на доллар v5p слегка проигрывает представленным недавно ускорителям TPU v5e. Однако последние можно собирать в кластеры лишь до 256 чипов, а один чип обеспечит лишь 197 Тфлопс в BF16 против 275 Тфлопс у TPU v4 и 459 Тфлопс у TPU v5p.

 Источник изображения: Google

«На ранней стадии использования Google DeepMind и Google Research демонстрировали двукратное ускорение рабочих нагрузок по обучению LLM на основе чипов TPU v5p по сравнению с производительностью, снятой с чипов текущего поколения TPU v4, – пишет Джефф Дин (Jeff Dean), главный научный сотрудник Google DeepMind и Google Research. – Широкая поддержка ML-фреймворков, таких как JAX, PyTorch, TensorFlow, и инструментов оркестровки позволят нам ещё эффективнее масштабироваться, используя чипы v5p. Благодаря второму поколению SparseCore мы также видим значительное улучшение производительности рабочих нагрузок при выполнении встраиваний. TPU жизненно важны для обеспечения наших самых масштабных исследований и инженерных работ на передовых моделях, таких как Gemini».

Google представила ИИ-модель Gemini — она должна стать главным конкурентом GPT-4

Google объявила о запуске модели искусственного интеллекта Gemini, которая станет основой ИИ-функций компании и бросит вызов конкурентам, включая ChatGPT от OpenAI. По словам гендиректора Google Сундара Пичаи (Sundar Pichai), появление нового алгоритма знаменует начало новой эры искусственного интеллекта в компании.

 Источник изображений: Google

Источник изображений: Google

«Одна из самых важных особенностей этого момента в том, что вы можете работать над одной базовой технологией и улучшать её, и это сразу будет распространяться на все наши продукты», — сказал господин Пичаи.

Гендиректор Google отметил, что запуск языковой модели Gemini является огромным шагом вперёд и в конечном счёте это окажет влияние практически на все продукты компании. Gemini представляет собой нечто большее, чем одна языковая модель. Существует более лёгкая версия ИИ-модели Gemini Nano, которая предназначена для автономной работы на устройствах с Android. Кроме того, существует более мощная версия Gemini Pro, которая в будущем станет основой многих сервисов Google, а с сегодняшнего дня является основой чат-бота Bard. В дополнение к этому Google создала ИИ-модель Gemini Ultra, которая является самой мощной языковой моделью компании и в основном предназначена для использования в центрах обработки данных и интеграции с корпоративными приложениями.

На потребительский рынок компания выводит свою ИИ-модель сразу несколькими способами. Чат-бот Bard теперь работает на основе Gemini Pro, а пользователи Pixel 8 Pro получат доступ к нескольким новым функциям благодаря интеграции с Gemini Nano. Возможность использования Gemini Ultra появится в следующем году. Разработчики и корпоративные клиенты смогут получить доступ к Gemini Pro через Google Generative AI Studio или Vertex AI в Google Cloud, начиная с 13 декабря. На данный момент Gemini может обрабатывать запросы на английском языке, но, очевидно, что в дальнейшем, появится поддержка других языков.

По словам Сундара Пичаи, эта ИИ-модель в конечном счёте будет интегрирована в поисковую систему Google, рекламные продукты компании, браузер Chrome и другие сервисы. Похоже, что Google, являющаяся создателем большей части основополагающих технологий, способствовавших нынешнему буму в сфере ИИ, и уже около десяти лет называвшая себя компанией, ориентированной на искусственный интеллект, готова дать отпор запущенному год назад ChatGPT, который оказался настолько хорош, что явно заставил нервничать IT-гиганта.

В рамках презентации Gemini гендиректор Google DeepMind Демис Хассабис (Demis Hassabis) рассказал, что Google провела тщательное сравнение своей языковой модели с GPT-4, наиболее актуальной версией нейросети, лежащей в основе ChatGPT. «Мы провели очень тщательный сравнительный анализ систем. Я думаю, что мы существенно опережаем конкурента по 30 из 32 показателей», — сказал Хассабис, указывая на 32 хорошо себя зарекомендовавших теста сравнения больших языковых моделей. Он также отметил, что в некоторых тестах превосходство Gemini над GPT-4 минимально, тогда как в других оно более ощутимо.

В этих тестах наиболее явным преимуществом Gemini стала способность понимать видео и аудио, а также взаимодействовать с ними. По большому счёту, Google так и задумывала, поскольку компания не создавала отдельные ИИ-модели для обработки изображений и аудио, как сделала OpenAI, создав DALL-E и Whisper. С самого начала Google работала над созданием единой модели, способной распознавать изображения и звуки. На данный момент базовые версии Gemini поддерживают ввод и вывод текста, но более мощные версии алгоритма, такие как Gemini Ultra, могут работать с изображениями, видео и аудио. Конечно, эти модели всё ещё галлюцинируют, они не лишены предубеждений и других проблем, но со временем Google планирует улучшить их понимание окружающего мира.

Несмотря на проведённые разработчиками тесты, главную проверку Gemini проведут рядовые пользователи, которые захотят использовать алгоритм для поиска информации, создания контента, написания программного кода и многого другого. В плане генерации кода алгоритм Google использует новую систему AlphaCode 2, которая, по словам представителей компании, работает лучше по сравнению с 85 % аналогами конкурентов и на 50 % лучше по сравнению с оригинальным алгоритмом AlphaCode.

Не менее важно для Google и то, что Gemini, вероятно, является максимально эффективной моделью. Она обучалась с использованием тензорных процессоров Google, благодаря чему может работать быстрее и эффективнее, чем предыдущие алгоритмы компании, такие как PaLM. Наряду с новой языковой моделью Google представила ускорители TPU v5p, которые предназначены для использования в центрах обработки данных для обучения и запуска больших языковых моделей.

Презентация Gemini даёт понять, что Google рассматривает новый алгоритм как масштабный проект и одновременно большой шаг вперёд для всей компании. Gemini — это ИИ-модель, к которой Google шла годами, возможно, даже та, которую ей следовало выпустить до того, как мир захватил ChatGPT. Google приложили массу усилий, чтобы обеспечить безопасность и надёжность Gemini, проведя внутреннее и внешнее тестирование алгоритма, но и это, по словам руководителей компании, не гарантирует, что нейросеть будет работать безошибочно.

В течение многих лет Сундар Пичаи и другие руководители Google поэтически рассуждали о потенциале искусственного интеллекта. Сам Пичаи не раз говорил, что ИИ окажет на человечество более сильное влияние, чем огонь или электричество. Первое поколение модели Gemini, скорее всего, не изменит мир. В лучшем случае она поможет компании догнать ChatGPT, но руководство Google, уверено, что это начало чего-то большего.

Google добавила в Pixel 8 Pro локальную нейросеть Gemini Nano — в будущем она станет частью Android и будет доступна всем

Сегодня Google представила Gemini, «самую функциональную и гибкую модель искусственного интеллекта, которую компания когда-либо создавала». Gemini Nano — это работающая локально версия новой большой языковой модели Google, предназначенная для того, чтобы сделать устройство умнее и быстрее без необходимости подключения к интернету. С сегодняшнего дня она работает на Pixel 8 Pro, который также получил ряд других ИИ-функций.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

В зависимости от объёма используемых данных, существует три варианта Gemini — Ultra, Pro и Nano, каждый из которых оптимизирован для работы на соответствующих устройствах — от центров обработки данных до смартфонов. Pixel 8 Pro использует возможности чипа Google Tensor G3 для предоставления расширенных ИИ-функций, таких как создание выжимок из записей звука в приложении диктофона, интеллектуальные подсказки ответов в клавиатуре Gboard. В дальнейшем Google планирует использовать Bard на базе Gemini в качестве помощника на всех новых Pixel, и расширит функциональность ИИ-модели.

На данный момент процессор Google Tensor 3, похоже, единственный, который способен работать с этой моделью ИИ. Но Google также работает над тем, чтобы встроить Gemini Nano в Android в целом: компания запустила новый системный сервис под названием AICore, который разработчики могут использовать для внедрения функций Gemini в свои приложения. Последние пару лет Google говорила о своих телефонах Pixel как об устройствах с ИИ. Благодаря чипам Tensor и взаимодействию со всеми сервисами Google они со временем должны становиться лучше и умнее. С Gemini Nano это может в конечном итоге стать реальностью для многих высококлассных Android-устройств.

Помимо генеративных моделей ИИ, устройства Pixel используют и другие инструменты на основе ИИ. Эти новые функции и другие обновления для повышения производительности и настройки начнут распространяться сегодня на смартфонах, планшетах и умных часах Pixel.

Gemini Nano теперь поддерживает функцию Summarize («Подведение итогов») в приложении Recorder на Pixel 8 Pro. Пользователю даже без подключения к Сети будет доступна сводка записанных разговоров, интервью, презентаций и многого другого. Также приложение Recorder научилось расшифровывать данные на 28 новых языках.

Pixel 8 Pro при помощи Gemini Nano предложит функцию Smart Reply («Интеллектуальный ответ») в Gboard, пока только в предварительной версии для разработчиков. Модель ИИ, встроенная в устройство, пока работает только в WhatsApp, предлагая высококачественные ответы для диалога. В следующем году поддержка Smart Reply расширится.

Используя возможности Google Tensor G3, функция Video Boost на Pixel 8 Pro загружает видео для обработки в облако, где оптимизируется цвет, освещение, стабилизация и зернистость.

Функция Night Sight позволяет снимать на Pixel 8 и Pixel 8 Pro яркие и детализированные замедленные видеоролики при слабом освещении.

Функция Photo Unblur разработана специально для получения качественных изображений домашних питомцев.

Функция Pixel Clean поможет удалить пятна и складки с отсканированных документов.

Google Ассистент на телефонах Pixel Fold, Pixel 6 и новее теперь предлагает варианты контекстных ответов прямо на экране вызова. Экран вызовов теперь также доступен на Pixel Watch, это поможет игнорировать нежелательные вызовы.

В Pixel Watch появилась новая функция, которая упрощает разблокировку телефона. Теперь Pixel Watch может разблокировать телефон Pixel, если владелец находится поблизости. Функция Google AI Clear Calling поможет снизить фоновый шум и улучшить качество голоса во время видеозвонков на Pixel Tablet. А Repair Mode («Режим восстановления») обеспечит душевное спокойствие, помогая защитить и сохранить личные данные, когда устройство находится в сервисе.

Google отложила запуск своего ответа GPT-4 на январь — Gemini плохо справляется с неанглоязычными запросами

Google объявила о переносе запуска своей новейшей ИИ-системы Gemini на январь 2024 года. Изначально планировалось, что запуск ответа нейросети GPT-4 состоится на следующей неделе. Это решение связано с необходимостью доработки нейросети для лучшей работы с неанглоязычными запросами.

 Источник изображения: geralt / Pixabay

Источник изображения: geralt / Pixabay

На ежегодной конференции I/O 2023 корпорация Google анонсировала свою новейшую ИИ-модель Gemini, в работе над которой принимал участие соучредитель Google и холдинга Alphabet Сергей Брин (Sergey Brin). По информации издания The Information, компания планировала представить Gemini уже на следующей неделе в рамках мероприятий в Калифорнии, Нью-Йорке и Вашингтоне, ориентированных на политиков и законодателей. Однако теперь запуск нейросети отложен до января следующего года.

Решение о переносе запуска новаторской ИИ-системы принял генеральный директор Google, Сундар Пичаи (Sundar Pichai). Причиной стала недостаточно надёжная работа Gemini с запросами на языках, отличных от английского. Поддержка многоязычности является приоритетом для Google, так как она стремится достичь и даже превзойти уровень ИИ-модели GPT-4 компании OpenAI. По словам источников, в некоторых аспектах Google уже достигла этого стандарта. В ноябре Пичаи заявил, что Google сосредоточена на скорейшем выпуске Gemini 1.0, стремясь к созданию конкурентоспособного и передового продукта. Однако на текущий момент компания все ещё работает над финальной версией Gemini.

Ранее в рамках конференции I/O 2023 корпорация Google отметила, что Gemini будет обладать впечатляющими мультимодальными способностями, превосходящими возможности предыдущих ИИ-моделей. Кроме понимания текста и изображений, Gemini будет нацелена на эффективную интеграцию с API и другими инструментами, что сделает её привлекательной для разработчиков различных приложений. Google также сообщила о разработке нескольких вариантов Gemini, включая мобильную версию Gecko, и подчеркнула, что Gemini создана для поддержки будущих инноваций, включая функции памяти и планирования.

Вопрос о том, как быстро Gemini будет интегрирована в такие сервисы Google, как Bard, Поиск и Workspace, пока остаётся открытым.

window-new
Soft
Hard
Тренды 🔥
World of Goo 2 обойдёт стороной Steam — дата выхода и новый геймплей 5 ч.
«Группа Астра» выпустила решение для управления мобильными устройствами в корпоративной среде 5 ч.
«"Стражи галактики", но в шкуре Borderlands»: первый трейлер фильма «Бордерлендс» вызвал неоднозначную реакцию фанатов 7 ч.
Microsoft раскрыла, какие эксклюзивы Xbox и когда выйдут на PlayStation и Switch 8 ч.
Анонсирована Shin Megami Tensei V: Vengeance с новым контентом и повсеместными улучшениями — в том числе для Steam и на русском языке 9 ч.
Больше Dark Souls, чем Diablo: авторы Ori рассказали о боевой системе ролевого экшена No Rest for the Wicked в новом геймплейном видео 10 ч.
Геймплейный трейлер Elden Ring: Shadow of the Erdtree подтвердил дату выхода масштабного аддона — в российском Steam доступен предзаказ 10 ч.
Google представила Gemma — открытую версию ИИ-модели Gemini 11 ч.
Meta и Microsoft попросили ЕС отклонить новую политику Apple App Store — она «обременительная» 11 ч.
Кондуктор всегда прав: анонсирована Beholder: Conductor про смотрителя поезда, который станет вершителем судеб пассажиров и коллег 12 ч.
В прошлом году выручка NVIDIA выросла на 126 % до $60,9 млрд 16 мин.
ИИ для защиты 5G: Nokia представила ассистента Telco GenAI, который поможет быстро выявить и нейтрализовать атаки на сети связи 4 ч.
Новая статья: Обзор трёх кулеров ID-Cooling новой серии Frozn: A410, A610 и A620 Black 5 ч.
Microsoft заказала у Intel Foundry производство процессоров по техпроцессу Intel 18A 5 ч.
С помощью Honor Magic6 Pro показали, как можно удалённо управлять автомобилем одним лишь взглядом 6 ч.
Intel анонсировала техпроцесс Intel 14A — его запустят в 2027 году с использованием литографии High-NA EUV 7 ч.
Китайские учёные создали оптический диск объёмом 200 Тбайт 8 ч.
Итальянские военные захотели создать группировку спутников-суперкомпьютеров 8 ч.
Sony выпустила беспроводную гарнитуру Pulse Elite за $150 для PS5, ПК и Mac 9 ч.
Зонд New Horizons обнаружил, что пояс Койпера простирается значительно дальше, чем считалось ранее 10 ч.