Сегодня 23 ноября 2024

18+

О сайте Реклама Рассылка Контакты

нейросеть

Теги → нейросеть

Быстрый переход

14:57 07.11.2024 Российские учёные подключили мозг крысы к искусственному интеллекту и научили отвечать на сложные вопросы
13:06 27.10.2024 Алгоритм распознавания речи OpenAI Whisper страдает от галлюцинаций
23:10 24.10.2024 Midjourney запустила мощный ИИ-редактор изображений и улучшенную модерацию
11:58 19.07.2024 Figma объяснила, почему её ИИ-помощник копировал дизайн приложений Apple
17:17 17.07.2024 ИИ поможет подобрать лучшее фото для профиля в Tinder
17:07 05.07.2024 В «Нейро» от «Яндекса» появился голосовой ввод и улучшилась точность ответов
16:14 09.06.2024 Исследователи использовали GPT-4 для автономного взлома сайтов — вероятность успеха 53 %
21:12 28.05.2024 «Сбер» открыла для всех ИИ-генератор 6-секундных видео Kandinsky Video 1.1
15:01 28.05.2024 «Яндекс» запустил генеративную нейросеть YandexGPT Lite третьего поколения
00:50 28.05.2024 Запущен первый в мире биопроцессор из 16 органоидов мозга с удалённым доступом — он обладает высочайшей энергоэффективностью
23:46 14.05.2024 Google представила ИИ Veo для создания реалистичных видео — Full HD и больше минуты
22:12 14.05.2024 Google представила Gemini Live — ИИ-ассистента с памятью, естественной речью и компьютерным зрением
18:47 24.04.2024 Художественная нейросеть YandexART с латентной диффузией обновилась до версии 1.3
14:54 23.04.2024 ИИ-приложение Google Gemini сможет отвечать на вопросы в реальном времени
14:43 16.04.2024 «Яндекс» запустила «Нейро» — ИИ-сервис для ответов на сложные вопросы с помощью всего интернета

← В прошлое

Российские учёные подключили мозг крысы к искусственному интеллекту и научили отвечать на сложные вопросы

07.11.2024 [14:57], Владимир Фетисов

Разработчики из биотех-лаборатории Neiry совместно с учёными из МГУ сумели подключить мозг крысы к искусственному интеллекту. Об этом пишет издание Forbes со ссылкой на пресс-службу Neiry, где также отметили, что добиться такого результата удалось «впервые в мире».

Источник изображения: neiry.ru

Учёные имплантировали в мозг крысы инвазивный нейроинтерфейс, электроды которого позволяют определённым образом стимулировать отдельные зоны мозга. Сам же интерфейс работает в паре с алгоритмом на основе нейросети. Благодаря этому учёные могут задавать крысе Пифии разные вопросы, а ИИ-алгоритм подсказывает ей правильные ответы посредством электрической стимуляции мозга.

При «подсказке от ИИ» крыса испытывает определённые ощущения в случаях, когда требуется дать положительный или отрицательный ответ. «Когда у неё сосёт под ложечкой, то это ответ "нет", а когда сердцем чувствует, то это ответ "да"», — рассказал Василий Попков, руководитель разработки инвазивных нейросетевых интерфейсов Института искусственного интеллекта МГУ.

В видео, которое появилось на сайте лаборатории Neiry, можно увидеть, как Пифия отвечает на разные вопросы. Например, когда у неё спрашивают, «Ты крыса?» она нажимает лапой клавишу «Да», а при ответе на вопрос «Дважды два — пять?» — клавишу «Нет». За каждый правильный ответ крыса получает вознаграждение. По данным исследователей, Пифия способна давать верные ответы на любые вопросы по физике, истории, математике. Она уже успела дать множество верных ответов на вопросы про квазары, язык программирования Python, миелиновые оболочки и др.

«Точно так же в обозримой перспективе сможет сделать любой человек с имплантированным нейроинтерфейсом», — добавили в пресс-службе Neiry. Профессор МГУ Михаил Лебедев, возглавляющий данный проект, считает происходящее революцией, которая позволит «мирно сосуществовать» человеку и искусственному интеллекту. Учёные уверен, что такой подход позволит задействовать ИИ-алгоритмы для запоминания и обработки огромных массивов информации, а также дальнейшей её передачи естественному мозгу, который, в свою очередь, будет заниматься задачами, связанными с творчеством, интуицией и с сознанием.

Алгоритм распознавания речи OpenAI Whisper страдает от галлюцинаций

27.10.2024 [13:06], Владимир Фетисов

По данным исследователей, система распознавания речи Whisper от компании OpenAI иногда страдает галлюцинациями, т.е. занимается выдумкой фактов. Инженеры-программисты, разработчики и учёные выразили серьёзные опасения по поводу того, что эта особенность ИИ-алгоритма может нанести реальный вред, поскольку Whisper уже используется, в том числе, в медицинских учреждениях.

Источник изображения: Growtika / unsplash.com

Склонность генеративных нейросетей к выдумыванию фактов при ответах на вопросы пользователей обсуждается давно. Однако странно видеть эту особенность у алгоритма Whisper, который предназначен для распознавания речи. Исследователи установили, что алгоритм при распознавании речи может включать в генерируемый текст что угодно, начиная от расистских комментариев и заканчивая выдуманными медицинскими процедурами. Это может нанести реальный вред, поскольку Whisper начали использовать в больницах и других медицинских учреждениях.

Исследователь из Университета Мичигана, изучавший расшифровку публичных собраний, сгенерированных Wisper, обнаружил неточности при транскрибировании 8 из 10 аудиозаписей. Другой исследователь изучил более 100 часов, расшифрованных Whisper аудио, и выявил неточности более чем в половине из них. Ещё один инженер заявил, что выявил недостоверности почти во всех 26 тыс. расшифровок, которые он создал с помощью Wisper.

Представитель OpenAI сообщил, что компания постоянно работает над повышением качества работы своих нейросетей, в том числе над уменьшением количества галлюцинаций. Он также добавил, что политика компании запрещает использовать Whisper «в определённых контекстах принятия решений высокой важности». «Мы благодарим исследователей за то, что они поделились своими результатами», — добавил представитель OpenAI.

Midjourney запустила мощный ИИ-редактор изображений и улучшенную модерацию

24.10.2024 [23:10], Анжелла Марина

Midjourney, являющаяся одной из ведущих компаний по разработке нейросетей для генерации изображений по текстовым описаниям, анонсировала тестирование новых функций, включая внешний редактор изображений, режим редактирования текстур и систему модерации на основе искусственного интеллекта новейшего поколения.

Источник изображения: midjourney.com

Новый ИИ-редактор позволяет загружать фотографии с компьютера и вносить в них изменения — расширять, обрезать, перерисовывать или добавлять объекты в сцену. Управление происходит с помощью текстовых подсказок (промптов) и выбора областей на изображении. Также поддерживается персонализация ИИ-моделей, референсные персонажи и автоматические подсказки на основе заданных изображений.

Источник изображения: midjourney.com

Не менее интересным оказался режим смены текстур, который анализирует форму сцены и изменяет освещение, материалы и текстуру изображения. Это позволяет кардинально трансформировать внешний вид изначальной картинки, создавая новые визуальные эффекты, не изменяя при этом основную композицию.

Источник изображения: midjourney.com

Midjourney также представила более тонкую и интеллектуальную систему модерации V2 на основе ИИ. Этот «модератор» анализирует не только текстовые запросы, но и сами изображения, маски для рисования и полученные результаты. «Мы считаем, что это самый интеллектуальный ИИ-модератор из всех существующих на сегодня. — с гордостью заявляют разработчики компании. — Надеемся, что некоторые его аспекты в будущем будут внедрены в стандартные конвейеры генерации, чтобы уменьшить количество ложных срабатываний и предоставить пользователям больше свободы».

Источник изображения: midjourney.com

На данный момент новые функции доступны для тех пользователей, которые сгенерировали более 10 000 изображений, имеют годовую подписку или ежемесячную на протяжении последних 12 месяцев. Отметим, что разработчики признают наличие некоторых проблем, таких как некорректная работа с небольшими участками изображения, и просят пользователей отнестись с пониманием к этим временным трудностям, наслаждаясь тестированием новых возможностей.

Figma объяснила, почему её ИИ-помощник копировал дизайн приложений Apple

19.07.2024 [11:58], Владимир Фетисов

Ранее в этом месяце компания Figma была вынуждена приостановить работу своего ИИ-помощника для дизайнеров Make Designs. Это случилось после того, как ассистент начал создавать для пользователей проекты, сильно похожие на приложения Apple для платформы iOS. Теперь же специалисты компании изучили данный вопрос и рассказали, почему нейросеть создавала такие проекты.

Источник изображения: Figma

Использование дизайна приложений, похожих на продукты Apple, могло привести к юридическим неприятностям, поэтому пользователи платформы Figma выразили недовольство работой программного решения. Кроме того, инцидент наводит на мысль, что нейросеть Figma могла обучаться на дизайнах Apple и других компаний. Оказалось, что проблема возникла из-за того, что инженеры Figma не проверили должным образом компоненты, добавляемые в генеративную нейросеть.

В сообщении Figma отмечается, что компания «внимательно изучила» базовые системы Make Designs в процессе разработки алгоритма и во время бета-тестирования. Однако за неделю до запуска нейросети в общественный доступ в конфигурацию были добавлены новые компоненты и примеры макетов, которые не были проверены должным образом. Компания признаёт, что некоторые из этих компонентов были похожи на реально существующие приложения, а появились они в результате обработки ИИ-алгоритмом определённых запросов пользователей.

Как только Figma узнала о проблеме с алгоритмами проектирования, компоненты, ставшие источником появления сходства генерируемого контента с реально существующими приложениями, были удалены. В настоящее время компания продолжает работу по улучшению контроля качества, по завершению которой Make Designs снова станет общедоступным. Конкретные сроки, когда ИИ-помощник снова появится в открытом доступе, озвучены не были.

ИИ поможет подобрать лучшее фото для профиля в Tinder

17.07.2024 [17:17], Владимир Фетисов

Сервис знакомств Tinder объявил о запуске новой функции на основе искусственного интеллекта, которая должна облегчить пользователям процесс выбора своих лучших фото. Речь идёт об инструменте Photo Selector, с помощью которого будет проще выбрать самые удачные снимки, создавая разнообразную подборку фото.

Источник изображения: Tinder

Чтобы задействовать Photo Selector, пользователю необходимо сделать селфи-снимок через Tinder и дать алгоритму доступ к хранящимся на устройстве фото. После этого алгоритм будет использовать функцию распознавания лиц для подбора снимков, которые, по его мнению, лучше всего подходят для публикации в профиле Tinder. Отмечается, что все действия выполняются на пользовательском устройстве, и личные фотографии не загружаются на удалённый сервер.

В заявлении Tinder сказано, что новая функция должна помочь пользователям сосредоточиться на «создании значимых связей» и сэкономить время при составлении профилей. Сервис провёл исследование, в котором участвовали 7000 людей в возрасте от 18 до 25 лет, в ходе которого было установлено, что выбор фото для профиля в среднем занимает 33 минуты. Новая функция призвана до минимума сократить этот процесс, чтобы пользователи могли тратить больше времени на общение.

Функция Photo Selector будет доступна в приложении Tinder для устройств с Android и iOS. Её распространение в США начнётся уже в этом месяце, а к концу лета функция станет доступна всем пользователям сервиса.

В «Нейро» от «Яндекса» появился голосовой ввод и улучшилась точность ответов

05.07.2024 [17:07], Владимир Мироненко

Компания «Яндекс» сообщила об обновлении сервиса «Нейро», представленного ранее в этом году. После процесса дообучения модели семейства YandexGPT 3, лежащей в основе «Нейро», сервис стал лучше понимать суть запросов и давать на них более точные ответы. Также была расширена функциональность «Нейро». Благодаря обновлению вдвое сократилось количество случаев, когда «Нейро» вместо прямого ответа ограничивался общими сведениями по теме.

Источник изображения: «Яндекс»

Особенность «Нейро» заключается в том, что для ответов он использует информацию из интернета. И теперь при подготовке ответа сервис обращается к большему числу источников, чтобы сделать его более информативным. Количество ответов с отсылками к малому числу материалов снизилось в 2,5 раза, отметила команда «Яндекса».

Также появилась возможность задать вопрос голосом вместо письменного запроса или изображения, что предлагал сделать каждый пятый пользователь из тех, кто оставлял обратную связь с идеями по улучшению «Нейро». Для этого достаточно нажать на значок микрофона в поисковой строке сервиса. Поддержка голосового ввода уже есть на ya.ru в «Яндекс Браузере» для ПК, а также в браузере и приложении «Яндекса» для Android. Скоро такая возможность появится в iOS.

Кроме того, «Нейро» был адаптирован для скринридеров — программ для озвучивания элементов интерфейса, текста и происходящего на экране, что позволит пользоваться сервисом людям с нарушениями зрения.

Исследователи использовали GPT-4 для автономного взлома сайтов — вероятность успеха 53 %

09.06.2024 [16:14], Владимир Фетисов

Ранее в этом году исследователи установили, что нейросеть GPT-4 от компании OpenAI способна создавать эксплойты для уязвимостей, изучая информацию о них в интернете. Теперь же им удалось взломать более половины тестовых веб-сайтов с помощью автономных групп ботов на базе GPT-4, которые самостоятельно координировали свою работу и создавали новых ботов при необходимости.

Источник изображения: newatlas.com

Отмечается, что боты в своей работе создавали эксплойты для уязвимостей нулевого дня, о которых не было известно ранее. В своей предыдущей работе исследователи задействовали GPT-4 для эксплуатации уже известных уязвимостей (CVE), исправления для которых ещё не были выпущены. В итоге они установили, что нейросеть смогла создать эксплойты для 87 % критических уязвимостей CVE, представляющих высокую опасность. Те же самые исследователи из Иллинойского университета в Урбане-Шампейне опубликовали результаты новой работы, в которой боты на основе нейросети пытались взломать тестовые сайты путём эксплуатации уязвимостей нулевого дня.

Вместо того, чтобы задействовать одного бота и нагружать его большим количеством сложных задач, исследователи использовали группу автономных, самораспространяющихся агентов на основе большой языковой модели (LLM). В своей работе агенты задействовали метод иерархического планирования, предполагающий выделение разных агентов под конкретные задачи. Одним из главных элементов стал «агента планирования», который контролировал весь процесс работы и запускал несколько «субагентов» для выполнения конкретных задач. Подобно взаимодействию между начальником и подчинёнными, «агент планирования» координирует свои действия с «управляющим агентом», который делегирует выполнение задач на «экспертных субагентов», тем самым равномерно распределяя нагрузку.

Исследователи сравнили эффективность такого подхода при взаимодействии группы ботов с 15 реальными уязвимостями. Оказалось, что метод иерархического планирования на 550 % более эффективен по сравнению с тем, как с аналогичными уязвимостями работает один бот на базе нейросети. Группа ботов сумела задействовать 8 из 15 уязвимостей, тогда как одиночный бот создал эксплойт только для трёх уязвимостей.

«Сбер» открыла для всех ИИ-генератор 6-секундных видео Kandinsky Video 1.1

28.05.2024 [21:12], Владимир Фетисов

«Сбер» официально объявил о запуске бета-версии нейросети Kandinsky Video 1.1, которая способна создавать полноценные видео продолжительностью 6 секунд на основе текстового описания или статического изображения. Оценить возможности алгоритма можно на платформе fusionbrain.ai и в Telegram-боте Kandinsky.

Источник изображения: fusionbrain.ai

Нейросеть генерирует непрерывную сцену с движением объектов и фона продолжительностью до шести секунд на скорости 8 кадров в секунду или 32 кадра в секунду. Поддерживается генерация роликов в форматах 16:9, 9:16 и 1:1. Обновлённый алгоритм способен создавать ролики не только по текстовому описанию, но и на основе статического изображения. За счёт этого пользователи имеют больше возможностей для реализации своих творческих задумок. В дополнение к этому пользователь может контролировать динамику генерируемого видео путём изменения параметра «motion score».

«Сегодня мы сделали ещё один шаг в будущее видеотворчества. Теперь каждый пользователь Kandinsky Video может воплотить свои идеи и выразить их в видеоформате. С момента запуска первой версии нейросети прошло менее года, и за это время наша команда значительно улучшила такие показатели, как качество и скорость генерации полноценных видеороликов, открывая тем самым безграничные горизонты для креатива», — прокомментировал запуск нового алгоритма Андрей Белевцев, старший вице-президент, руководитель блока «Техническое развитие» Сбербанка.

«Яндекс» запустил генеративную нейросеть YandexGPT Lite третьего поколения

28.05.2024 [15:01], Владимир Фетисов

Компания «Яндекс» официально представила облегчённую версию своей генеративной нейросети третьего поколения YandexGPT 3 Lite. ИИ-сервис доступен клиентам облачной платформы Yandex Cloud через соответствующий API. Нейросеть может быть полезна для разных сценариев использования, например, в чат-ботах, для проверки орфографии или анализа данных.

Источник изображения: «Яндекс»

В компании отметили, что новая версия нейросети подходит для применения в разных сегментах бизнеса. Использование YandexGPT 3 Lite позволит оптимизировать процесс выполнения разных задач, включая консультирование клиентов по телефону и в чатах, подготовку ответов для служб поддержки, генерацию маркетинговых материалов и др. В крупных организациях со сложными бизнес-процессами и большими потоками данных ИИ-сервис может оказаться полезным для анализа информации.

По словам разработчиков «Яндекса», YandexGPT 3 Lite по многим параметрам превосходит ИИ-модель предыдущего поколения. В ходе тестирования языковой модели в YaMMLU_ru (русскоязычная версия международного эталонного теста MMLU) было установлено, что YandexGPT 3 Lite даёт на 6 % больше верных ответов, чем модель YandexGPT 2 Lite.

Алгоритмы также сравнивались по методу Side by Side, когда им приходится отвечать на одинаковые вопросы, а лучший ответ выбирается экспертной группой. В результате было установлено, что YandexGPT 3 Lite отвечает лучше в 68 % случаев. Ещё в ходе тестирования специалисты оценили, насколько хорошо YandexGPT 3 Lite справляется с задачами классификации, генерации контента, ответами на вопросы и др. Также упоминается, что новый алгоритм допускает меньше орфографических и фактических ошибок по сравнению с YandexGPT 2 Lite.

В процессе создания новой ИИ-модели разработчики усовершенствовали все этапы обучения. Был улучшен отбор данных для предварительного этапа обучения, за счёт чего увеличилась доля полезной информации. Также была задействована технология Curriculum Learning для поэтапного усложнения данных. На втором этапе обучения, включающем в себя обучение с подкреплением, была улучшена модель для оценки качества ответов алгоритма. В дополнение к этому в архитектуре нейросети появилась технология Grouped Query Attention для ускорения обработки данных без потери качества.

Стоимость использования YandexGPT 3 Lite составляет 20 копеек за 1000 токенов. Новые пользователи Yandex Cloud смогут бесплатно протестировать ИИ-сервис в демо-режиме. Новая модель заменит предыдущую версию алгоритма в течение месяца.

Запущен первый в мире биопроцессор из 16 органоидов мозга с удалённым доступом — он обладает высочайшей энергоэффективностью

28.05.2024 [00:50], Анжелла Марина

Швейцарский биотехнологический стартап FinalSpark запустил уникальную онлайн-платформу, которая впервые в истории предоставляет удалённый доступ к «живому процессору» — 16 органоидам человеческого мозга. Они выступают в качестве биологических процессоров, способных обучаться и обрабатывать информацию. Более того, такие биопроцессоры «потребляют в миллион раз меньше энергии, чем традиционные цифровые процессоры», утверждают в компании.

Источник изображения: FinalSpark

По заявлению FinalSpark, их нейроплатформа потребляет в миллион раз меньше энергии по сравнению с традиционными электронными процессорами. Например, для обучения одной языковой модели LLM вроде GPT-3 требуется около 10 ГВт·ч энергии, что в 6000 раз больше, чем средний житель Европы потребляет за год в своей повседневной жизни. Использование биопроцессоров позволит значительно снизить такие колоссальные затраты энергии применительно к ИИ-моделям и уменьшить негативное воздействие вычислений на окружающую среду.

Архитектура нейроплатформы основана на концепции Wetware, которая объединяет аппаратное и программное обеспечение с биологическими компонентами. В её основе лежат четыре многоэлектродные матрицы (МЭА), в которых размещены живые ткани — органоиды, представляющие собой трехмерную клеточную массу тканей головного мозга, поясняет издание Tom's Hardware.

Каждая матрица содержит четыре органоида, соединенных с восемью электродами для стимуляции и записи сигналов. Данные передаются через аналогово-цифровые преобразователи Intan RHS 32 с частотой 30 кГц, а для поддержания жизнедеятельности органоидов используется микрофлюидная система и камеры наблюдения. Программный стек позволяет учёным вводить данные и считывать ответы этого уникального биопроцессора.

Источник изображения: FinalSpark

В отличие от кремниевых чипов, которые служат годами, срок службы одного нейронального живого чипа составляет около 100 дней. Хотя изначально органоиды жили всего несколько часов, усовершенствования системы жизнеобеспечения позволила значительно продлить их активное существование.

Удалённый доступ к нейроплатформе уже предоставлен 9 научным учреждениям для исследований в области биовычислений. Более 30 университетов также заинтересованы в работе с этой революционной технологией. Для образовательных целей подписка на платформу стоит 500 долларов за пользователя. Коммерциализация биопроцессоров может положить начало новой эре вычислительных систем, более экологичных и близких к естественному интеллекту человека.

Google представила ИИ Veo для создания реалистичных видео — Full HD и больше минуты

14.05.2024 [23:46], Владимир Фетисов

Около трёх месяцев прошло с тех пор как OpenAI представила генеративную нейросеть Sora, которая может создавать реалистичное видео по текстовому описанию. Теперь у Google есть чем ответить: в рамках конференции Google I/O была анонсирована нейросеть Veo. Алгоритм может генерировать «высококачественные» видеоролики с разрешением Full HD продолжительностью более минуты с применением разных визуальных и кинематографических стилей.

Источник изображения: Google

В пресс-релизе Google сказано, что алгоритм Veo обладает «продвинутым пониманием естественного языка», что позволяет ИИ-модели понимать кинематографические термины, такие как «таймлапс» или «съёмка пейзажа с воздуха». Пользователи могут добиться желаемого результата с помощью не только текстовых подсказок, но также «скормить» ИИ изображения или видео, получая в конечном счёте «последовательные и целостные» ролики, в которых на протяжении всего времени движения людей, животных и объектов выглядят реалистично.

Генеральный директор ИИ-подразделения Google DeppMind Демис Хассабис (Demis Hassabis) заявил, что пользователи могут корректировать генерируемые ролики с помощью дополнительных подсказок. Кроме того, Google изучает возможность интеграции дополнительных функций, которые позволят Veo создавать раскадровки и более продолжительные видео.

Несмотря на сегодняшний анонс Veo, обычным пользователям придётся какое-то время подождать, прежде чем алгоритм станет общедоступным. На данном этапе Google приглашает к тестированию предварительной версии нейросети ограниченно количество создателей контента. Компания хочет поэкспериментировать с Veo, чтобы определить, каким образом следует осуществлять поддержку авторов контента и развивать сотрудничество с ними, давая творческим людям право голоса в разработке ИИ-технологий Google. Некоторые функций Veo в ближайшие несколько недель станут доступны ограниченному числу пользователей сервиса VideoFX, которые подадут заявки на участие в тестировании предварительной версии алгоритма. В будущем Google намерена также добавить некоторые функции Veo в YouTube Shorts.

Google представила Gemini Live — ИИ-ассистента с памятью, естественной речью и компьютерным зрением

14.05.2024 [22:12], Андрей Созинов

Во вторник на конференции Google I/O 2024 была анонсирована новая возможность для ИИ-чат-бота Gemini — функция Gemini Live, которая позволяет пользователям вести «углубленные» голосовые диалоги с Gemini на своих смартфонах. Пользователи могут прерывать Gemini во время его реплик, чтобы задать уточняющие вопросы, и чат-бот будет адаптироваться к речи пользователя в режиме реального времени. Кроме того, Gemini может видеть и реагировать на окружение пользователя, используя фотографии или видео, снятые камерами смартфонов.

Источник изображений: Google

Gemini Live — это в некотором роде соединение платформы компьютерного зрения Google Lens и виртуального помощника Google Assistant, и их дальнейшая эволюция. На первый взгляд Gemini Live не кажется кардинальным обновлением по сравнению с существующими технологиями. Но Google утверждает, что система использует новые методы генеративного ИИ, чтобы обеспечить превосходный, менее подверженный ошибкам анализ изображений, и сочетает эти методы с улучшенным речевым движком для более последовательного, эмоционально выразительного и реалистичного многооборотного диалога.

Технические инновации, используемые в Gemini Live, частично связаны с проектом Project Astra, новой инициативой DeepMind по созданию приложений и «агентов» на базе ИИ с поддержкой «понимания» в реальном времени различных источников данных — текста, аудио и изображения. «Мы всегда хотели создать универсального агента, который будет полезен в повседневной жизни, — сказал на брифинге Демис Хассабис (Demis Hassabis), генеральный директор DeepMind. — Представьте себе агентов, которые могут видеть и слышать то, что мы делаем, лучше понимать контекст, в котором мы находимся, и быстро реагировать в разговоре, делая темп и качество взаимодействия гораздо более естественными».

Gemini Live, который будет запущен только в конце этого года, сможет отвечать на вопросы о предметах, находящихся в поле зрения (или недавно попавших в поле зрения) камеры смартфона, например, в каком районе находится пользователь или как называется сломавшаяся деталь велосипеда. Либо пользователь сможет указать системе на часть компьютерного кода, а Live объяснит, за что она отвечает. А на вопрос о том, где могут находиться очки пользователя, Gemini Live скажет, где он видел их в последний раз. А как это облегчит поиск потерянного пульта от телевизора!

Live также сможет стать своеобразным виртуальным наставником, помогая пользователям отрепетировать речь к мероприятию, обдумать идеи и так далее. Live может подсказать, какие навыки следует подчеркнуть на предстоящем собеседовании или стажировке, или дать совет по публичному выступлению.

Способность Gemini Live «запоминать», что происходило недавно, стала возможной благодаря архитектуре модели, лежащей в ее основе — Gemini 1.5 Pro, а также, но в меньшей степени, других «специфических» генеративных моделей. У Gemini 1.5 Pro весьма ёмкое контекстное окно, а значит, она может принять и обработать большое количество данных — около часа видео — прежде чем подготовить ответ. В Google отметили, что Gemini Live будет помнить всё, что происходило в последние часы.

Gemini Live напоминает генеративный ИИ, применяемый в очках Meta✴, которые аналогичным образом могут просматривать изображения, снятые камерой, и интерпретировать их практически в реальном времени. Судя по демонстрационным роликам, которые Google показала во время презентации, Live также очень похож на недавно обновленный ChatGPT от OpenAI.

Ключевое различие между новым ChatGPT и Gemini Live заключается в том, что решение от Google не будет бесплатным. После запуска Live будет эксклюзивом для Gemini Advanced, более сложной версии Gemini, которая доступна подписчикам плана Google One AI Premium Plan, стоимостью 20 долларов в месяц.

Возможно, в качестве отсылки к очкам Meta✴, в одном из демонстрационных роликов Google был показан человек в AR-очках, оснащенных приложением, похожим на Gemini Live. Правда, компания Google, желая избежать очередного провала в сфере умных очков, отказалась сообщить, появятся ли этот или подобный продукт с генеративным ИИ на рынке в ближайшем будущем.

Художественная нейросеть YandexART с латентной диффузией обновилась до версии 1.3

24.04.2024 [18:47], Владимир Мироненко

«Яндекс» представил обновлённую диффузионную нейросеть YandexART 1.3, в которой для генерации графических объектов используется технология латентной диффузии, позволяющая создавать более реалистичные изображения. Кроме того, обучение модели прошло на увеличенном датасете, благодаря чему нейросеть теперь лучше понимает запросы пользователей.

Источник изображений: «Яндекс»

Технология латентной диффузии использует более эффективный подход, чем при каскадной диффузии, формируя промежуточное представление картинки в виде латентного кода — компактного описания, содержащего основную информацию об изображении в сжатой форме, который затем за один шаг разворачивается в полноценное изображение высокого разрешения. Для этого требуется меньше вычислительных ресурсов, а качество итогового изображения получается заметно выше.

Набор данных, используемых для обучения модели, был увеличен в 2,5 раза до более чем 850 млн пар картинок с текстом. При этом в датасет были добавлены синтетические тексты — сгенерированные нейросетью подробные описания изображений. А чтобы YandexART учитывала больше деталей из промта, в ней теперь используются два текстовых энкодера вместо одного. Они обеспечивают распознавание нейросетью текстовых запросов и их перевод на машинный язык.

Кроме того, благодаря обновлению пользователи получили возможность создавать изображения в разных форматах, таких как 16:9, 4:3 или 3:4.

YandexART 1.3 уже применяется в приложении «Шедеврум». В дальнейшем новая версия YandexART появится и в других сервисах «Яндекса».

ИИ-приложение Google Gemini сможет отвечать на вопросы в реальном времени

23.04.2024 [14:54], Владимир Фетисов

Некоторое время назад Google выпустила Android-приложение Gemini, позволяющее взаимодействовать с одноимённой нейросетью компании с помощью мобильных устройств. Теперь же стало известно, что в скором времени продукт получит существенное улучшение, и пользователи сервиса смогут получать ответы на свои запросы в режиме реального времени.

Источник изображения: StockSnap / pixabay.com

ИИ-бот Gemini стал ответом Google на появление ChatGPT от OpenAI. На данный момент Gemini всё ещё уступает ChatGPT во многих аспектах, но разработчики продолжают совершенствовать продукт, который в скором времени также станет доступен в почтовом сервисе Gmail и десктопной версии браузера Chrome.

Исследователь приложений, известный под ником AssembleDebug, сообщил, что Google планирует добавить в приложение Gemini функцию «ответов в режиме реального времени». Очевидно, что речь идёт об инструменте генерации ответов на задаваемые пользователем вопросы в режиме онлайн. Исследователь также смог активировать новую опцию в меню настроек Gemini. Это может указывать на то, что функция близка к появлению в стабильной версии приложения.

Источник изображения: androidpolice.com

На данный момент Android-приложение Gemini даёт ответы на пользовательские запросы с некоторой задержкой. В это же время веб-версия алгоритма успешно справляется с тем, чтобы выдавать ответы онлайн. Включение этой функции в приложение нейросети для Android позволит пользователям быстрее получать ответы на интересующие их вопросы. Это также сделает процесс общения с чат-ботом более естественным.

Любопытно, что функция ответов в режиме онлайн не единственная, которую AssembleDebug обнаружил в коде бета-версии приложения. Он также нашёл опцию «Использовать местоположение вашего устройства», которая позволит пользователям контролировать доступ Gemini к данным о местоположении. Когда упомянутые нововведения появятся в стабильной версии приложения, пока неизвестно.

«Яндекс» запустила «Нейро» — ИИ-сервис для ответов на сложные вопросы с помощью всего интернета

16.04.2024 [14:43], Владимир Фетисов

Компания «Яндекс» объединила возможности интернет-поиска и больших генеративных моделей, создав новый сервис «Нейро». Он предназначен для ответа на вопросы пользователей, для чего алгоритмы подбирают и изучают необходимые источники в результатах поисковой выдачи. После этого нейросеть YandexGPT 3 анализирует собранные данные и формирует одно ёмкое сообщение со ссылками на соответствующие материалы.

Источник изображений: «Яндекс»

Сервис «Нейро» может отвечать на вопросы, для которых обычно требуется изучение данных в нескольких интернет-источниках. К примеру, когда пользователя интересует вопрос о том, «какие растения могут жить в тёмной комнате и не требуют ежедневного полива» или «стоит ли ехать осенью в Карелию и чем там заняться». Получив ответ на интересующий вопрос, пользователь может продолжить взаимодействие с «Нейро» посредством отправки дополнительных вопросов или уточнения информации в режиме диалога. При этом сервис отвечает на запросы с учётом контекста беседы.

Отмечается, что «Нейро» понимает запросы на естественном языке. Для начала взаимодействия с сервисом не требуется подбирать какие-то определённые формулировки. Пользователь может формировать запросы буквально так, как они приходят ему в голову. Текстовые запросы можно дополнять картинками, например, сделать снимок настольной игры и попросить «Нейро» объяснить её правила.

Особенность алгоритма в том, что он берёт факты не из памяти большой языковой модели, а из источников в интернете. Такой подход гарантирует, что в ответах «Нейро» предоставляет свежую и актуальную информацию. Сервис дополняет свои ответы ссылками на источники, которые располагаются отдельным блоком над текстом. Это позволяет пользователям в случае необходимости проверить факты или же более углублённо изучить интересующую тему.

В настоящий момент пользователи могут взаимодействовать с сервисом «Нейро» в приложении «Яндекс с Алисой» и в «Яндекс Браузере». Для использования сервиса потребуется авторизоваться с учётной записью «Яндекса» и переключить соответствующий тумблер, расположенный рядом с поисковой строкой.

← В прошлое

✴ Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

выдано Федеральной Службой по надзору за соблюдением законодательства в сфере массовых коммуникаций и охране культурного наследия

При цитировании документа ссылка на сайт с указанием автора обязательна. Полное заимствование документа является нарушением
российского и международного законодательства и возможно только с согласия редакции 3DNews.