Сегодня 24 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → нейросеть
Быстрый переход

ИИ-приложение Google Gemini сможет отвечать на вопросы в реальном времени

Некоторое время назад Google выпустила Android-приложение Gemini, позволяющее взаимодействовать с одноимённой нейросетью компании с помощью мобильных устройств. Теперь же стало известно, что в скором времени продукт получит существенное улучшение, и пользователи сервиса смогут получать ответы на свои запросы в режиме реального времени.

 Источник изображения: StockSnap / pixabay.com

Источник изображения: StockSnap / pixabay.com

ИИ-бот Gemini стал ответом Google на появление ChatGPT от OpenAI. На данный момент Gemini всё ещё уступает ChatGPT во многих аспектах, но разработчики продолжают совершенствовать продукт, который в скором времени также станет доступен в почтовом сервисе Gmail и десктопной версии браузера Chrome.

Исследователь приложений, известный под ником AssembleDebug, сообщил, что Google планирует добавить в приложение Gemini функцию «ответов в режиме реального времени». Очевидно, что речь идёт об инструменте генерации ответов на задаваемые пользователем вопросы в режиме онлайн. Исследователь также смог активировать новую опцию в меню настроек Gemini. Это может указывать на то, что функция близка к появлению в стабильной версии приложения.

 Источник изображения: androidpolice.com

Источник изображения: androidpolice.com

На данный момент Android-приложение Gemini даёт ответы на пользовательские запросы с некоторой задержкой. В это же время веб-версия алгоритма успешно справляется с тем, чтобы выдавать ответы онлайн. Включение этой функции в приложение нейросети для Android позволит пользователям быстрее получать ответы на интересующие их вопросы. Это также сделает процесс общения с чат-ботом более естественным.

Любопытно, что функция ответов в режиме онлайн не единственная, которую AssembleDebug обнаружил в коде бета-версии приложения. Он также нашёл опцию «Использовать местоположение вашего устройства», которая позволит пользователям контролировать доступ Gemini к данным о местоположении. Когда упомянутые нововведения появятся в стабильной версии приложения, пока неизвестно.

«Яндекс» запустила «Нейро» — ИИ-сервис для ответов на сложные вопросы с помощью всего интернета

Компания «Яндекс» объединила возможности интернет-поиска и больших генеративных моделей, создав новый сервис «Нейро». Он предназначен для ответа на вопросы пользователей, для чего алгоритмы подбирают и изучают необходимые источники в результатах поисковой выдачи. После этого нейросеть YandexGPT 3 анализирует собранные данные и формирует одно ёмкое сообщение со ссылками на соответствующие материалы.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

Сервис «Нейро» может отвечать на вопросы, для которых обычно требуется изучение данных в нескольких интернет-источниках. К примеру, когда пользователя интересует вопрос о том, «какие растения могут жить в тёмной комнате и не требуют ежедневного полива» или «стоит ли ехать осенью в Карелию и чем там заняться». Получив ответ на интересующий вопрос, пользователь может продолжить взаимодействие с «Нейро» посредством отправки дополнительных вопросов или уточнения информации в режиме диалога. При этом сервис отвечает на запросы с учётом контекста беседы.

Отмечается, что «Нейро» понимает запросы на естественном языке. Для начала взаимодействия с сервисом не требуется подбирать какие-то определённые формулировки. Пользователь может формировать запросы буквально так, как они приходят ему в голову. Текстовые запросы можно дополнять картинками, например, сделать снимок настольной игры и попросить «Нейро» объяснить её правила.

Особенность алгоритма в том, что он берёт факты не из памяти большой языковой модели, а из источников в интернете. Такой подход гарантирует, что в ответах «Нейро» предоставляет свежую и актуальную информацию. Сервис дополняет свои ответы ссылками на источники, которые располагаются отдельным блоком над текстом. Это позволяет пользователям в случае необходимости проверить факты или же более углублённо изучить интересующую тему.

В настоящий момент пользователи могут взаимодействовать с сервисом «Нейро» в приложении «Яндекс с Алисой» и в «Яндекс Браузере». Для использования сервиса потребуется авторизоваться с учётной записью «Яндекса» и переключить соответствующий тумблер, расположенный рядом с поисковой строкой.

OpenAI попытается заинтересовать Голливуд ИИ-генератором видео Sora

Компания OpenAI планирует провести на следующей неделе встречи в Лос-Анджелесе с представителями голливудских студий, руководителями СМИ и агентствами по поиску талантов. Компания хочет сформировать партнёрские отношения с представителями индустрии развлечений и предложить кинематографистам использовать в своей работе новый ИИ-сервис для генерации видео Sora, пишет Bloomberg со ссылкой на источники.

 Источник изображения: Andrew Neel

Источник изображения: Andrew Neel

До этого, в конце февраля главный операционный директор OpenAI Брэд Лайткеп (Brad Lightcap) вместе с коллегами демонстрировал в Голливуде возможности Sora, позволяющего генерировать реалистичные видеоролики продолжительностью до минуты на основе текстовых подсказок пользователей. Несколько дней спустя гендиректор OpenAI Сэм Альтман (Sam Altman) посетил мероприятия в Лос-Анджелесе, посвящённые церемонии вручения премии Оскар, на которых, по всей видимости тоже информировал представителей медиабизнеса о возможностях Sora.

OpenAI представила ИИ-генератор видео Sora в середине февраля, и его возможности сразу привлекли внимание Голливуда и Кремниевой долины. Хотя нейросеть Sora пока недоступна для широкой публики, ею уже могут воспользоваться некоторые известные актёры и режиссёры.

«У OpenAI есть продуманная стратегия работы в сотрудничестве с промышленностью посредством процесса итеративного развёртывания — поэтапного внедрения достижений ИИ — чтобы обеспечить безопасное внедрение и дать людям представление о том, что нас ждёт на горизонте», — сказал представитель OpenAI. «Мы рассчитываем на постоянный диалог с художниками и креативщиками», — добавил он.

Конкуренты OpenAI, технологические гиганты Meta Platforms и Google, ранее представили исследовательские проекты по преобразованию текста в видео. Над данной технологией также работают такие ИИ-стартапы, как Runway AI, Pika и Stability AI.

Лидирующая в этом сегменте Runway ранее сообщила Bloomberg, что её сервис преобразования текста в видео Runway Gen-2 уже используют миллионы людей, включая профессионалов производственных и анимационных студий, которые полагаются на него при предварительной визуализации и раскадровке. Монтажёры фильмов с помощью сервиса создают видеоролики, сочетая их с другим отснятым контентом для создания рекламных роликов или визуальных эффектов.

Google начала показывать результаты ИИ-поиска пользователям, которые не активировали эту функцию

Компания Google продолжает развивать собственную поисковую систему, которая ранее получила функцию отображения сводки ответов на введённый запрос и ссылок на источники, подбираемые с помощью генеративного ИИ. Ранее для использования этого нововведения нужно было активировать опцию Search Generative Experience (SGE) на платформе Search Labs. Теперь же подобранные ИИ ответы стали появляться в выдаче всех пользователей поисковика в США.

 Источник изображения: Pixabay

Источник изображения: Pixabay

По данным источника, Google активировала функцию ИИ-поиска для «небольшого процента поискового трафика в США», в связи с чем пользователи на территории страны могут увидеть сгенерированный нейросетью раздел, даже если они не активировали соответствующую опцию.

Напомним, Google представила функцию SGE на ежегодной конференции I/O в мае прошлого года, вскоре после того, как открыла доступ к своему чат-боту Bard, который в настоящее время носит имя Gemini. К ноябрю прошлого года эта функция была развёрнута в 120 странах и могла обрабатывать запросы на множестве языков, но по-прежнему оставалась отключённой по умолчанию.

 Источник изображения: Google

Источник изображения: Google

На данном этапе Google будет показывать пользователям сгенерированный ИИ блок при обработке сложных запросов или в случаях, когда поисковик посчитает, что пользователю будет полезно получить информацию по интересующему его вопросу из нескольких источников. Также отмечается, что сгенерированный нейросетью блок будет выводиться только в случаях, когда алгоритм определит, что результат работы ИИ предоставляет более качественную информацию, чем обычная поисковая выдача. Вероятно, Google проводит тестирование функции ИИ-поиска, чтобы получить больше отзывов от пользователей с целью дальнейшей интеграции нейросетей в свой поисковик.

Google открыла доступ к мощной нейросети Gemini 1.5 Pro

Google открыла доступ к бета-версии нейросети Gemini 1.5 Pro для всех пользователей. Об этом сообщил в социальной сети X ведущий научный сотрудник Google DeepMind Джефф Дин (Jeff Dean). «Сначала мы будем постепенно подключать людей к API, а затем наращивать его. Тем временем разработчики могут опробовать Gemini 1.5 Pro в пользовательском интерфейсе AI Studio прямо сейчас», — рассказал Дин.

 Источник изображения: Google

Источник изображения: Google

Gemini 1.5 Pro работает со стандартным контекстным окном на 128 000 токенов, хотя, как сообщается, обрабатываемый объём информации можно увеличить до 1 млн токенов. За один раз Gemini 1.5 Pro способна обработать до часа видео, 11 часов аудио, кодовые базы с более чем 30 000 строк кода или более 700 000 слов. В ходе исследования Google также успешно протестировала обработку до 10 млн токенов.

Gemini 1.5, использующая архитектуру Transformer и MoE, сочетает в себе сильные стороны обеих моделей. Gemini 1.5 Pro отлично справляется с различными задачами, такими как анализ исторических документов, например, в расшифровке стенограммы миссии «Аполлон-11». Нейросеть способна не только анализировать большие блоки данных, но и быстро находить определённый фрагмент текста внутри них. Также Gemini 1.5 эффективно обрабатывает большие «куски» кода. В интерфейсе AI Studio нейросеть сейчас доступна с ограничением в 20 запросов в день.

В тесте Needle In A Haystack (NIAH) нейросеть достигает 99 % успеха в обнаружении конкретных фактов в длинных текстах. А способность учиться в конкретных условиях, продемонстрированная в бенчмарке Machine Translation from One Book (MTOB), делает Gemini 1.5 одним из лидеров в способности к адаптивному обучению.

Нейросети помогут в поиске мелкого космического мусора

Европейские учёные предложили адаптировать популярные ИИ-алгоритмы систем машинного зрения для анализа сделанных при помощи радаров снимков околоземного пространства и обнаружения на них миниатюрных частиц космического мусора.

 Источник изображения: nasa.gov

Источник изображения: nasa.gov

Исследователи провели эксперимент, применив существующие нейросети, используемые в системах машинного зрения, для анализа данных с европейского радара TIRA — это 47-метровая радиотарелка, которая помогает наблюдать за околоземным пространством и получать изображения, на которых производится поиск космического мусора.

Авторы проекта попытались заменить стандартные алгоритмы анализа данных TIRA нейросетями семейства YOLO, которые применяются для поиска движущихся объектов на снимках. Версии нейросетей YOLOv5 и YOLOv8 обучили при помощи массива из 3000 снимков околоземного пространства и проверили их эффективность на примере 600 изображений с радаров, на которых были от одного до трёх частиц космического мусора.

Обе нейросети корректно обнаружили от 85 % до 97 % частиц размером от сантиметра при минимальном числе ложных срабатываний. Результат оказался выше того, что демонстрирует стандартный алгоритм TIRA. Учёные сделали вывод, что системы машинного зрения могут успешно применяться для поиска космического мусора в околоземном пространстве и для его отслеживания в реальном времени. Это поможет снизить число инцидентов, связанных с попаданием частиц космического мусора в работающие орбитальные аппараты.

По оценкам экспертов, на орбите Земли могут находиться более 170 млн частиц космического мусора.

Анонсирована Stable Diffusion 3.0 — ИИ для рисования сменил архитектуру и научился писать

Компания Stability AI выпустила предварительную версию Stable Diffusion 3.0 — флагманской модели искусственного интеллекта следующего поколения для генерации изображений по текстовому описанию. Stable Diffusion 3.0 будет доступна в разных версиях на базе нейросетей размером от 800 млн до 8 млрд параметров.

 Источник изображений: Stable Diffusion 3.0

Источник изображений: Stable Diffusion 3.0

В течение последнего года компания Stability AI постоянно совершенствовала и выпускала несколько нейросетей, каждая из которых показывала растущий уровень сложности и качества. Выпуск SDXL в июле значительно улучшил базовую модель Stable Diffusion, и теперь компания собирается пойти значительно дальше.

Новая модель Stable Diffusion 3.0 призвана обеспечить улучшенное качество изображения и лучшую производительность при создании изображений из сложных подсказок. Новая нейросеть обеспечит значительно лучшую типографику, чем предыдущие версии Stable Diffusion, обеспечивая более точное написание текста внутри сгенерированных изображений. В прошлом типографика была слабой стороной Stable Diffusion, собственно, как и многих других ИИ-художников.

Stable Diffusion 3.0 — это не просто новая версия модели прежней Stability AI, ведь она основана на новой архитектуре. «Stable Diffusion 3 – это диффузионная модель-трансформер, архитектура нового типа, которая аналогична той, что используется в представленной недавно модели OpenAI Sora, — рассказал VentureBeat Эмад Мостак (Emad Mostaque), генеральный директор Stability AI. — Это настоящий преемник оригинальной Stable Diffusion».

Stability AI экспериментирует с несколькими типами подходов к созданию изображений. Ранее в этом месяце компания выпустила предварительную версию Stable Cascade, которая использует архитектуру Würstchen для повышения производительности и точности. Stable Diffusion 3.0 использует другой подход, используя диффузионные модели-трансформеры. «Раньше у Stable Diffusion не было трансформера», — сказал Мостак.

Трансформеры лежат в основе большей части современных нейросетей, запустивших революцию в области искусственного интеллекта. Они широко используются в качестве основы моделей генерации текста. Генерация изображений в основном находилась в сфере диффузионных моделей. В исследовательской работе, в которой подробно описываются диффузионные трансформеры (DiT), объясняется, что это новая архитектура для диффузионных моделей, которая заменяет широко используемую магистраль U-Net трансформером, работающим на скрытых участках изображения. Применение DiT позволяет более эффективно использовать вычислительные мощности и превосходить другие подходы к диффузной генерации изображений.

Еще одна важная инновация, которой пользуется Stable Diffusion 3.0 — это согласование потоков. В исследовательской работе по сопоставлению потоков объясняется, что это новый метод обучения нейросетей с помощью «непрерывных нормализующих потоков» (Conditional Flow Matching — CNF) для моделирования сложных распределений данных. По мнению исследователей, использование CFM с оптимальными путями транспортировки приводит к более быстрому обучению, более эффективному отбору образцов и повышению производительности по сравнению с диффузионными путями.

Улучшенная типографика в Stable Diffusion 3.0 является результатом нескольких улучшений, которые Stability AI встроил в новую модель. Как пояснил Мостак, качественная генерация текстов на изображения стала возможной благодаря использованию диффузионной модели-трансформера и дополнительных кодировщиков текста. С помощью Stable Diffusion 3.0 стало возможным генерировать на изображениях полные предложения со связным стилем написания текста.

Хотя Stable Diffusion 3.0 изначально демонстрируется как технология искусственного интеллекта для преобразования текста в изображение, она станет основой для гораздо большего. В последние месяцы Stability AI также создаст нейросети для создания 3D-изображений и видео.

«Мы создаем открытые модели, которые можно использовать где угодно и адаптировать к любым потребностям, — сказал Мостак. — Это серия моделей разных размеров, которая послужит основой для разработки наших визуальных моделей следующего поколения, включая видео, 3D и многое другое».

OpenAI представила ИИ-генератор видео Sora, который выдаёт впечатляющие результаты

OpenAI представила новую нейросеть Sora для генерации видео. Компания утверждает, что Sora «может создавать реалистичные и фантазийные сцены по текстовым инструкциям». Модель преобразования текста в видео позволяет пользователям создавать на базе текстовых описаний фотореалистичные видео длиной до минуты с разрешением Full HD (1920 × 1080 точек).

 Источник изображения: OpenAI

Источник изображения: OpenAI

Sora способна создавать «сложные сцены с несколькими персонажами, определенными типами движения и точной детализацией объекта и фона», говорится в блоге OpenAI. Компания также отмечает, что нейросеть может понимать, как объекты «существуют в физическом мире», а также «точно интерпретировать реквизит и генерировать убедительных персонажей, выражающих яркие эмоции».

Модель может генерировать видео на основе неподвижного изображения, заполнять недостающие кадры в существующем видео или расширять его. Среди демонстрационных роликов, созданных с помощью Sora и показанных в блоге OpenAI, сцена Калифорнии времен золотой лихорадки, видео, снятое как будто изнутри токийского поезда, и другие. Многие из них имеют некоторые артефакты, указывающие на работу искусственного интеллекта. Например, подозрительно движущийся пол в видеоролике о музее. Сама OpenAI говорит, что модель «может испытывать трудности с точным моделированием физики сложной сцены», но в целом результаты довольно впечатляющие.

Пару лет назад именно генераторы текста в изображение, такие как Midjourney, лучше всего демонстрировали способности ИИ превращать слова в изображения. Но в последнее время генеративное видео стало улучшаться заметными темпами: такие компании, как Runway и Pika, продемонстрировали впечатляющие модели преобразования текста в видео, а Lumiere от Google, похоже, станет одним из главных конкурентов OpenAI в этой области. Как и Sora, Lumiere предоставляет пользователям инструменты для преобразования текста в видео, а также позволяет создавать видео из неподвижного изображения.

В настоящее время Sora доступна только отдельным тестировщикам, которые оценивают модель на предмет потенциального вреда и рисков. OpenAI также предлагает доступ по запросу отдельным художникам, дизайнерам и кинематографистам, чтобы получить обратную связь. Компания отмечает, что существующая модель может неточно имитировать физику сложной сцены и неправильно интерпретировать некоторые случаи причинно-следственных связей.

Ранее в этом месяце OpenAI объявила, что добавляет маркировку в свой инструмент преобразования текста в изображение DALL-E 3, но отмечает, что их можно легко удалить. Как и в случае с другими продуктами на базе ИИ, компании OpenAI придется бороться с последствиями того, что поддельные фотореалистичные видео, созданные ИИ, будут выдавать за настоящие.

Больше видео, сгенерированных Sora, можно найти здесь.

Google выпустила нейросеть Gemini 1.5 с огромнейшим контекстным окном — ИИ за раз осилит весь «Властелин колец»

Не прошло и двух месяцев с момента запуска передовой нейросети Gemini, а Google уже анонсировала её преемника. Сегодня была представлена большая языковая модель Gemini 1.5, которая сразу же стала доступна для разработчиков и корпоративных пользователей, а в скором времени начнется её распространение среди потребителей. Google ясно дала понять, что хочет использовать Gemini в качестве бизнес-инструмента, персонального помощника и не только.

В Gemini 1.5 много улучшений. Модель Gemini 1.5 Pro, которая ляжет в основу многих сервисов Google, превосходит Gemini 1.0 Pro на 87 % в тестах, и соответственно находится примерно на одном уровне с высококлассной Gemini 1.0 Ultra. При создании новой модели используется набирающий популярность подход «смесь экспертов» (Mixture of Experts — MoE), который подразумевает, что при отправке запроса запускается только часть общей модели, а не вся. Такой подход должен сделать модель более быстрой для пользователя и более эффективной для Google.

Но в Gemini 1.5 есть одна новая вещь, которая особенно радует всю компанию Google, начиная с генерального директора Сундара Пичаи (Sundar Pichai). Новая версия нейросети имеет огромное контекстное окно, что означает, что она может обрабатывать гораздо более объёмные запросы и просматривать гораздо больше информации одновременно. Размер окна составляет 1 миллион токенов, что намного больше 128 000 токенов у GPT-4 от OpenAI и 32 000 у текущей Gemini Pro. «Это примерно 10 или 11 часов видео, десятки тысяч строк кода», — отметил Пичаи. Ещё он добавил, что исследователи Google тестируют контекстное окно на 10 миллионов токенов — это, например, вся серия «Игры престолов» в одном запросе.

В качестве примера Пичаи говорит, что в это контекстное окно можно вместить всю трилогию «Властелин колец». Это кажется слишком специфичным, но, возможно, кто-то в Google проверит, не обнаружит ли Gemini ошибок в преемственности, пытается разобраться в сложной родословной Средиземья. Или ИИ, возможно, сможет понять Тома Бомбадила.

Пичаи также считает, что увеличенное контекстное окно будет очень полезно для бизнеса. «Это позволит вам использовать примеры, в которых вы можете добавить много личного контекста и информации в момент запроса, — говорит он. — Считайте, что мы значительно расширили окно запроса». Глава Google представляет себе, что кинематографисты могут загрузить весь свой фильм и спросить у Gemini, что скажут рецензенты, а компании смогут использовать Gemini для обработки массы финансовых документов. «Я считаю это одним из самых больших прорывов, которые мы совершили», — говорит он.

Пока что Gemini 1.5 будет доступна только для бизнес-пользователей и разработчиков через Google Vertex AI и AI Studio. Со временем она заменит Gemini 1.0, а стандартная версия Gemini Pro — та, что доступна всем на сайте gemini.google.com и в приложениях Google, — будет заменена на 1.5 Pro с контекстным окном на 128 000 токенов. Чтобы получить миллион, придется доплатить. Google также тестирует безопасность и этические границы модели, особенно в отношении нового увеличенного контекстного окна.

Сейчас Google находится в бешеной гонке за создание лучшего инструмента ИИ, в то время как компании по всему миру пытаются определить свою собственную стратегию ИИ и сотрудничать с OpenAI, Google или кем-то ещё. Буквально недавно OpenAI анонсировала «память» для ChatGPT и, похоже, готовится к выходу на рынок веб-поиска. Пока Gemini выглядит впечатляюще, особенно для тех, кто уже работает в экосистеме Google, компании предстоит еще много работы.

В конце концов, говорит Пичаи, все эти 1.0 и 1.5, Pro и Ultra, а также корпоративные битвы не будут иметь значения для пользователей. «Люди будут просто потреблять лучший пользовательский опыт, — говорит он. — Это как пользоваться смартфоном, не обращая внимания на процессор под крышкой». Но на данный момент, по его словам, мы всё еще находимся на стадии, когда каждый знает, какой чип находится внутри его телефона, потому что это имеет значение. «Базовые технологии меняются так быстро», — говорит глава Google. — Людям не все равно».

ИИ-бот ChatGPT научился запоминать факты о пользователях и их предпочтения

Регулярная работа с чат-ботом на базе искусственного интеллекта может начать раздражать, поскольку для улучшения опыта взаимодействия пользователю каждый раз приходится объяснять некоторые факты о себе и своих предпочтениях. Компания OpenAI, являющаяся разработчиком ИИ-бота ChatGPT, намерена исправить это, сделав алгоритм более персонализированным за счёт добавления ему «памяти».

 Источник изображения: Growtika / unsplash.com

Источник изображения: Growtika / unsplash.com

Такой подход позволит ChatGPT со временем извлекать информацию о пользователе и его предпочтениях из диалогов с ним. Функция памяти работает двумя способами. Пользователь может прямо указать на свои предпочтения или иную информацию, которую ChatGPT должен запомнить. Если этого не делать, то чат-бот будет сам получать нужную информацию в процессе взаимодействия с пользователем. Цель разработчиков состоит в том, чтобы сделать ChatGPT более персонализированным и удобным.

Во многих отношениях память является той функцией, которой действительно не хватает ChatGPT. Однако для её реализации алгоритм будет собирать информацию о пользователях, что может вызвать опасения по поводу конфиденциальности данных. OpenAI выбрала стратегию, которая во многом напоминает принцип работы разных интернет-сервисов. Речь идёт о наблюдении за действиями пользователя для постепенного формирования цифрового профиля. Такой метод работы неоднозначен, поскольку сразу возникают опасения по поводу того, что ChatGPT будет использовать собранные данные для дальнейшего обучения алгоритма и повышения уровня персонализации.

OpenAI заявила, что пользователи будут иметь возможность контроля функции памяти ИИ-бота. Также отмечается, что алгоритм не будет запоминать конфиденциальные данные, например, информацию о здоровье. Можно спросить ChatGPT о том, что именно ему известно о пользователе, после чего эти данные при необходимости без особого труда удаляются из памяти. Если же пользователь не заинтересован в функции памяти, то её попросту можно отключить, но по умолчанию она будет активирована.

На данный момент функция памяти ChatGPT находится на этапе тестирования и доступна ограниченному числу пользователей ИИ-бота. Когда именно она может стать общедоступной, пока неизвестно.

NVIDIA представила Chat with RTX для запуска ИИ-чат-ботов локально на ПК

NVIDIA выпустила предварительную версию приложения Chat with RTX, которое позволяет запускать локально на ПК чат-бота c генеративным ИИ на основе большой языковой модели (LLM). Чат-бот способен создавать сводки и выдавать релевантные ответы на основе видеороликов и документов пользователя. Chat with RTX работает на ПК под управлением Windows с видеокартами NVIDIA GeForce RTX 30-й или 40-й серии, оснащёнными как минимум 8 Гбайт видеопамяти.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

Chat with RTX умеет обрабатывать видео YouTube — достаточно просто ввести URL-адрес, чтобы получить от чат-бота краткое содержание в текстовом виде. Chat with RTX позволяет выполнять поиск по расшифровке видео. По отзывам экспертов, поиск в видеороликах занимает считанные секунды. При этом отмечены случаи, когда чат-бот по непонятной причине использовал для поиска содержание другого ролика вместо запрошенного. Это явно указывает на ошибки ранней демоверсии.

Исследователи находят Chat with RTX полезным при обработке PDF-файлов. Утверждается, что чат-бот от NVIDIA в этой задаче проявил себя лучше, чем Microsoft Copilot, без проблем извлекая ключевую информацию. Эксперты также отметили, что Chat with RTX даёт ответ практически мгновенно, без задержек, которые обычно наблюдаются при использовании облачных чат-ботов ChatGPT или Copilot. При помощи чат-бота тестировщикам удалось создать релевантный набор данных по судебному делу «FTC против Microsoft» и обобщить всю стратегию Microsoft в отношении Xbox Game Pass.

При инсталляции Chat with RTX на ПК пользователя устанавливается веб-сервер и экземпляр Python, который использует LLM Mistral или Llama 2. Тензорные ядра на графическом процессоре NVIDIA RTX применяются для ускорения обработки запросов. Установка Chat with RTX на ПК с процессором Intel Core i9-14900K и видеокартой NVIDIA GeForce RTX 4090 продолжается около 30 минут. На диске приложение занимает около 40 Гбайт, а интерпретатор Python при работе потребляет около 3 Гбайт ОЗУ. После запуска пользователь получает доступ к чат-боту через веб-интерфейс, а в командной строке отображается ход выполнения и коды ошибок.

Эксперты отмечают, что Chat with RTX пока больше всего напоминает раннюю демоверсию для разработчиков и компьютерных энтузиастов. Существует целый ряд известных проблем и ограничений. Попытка проиндексировать с помощью Chat with RTX папку с 25 000 документов привела к сбою приложения, потребовавшему сброса всех настроек для восстановления работоспособности. Кроме того, чат-бот создал файлы JSON внутри всех папок, которые индексировал, что не всегда уместно. Chat with RTX также не запоминает контекст, поэтому новый запрос не может опираться на содержание предыдущего.

Тем не менее, Chat with RTX — это хорошая техническая демонстрация возможностей и перспектив локально установленного на компьютере пользователя чат-бота с ИИ. Найдётся достаточно людей, которые не хотят для анализа личных данных использовать подписные облачные службы ИИ, такие как Copilot Pro или ChatGPT Plus.

PayPal решила вдохнуть новую жизнь в платёжную систему при помощи ИИ

Новый генеральный директор PayPal Алекс Крисс (Alex Chriss) заявил, что компания в этом году развернёт платформу на базе ИИ, которая позволит продавцам привлекать новых клиентов на основе их предыдущей истории покупок, используя данные торговых транзакций на общую сумму примерно в полтриллиона долларов по всему миру. Компания также запускает функцию оплаты в один клик.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Это первое крупное программное заявление Крисса, который приступил к работе в PayPal в сентябре 2023 года. Представленные им новые продукты на основе нейросети являются ещё одним примером того, как компании пытаются использовать энтузиазм инвесторов в отношении ИИ, который помог фондовым рынкам США достичь рекордных высот в этом месяце. Индекс S&P 500 поднялся до четвёртого рекордного максимума на закрытии торгов в среду, отчасти именно благодаря ралли акций технологических компаний на фоне всеобщего оптимизма в отношении ИИ.

Эксперты надеются, что Крисс, который ранее был старшим руководителем компании-разработчика программного обеспечения Intuit, откроет новую страницу в истории PayPal и «оживит» акции компании, которые упали более чем на 22 % по сравнению с январём 2023 года из-за низкой рентабельности, не впечатлившей инвесторов. Крисс назвал 2024 год «переходным» для PayPal и пообещал существенно увеличить прибыльность компании.

Продавцы смогут использовать отдельный инструмент на базе нейросети под названием «умные квитанции», чтобы рекомендовать покупателям персонализированные товары в квитанциях по электронной почте, а также начислять кэшбэк. PayPal представляет функцию оплаты «в один клик» под названием Fastlane, которая на ранних этапах тестирования увеличила скорость оплаты почти на 40 %, а также новые возможности для бизнес-профилей Venmo, сообщила компания.

«Результаты инноваций… многообещающие и должны улучшить качество обслуживания потребителей и продавцов, — заявил аналитик BTIG Эндрю Харт (Andrew Harte). — Тем не менее, мы думаем, что инвесторы будут рассматривать какую-либо из них не как новаторскую информацию, а, скорее, как инициативы, над которыми, как они ожидали, компания уже работает».

«Данные, которыми мы располагаем, и наша способность реально видеть, что покупают люди, и знать, на что пытаются ориентироваться продавцы, — вот где ИИ является огромной возможностью для нас», — заявил Крисс. Акции PayPal на последних торгах упали на 4,6 %, поскольку, кроме новостей от руководителя, инвесторы ждут реальных изменений от компании. Возможно, ситуация изменится уже 7 февраля, когда PayPal отчитается о результатах деятельности за четвёртый квартал.

ИИ поможет выявлять ухудшение водительских навыков у пожилых людей

Для Японии старение населения давно является серьёзной проблемой. Помимо прочего это снижает безопасность на дорогах. Бороться с этим предлагается не только за счёт внедрения автопилота, но и контроля за способностью престарелых граждан управлять транспортными средствами при помощи систем искусственного интеллекта.

 Источник изображения: Unsplash, Laura Gariglio

Источник изображения: Unsplash, Laura Gariglio

Во всяком случае, как сообщает Nikkei Asian Review, японская компания NTT Data разрабатывает нейросеть соответствующего назначения. Следя за поведением водителя, она будет оценивать скорость движения, ускорения и замедления, а также обрабатывать другие данные, которые позволят своевременно выявить снижение способности конкретного человека безопасно управлять автомобилем в силу возрастных изменений.

В качестве эксперимента NTT Data будет собирать статистику в одном из таксопарков японской столицы среди машин, управляемых водителями старше 65 лет, и накапливаться эта информация будет с января по июнь текущего года. Таксомоторы будут оборудованы соответствующими датчиками и устройствами GPS, а также модемами для передачи телеметрии в облачную систему NTT Data, которая и будет обрабатывать накапливаемую статистику. Особое внимание будет выделяться фактам резкого торможения или ускорения. Аномалии будут выявляться в сравнении с созданным профилем каждого водителя, учитывающим его нормальное поведение за рулём.

Через несколько лет NTT Data планирует запустить в коммерческую эксплуатацию соответствующий облачный сервис, его клиентами смогут стать таксопарки и логистические компании, заботящиеся о безопасности перевозок. Со временем подключиться к этому сервису смогут и рядовые автолюбители. Компания собирается сотрудничать со страховщиками, чтобы те могли интегрировать данный сервис в свою экосистему. Предполагается, что для анализа когнитивных функций конкретного водителя будет достаточно статистики, накопленной за несколько дней активной работы. В дополнение к этому, прочими разработчиками для оценки профпригодности пожилых водителей будут использоваться технологии распознавания голоса и анализа выражений лица, а также движения зрачков.

Искусственный интеллект скоро сможет правдоподобно имитировать почерк человека

Уже сейчас нейросети способны правдоподобно воссоздавать голос человека и имитировать его мимику в соответствии с якобы произносимым текстом. Как считают учёные, вскоре искусственному интеллекту будут по плечу и задачи правдоподобного воспроизведения почерка человека, для этого нейросетям будет достаточно ознакомиться лишь с несколькими абзацами «исходного материала».

 Источник изображения: Unsplash, Hannah Olinger

Источник изображения: Unsplash, Hannah Olinger

Команде специалистов Университета искусственного интеллекта имени Мухаммеда бен Заида в ОАЭ, как сообщает Bloomberg, уже удалось создать профильную нейросеть и опробовать её в деле. Эту разработку авторам даже удалось запатентовать в юрисдикции США. Пока использование данной нейросети сторонними клиентами не подразумевается, и авторы разработки уже выражают опасения по поводу способности недобросовестных пользователей применять её во вред обществу.

Прежде чем этот инструмент начнёт распространяться, по мнению разработчиков, необходимо создать защитные механизмы, предотвращающие его некорректное с этической точки зрения применение. «Это всё равно что создать антивирус для вируса», — пояснили представители университета. Подобные соображения не мешают создателям нейросети планировать её коммерческое применение в течение ближайших месяцев, они уже ищут партнёров для реализации сопутствующего потенциала данной технологии. Помимо прочего, такая система могла бы распознавать рукописный текст — например, для обработки записей в историях болезни пациентов. На генерируемых нейросетью рукописях можно было бы обучать другие подобные системы. Пока нейросеть способна распознавать и генерировать рукописный текст на английском и французском языках, но в перспективе разработчики хотели бы добавить к ним и арабский.

OPPO представила очень быструю нейросеть AndesGPT — она чуть-чуть уступает GPT-4 и поселится в смартфонах Find X7

Сегодня компания OPPO представила множество новаторских технологий, которые дебютируют вместе со смартфонами серии Find X7. Одной из впечатляющих новаций стала ИИ-модель AndesGPT, представленная в вариантах со 180, 70 и 7 миллиардами параметров. Самая «компактная» версия и появится в грядущих флагманах OPPO.

 Источник изображения: Weibo

Источник изображения: Weibo

Непосредственно в смартфонах Find X7 от OPPO будет использоваться нейросеть AndesGPT с 7 миллиардами параметров. Компания обещает, что AndesGPT обеспечит «сдвиг парадигмы возможностей искусственного интеллекта» благодаря таким нововведениям, как сжатие модели с квантованием в 4 бита, оптимизация механизма запуска ИИ Al Boost и совместная глубокая оптимизация модели с производителями чипов.

 Источник изображений: OPPO

В практических сценариях AndesGPT должна проявить себя в обеспечении очень быстрого отклика. По утверждению OPPO, при обобщении текстового контента создание первого из 200 слов занимает всего 0,2 секунды, что опережает конкурентов в 20 раз. Для выжимки из 2000 слов AndesGPT демонстрирует быстрый ответ за 2,9 секунды, превосходя отраслевые стандарты в 2,5 раза. Нейросеть умеет генерировать рефераты объёмом до 14 000 слов, демонстрируя возможности моделирования, в 3,5 раза превосходящие его конкурентов.

OPPO хвалит свою языковую модель с 7 миллиардами параметров за «улучшенное интеллектуальное понимание», что особенно заметно в функции сводки вызовов. AndesGPT «превосходно выделяет ключевые моменты из содержания звонков, предоставляя точные сводки с темами, ключевыми моментами и практическими элементами». По мнению OPPO, её нейросеть уступает, причём совсем немного, лишь GPT4 от OpenAI.

 Сравнение AndesGPT с другими нейросетями

Сравнение AndesGPT с другими нейросетями

Нейросеть AndesGPT не ограничивается текстовыми приложениями, она также представляет полный спектр возможностей для генерации изображений. Компания заявляет, что AndesGPT «превосходно генерирует большие изображения с естественным светом и тенью, устанавливая новый стандарт локальной генерации изображений с 6-секундным интервалом — на 60 % быстрее, чем конкурирующие модели на той же платформе».

Для смартфонов серии Find X7 компания OPPO также анонсировала технологию спутниковой связи «нового уровня» при помощи антенны с изменяемой диаграммой направленности. Теперь пользователи могут совершать спутниковые звонки традиционным способом, приложив телефон к уху, без необходимости поиска определённого угла или положения аппарата.


window-new
Soft
Hard
Тренды 🔥
Сверхспособности, кошачий стелс и механика страха: инсайдер раскрыл детали мрачной Assassin's Creed Codename: Hexe про охоту на ведьм 6 мин.
Институт системного программирования РАН и «Базис» расширяют работу по повышению безопасности российских облачных решений 2 ч.
IBM намерена купить поставщика решений для управления инфраструктурой HashiCorp 2 ч.
Google вновь отложила блокировку сторонних cookie в браузере Chrome 5 ч.
Microsoft продолжает продлевать лицензии на ПО клиентам из России 6 ч.
Еженедельный чарт Steam: No Rest for the Wicked стартовала в тройке лидеров, а Dota 2 вплотную приблизилась к Counter-Strike 2 14 ч.
Олдскульный шутер Phantom Fury наконец вышел в Steam, но первые отзывы настораживают 15 ч.
Руководитель поиска Google призвал сотрудников «действовать быстрее», потому что «всё изменилось» 17 ч.
Приближали как могли: военная стратегия Men of War II выйдет в памятный для серии «В тылу врага» день 17 ч.
Стратегия Songs of Conquest в духе «Героев Меча и Магии» вырвется из раннего доступа уже совсем скоро — разработчики объявили дату выхода 18 ч.