Сегодня 24 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → нейросеть
Быстрый переход

Акции Google подскочили более чем на 5 % после анонса нейросети Gemini

На этой неделе Google представила большую языковую модель Gemini, которая в перспективе должна стать главным конкурентом GPT-4 от OpenAI, а продукты на её основе — конкурентами ИИ-сервисов Microsoft. Для ценных бумаг компании 7 декабря, когда стоимость акций выросла более чем на 5 % до $136,93, стало лучшим днём с 29 августа.

 Источник изображений: Google

Источник изображений: Google

Представитель торгового отдела банковской холдинговой компании Wells Fargo считает, что анонса нейросети Gemini должно быть достаточно, чтобы успокоить скептиков, которые считают, что Google проигрывает Microsoft гонку в сфере искусственного интеллекта. Он также отметил, что большой вопрос заключается в том, как компания видит монетизацию своей нейросети.

Аналитики Bank of America отметили, что в этом году Alphabet находится под давлением из-за опасений по поводу возможностей Google в сфере искусственного интеллекта. Поэтому «хорошо раскрученная» конкурентная модель может иметь преимущества для её потребительской поисковой активности и корпоративных продаж облачных технологий. «Мы считаем, что Google обладает мощным потенциалом в сфере искусственного интеллекта, и данные, свидетельствующие о том, что Google обладает лучшими в своём классе собственными возможностями искусственного интеллекта, могут оказать положительное влияние на акции в первом полугодии 2024 года», — считают аналитики.

Пока неясно, планирует ли Google монетизировать Gemini через все свои продукты в долгосрочной перспективе, хотя уже в этом месяце компания начнёт лицензировать использование алгоритма клиентами через Google Cloud. Руководство Google заявило, что Gemini превосходит алгоритм GPT-3.5 от OpenAI, но не были озвучены сравнительные данные с моделью GPT-4 Turbo. Тем не менее, Gemini показывает, что существуют возможности для дальнейшей монетизации ИИ.

Например, Microsoft недавно запустила ИИ-помощника Copilot на базе ChatGPT, который встроен в Word, Excel и другие приложения офисного пакета компании, стоимостью $30 в месяц на пользователя. В октябре аналитики Piper Sandler заявили, что Copilot может принести Microsoft более $10 млрд ежегодного дохода к 2026 году.

Аналитики JPMorgan сообщили, что хотя инвесторы Уолл-стрит в основном не обратили внимания на анонс Google, они воодушевлены, увидев Google в «этом важном технологическом сдвиге». Однако они отмечают, что «неопределённость в отношении путей монетизации в поиске» будет иметь место. Они считают, что запуск Gemini представляет собой значительную инновацию для Google, поскольку вскоре начнётся второй год коммерциализации и широкой доступности генеративных алгоритмов на базе нейросетей.

«Сбер» обновил GigaChat — ИИ-чат-бот получил одну из крупнейших нейросетей на русском языке

В рамках международной конференции по искусственному интеллекту AI Journey разработчики «Сбера» представили новую версию чат-бота GigaChat, основой которого стала одна из самых продвинутых больших языковых моделей (LLM) для русского языка с 29 млрд параметров. В скором времени доступ к API новой версии алгоритма получат бизнес-клиенты «Сбера», что позволит им создавать собственные решения на базе GigaChat, а также участники академического сообщества для проведения исследований.

 Источник изображения: sber.ru

Источник изображения: sber.ru

Использование новой LLM позволяет чат-боту лучше следовать инструкциям и выполнять сложные задания. Существенно повысилась качество суммаризации, рерайтинга, редактирования текстов и ответов на различные вопросы. Разработчики сравнили ответы новой и предыдущей моделей и зафиксировали общее повышение качества на 23 %. В дополнение к этому с фактологией новая модель справляется на 25 % лучше предшественницы.

Для повышения качества работы LLM было проведено множество экспериментов по наращиванию эффективности её обучения. К примеру, использовался фреймворк для обучения больших языковых моделей с возможностью шардирования весов нейросети по видеокартам, за счёт чего удалось сократить потребление памяти на них. Результат внутренней оценки в бенчмарке Massive Multitask Language Understanding показал, что версия GigaChat с 29 млрд параметров превосходит самый популярный открытый аналог LLaMA 2 34B.

«Обучение моделей, лежащих в основе GigaChat, — это масштабный и сложный вычислительный проект, прежде мы не делали ничего подобного. Суммарное количество вычислительных операций почти в 6 раз превысило количество операций при обучении модели ruGPT-3 с 13 млрд параметров в 2021 году. Также специально для GigaChat мы собрали и развиваем уникальный датасет, над которым работают сотни сотрудников «Сбера», помогая развивать и улучшать качество ответов в самых разных доменах. Благодаря этим усилиям пользователи с каждым новым релизом GigaChat получают максимум от сервиса для решения своих задач», — рассказал Андрей Белевцев, старший вице-президент, руководитель блока «Технологии» Сбербанка.

Samsung представила ИИ Gauss для генерации картинок, текста и кода — он, вероятно, поселится в Galaxy S24

На этой неделе компания Samsung официально представила собственную генеративную нейросеть под названием Gauss. Анонс нейросети состоялся в рамках ежегодного мероприятия Samsung AI Forum, который с 2017 года проходит в Сеуле и посвящён разработкам в сфере искусственного интеллекта.

 Источник изображения: Samsung

Источник изображения: Samsung

Южнокорейский технологический гигант назвал свой генеративный ИИ-алгоритм в честь знаменитого математика Карла Фридриха Гаусса, который создал Закон нормального распределения, используемый в машинном обучении. В компании заявили, что название отражает видение Samsung в отношении ИИ-моделей, которое заключается в том, чтобы использовать все знания в мире для улучшения ИИ и повышения качества жизни потребителей по всему миру.

Разработкой алгоритма Gauss занимались инженеры исследовательского подразделения Samsung Research. В настоящее время алгоритм задействован для повышения продуктивности работы сотрудников внутри компании, но в будущем его доступность будет расширена, и он появится в приложениях компании для потребителей.

В основе Samsung Gauss лежат три модели: Gauss Language для обработки текстовых запросов, Gauss Image для генерации и обработки изображений, а также Gauss Code для помощи при написании программного кода. Gauss Language представляет собой генеративную нейросеть, предназначенную для повышения эффективности работы за счёт помощи при выполнении разных задач, включая написание электронных писем, обобщение содержания документов, перевод текстов и др. В состав алгоритма входит несколько языковых моделей, что позволяет использовать его как в облаке, так и на устройстве.

Помощник по написанию программного кода под названием code.i создан для помощи в процессе программирования. В Samsung уверены, что он позволит разработчикам быстрее писать программный код, а интерактивный интерфейс ассистента обеспечит поддержку ряда полезных функций, таких как описание кода или создание тестовых примеров. Что касается Gauss Image, то эта модель предназначена для создания и редактирования изображений. С её помощью можно легко изменять стиль изображения, добавлять новые элементы, а также улучшать качество картинок с низким разрешением.

OpenAI представила флагманскую нейросеть GPT-4 Turbo — мощнее и в разы дешевле GPT-4

Сегодня на своей первой конференции для разработчиков компания OpenAI представила GPT-4 Turbo — улучшенную версию своей флагманской большой языковой модели. Разработчики из OpenAI отмечают, что новая GPT-4 Turbo стала мощнее и в то же время дешевле, чем GPT-4.

 Источник изображения: CNET

Источник изображения: CNET

Языковая модель GPT-4 Turbo будет предлагаться в двух версиях: одна предназначена исключительно для анализа текста, вторая понимает контекст не только текста, но и изображений. Модель анализа текста доступна в виде предварительной версии через API, начиная с сегодняшнего дня. Обе версии нейросети компания пообещала сделать общедоступными «в ближайшие недели».

Стоимость использования GPT-4 Turbo составляет 0,01 доллара за 1000 входных токенов (около 750 слов) и 0,03 доллара за 1000 выходных токенов. Под входными токенами понимаются фрагменты необработанного текста. Например, слово «fantastic» разделяется на токены «fan», «tas» и «tic». Выходные токены, в свою очередь, это токены, которые модель генерирует на основе входных токенов. Цена на GPT-4 Turbo для обработки изображений будет зависеть от размера изображения. Например, обработка изображения размером 1080 × 1080 пикселей в GPT-4 Turbo будет стоить 0,00765 доллара.

«Мы оптимизировали производительность, поэтому можем предлагать GPT-4 Turbo по цене в три раза дешевле для входных токенов и в два раза дешевле для выходных токенов по сравнению с GPT-4», — сообщила OpenAI в своём блоге.

Для GPT-4 Turbo обновили базу знаний, которая используется при ответе на запросы. Языковая модель GPT-4 обучалась на веб-данных до сентября 2021 года. Предел знаний GPT-4 Turbo — апрель 2023 года. Иными словами, на запросы, имеющие отношение к последним событиям (до апреля 2023 года), нейросеть будет давать более точные ответы. На основе множества примеров из интернета GPT-4 Turbo обучилась прогнозировать вероятность появления тех или иных слов на основе шаблонов, включая семантический контекст окружающего текста. Например, если типичное электронное письмо заканчивается фрагментом «С нетерпением жду…», GPT-4 Turbo может завершить его словами «… вашего ответа».

Вместе с этим модель GPT-4 Turbo получила расширенное контекстное окно (количество текста, учитываемое в процессе генерации). Увеличение контекстного окна позволяет модели лучше понимать смысл запросов и выдавать более подходящие им ответы, не отклоняясь от темы. Модель GPT-4 Turbo имеет контекстное окно в 128 тыс. токенов, что в четыре раза больше, чем у GPT-4. Это самое большое контекстное окно среди всех коммерчески доступных моделей ИИ. Оно превосходит контекстное окно модели Claude 2 от Anthropic, которая поддерживает до 100 тыс. токенов. Anthropic утверждает, что экспериментирует с контекстным окном на 200 тыс. токенов, но ещё не внесла эти изменения в открытый доступ. Контекстное окно в 128 тыс. токенов соответствует примерно 100 тыс. словам или 300 страницам текста, что равносильно размеру романов «Грозовой перевал» Эмили Бронте, «Путешествия Гулливера» Джонатана Свифта или «Гарри Поттер и узник Азкабана» Джоан Роулинг.

Модель GPT-4 Turbo способна генерировать действительный JSON-формат. По словам OpenAI, это удобно для веб-приложений, передающих данные, например для тех, которые отправляют данные с сервера клиенту, чтобы их можно было отобразить на веб-странице. GPT-4 Turbo в целом получила более гибкие настройки, которые окажутся полезными разработчикам. Более подробно об этом можно узнать в блоге OpenAI.

«GPT-4 Turbo работает лучше, чем наши предыдущие модели, при выполнении задач, требующих тщательного следования инструкциям, таких как генерация определённых форматов (например, “всегда отвечать в XML”). Кроме того, GPT-4 Turbo с большей вероятностью вернёт правильные параметры функции», — сообщает компания.

Также GPT-4 Turbo может быть интегрирован с DALL-E 3, функциями перевода текста в речь и зрительным восприятием, расширяя возможности использования ИИ.

OpenAI также объявила, что будет предоставлять гарантии защиты авторских прав для корпоративных пользователей через программу Copyright Shield. «Мы теперь будем защищать наших клиентов и оплачивать понесённые расходы, если они столкнутся с юридическими претензиями о нарушении авторских прав», — заявила компания в своём блоге. Ранее то же самое сделали Microsoft и Google для пользователей их ИИ-моделей. Copyright Shield будет покрывать общедоступные функции ChatGPT Enterprise и платформы для разработчиков OpenAI.

Для GPT-4 компания запустила программу тонкой настройки, предоставляя разработчикам еще больше инструментов для кастомизации ИИ под определённые задачи. По словам компании, в отличие от программы тонкой настройки GPT-3.5, предшественника GPT-4, программа тонкой настройки GPT-4 потребует большего контроля и руководства со стороны OpenAI, в основном из-за технических препятствий.

Компания также удвоила лимит скорости ввода и вывода токенов в минуту для всех платных пользователей GPT-4. При этом цена осталась прежней: 0,03 доллара за входной токен и 0,06 доллара за выходной токен (для модели GPT-4 с контекстным окном на 8000 токенов) или 0,06 доллара за входной токен и 0,012 доллара за выходной токен (для модели GPT-4 с контекстным окном на 32 000 токенов).

На следующей неделе OpenAI проведёт первую конференцию для разработчиков

OpenAI, являющаяся разработчиком популярного ИИ-бота ChatGPT, в понедельник проведёт конференцию для разработчиков. Ожидается, что в рамках этого мероприятия будут анонсированы нововведения, которые сделают ИИ-модели компании более функциональными и доступными для разработчиков приложений.

 Источник изображения: Zac Wolff / unsplash.com

Источник изображения: Zac Wolff / unsplash.com

Однодневное мероприятие, которое пройдёт в Сан-Франциско, свидетельствует о стремлении OpenAI выйти за пределы потребительского рынка, создав надёжную платформу для разработчиков в сфере ИИ. Генеральный директор OpenAI Сэм Альтман (Sam Altman) подогрел интерес к предстоящей конференции, пообещав участникам «много нового».

После нескольких лет работы в относительной безвестности OpenAI в ноябре прошлого года выпустила на рынок ИИ-бота ChatGPT, который стал одним из самых быстрорастущих потребительских приложений за всю историю. Благодаря поддержке со стороны Microsoft, которая инвестировала в OpenAI миллиарды долларов, ChatGPT, способный генерировать тексты и изображения на основе небольших подсказок, создавать программный код и выполнять другие действия, быстрыми темпами завоевал популярность среди пользователей по всему миру.

Касательно предстоящего мероприятия ожидается, что OpenAI объявит о снижении стоимости использования своих языковых моделей для разработчиков, а также объявит о новых возможностях машинного зрения для своего ИИ-алгоритма. Снижение затрат должно решить главную проблему для партнёров компании, чьи расходы при использовании большой языковой модели OpenAI растут быстрыми темпами. Возможности машинного зрения, которые позволят ИИ-модели анализировать изображения и составлять их описание, позволят разработчикам создавать приложения с новыми функциями и возможностью применения в разных сферах — от развлечений до медицины.

Также ожидается, что OpenAI анонсирует новые возможности тонкой настройки GPT-4, наиболее совершенной языковой модели компании, запуск которой должен состояться осенью этого года. Это и другие нововведения призваны побудить сторонних разработчиков использовать технологию OpenAI для создания чат-ботов и разных приложений на базе нейросетей. По данным источника, одна из главных стратегических задач, поставленных Сэмом Альтманом, заключается в том, чтобы сделать OpenAI незаменимой для других разработчиков приложений.

ИИ помог дозаписать новую песню The Beatles с вокалом Джона Леннона — она выйдет 2 ноября

Стало известно, что 2 ноября состоится релиз последней песни легендарной группы The Beatles с вокалом Джона Леннона под названием Now and Then. В процессе её создания использовался ИИ-алгоритм компании WingNut Films, который применялся для обработки голоса Леннона на демо-записи этой песни, сделанной несколько десятилетий назад.

 Источник изображения: Business Wire

Источник изображения: Business Wire

Джон Леннон записал демо-версию Now and Then на аудиокассету в 1970-х годах, но она никогда официально не издавалась. В 2021 году режиссёр Питер Джексон снял документальный сериал The Beatles: Get Back, в процессе работы над которым для обработки партий музыкальных инструментов и голосов людей использовалась технология компании WingNut. Теперь же этот алгоритм задействовали для обработки голоса Леннона на демо-записи, благодаря чему удалось сохранить чёткость оригинального вокала, отделив его от играющей на записи музыки.

Спустя несколько десятилетий после создания демо трек будет выпущен как официальная спродюсированная песня вместе с 12-минутным документальным фильмом The Last Beatles Song, посвящённым рассказу о создании этой музыкальной композиции. В него вошли комментарии Пола Маккартни, Ринго Стара, Джорджа Харрисона, а также сына Леннона Шона Оно-Леннона и Питера Джексона.

В пресс-релизе, посвящённом предстоящей премьере, Пол Маккартни сказал, что был «весьма взволнован», услышав голос Леннона на «настоящей записи The Beatles» в 2023 году, а Ринго Старр описал процесс создания песни как «самый близкий к тому», чтобы вернуть Леннона в комнату. Документальный фильм The Last Beatles Song выйдет 1 ноября, песня Now and Then — 2 ноября, а видеоклип на неё — 3 ноября.

Исследователи придумали «отравленные картинки», которыми художники смогут бороться с нейросетями

Команда исследователей из Чикагского университета создала инструмент под названием Nightshade, с помощью которого художники смогут защитить свои работы от генеративных нейросетей, использующих для обучения изображения в интернете. Он позволяет добавить к изображениям невидимые глазу человека пиксели, которые эффективно искажают данные для обучения ИИ-алгоритмов.

 Источник изображения: petapixel.com

Источник изображения: petapixel.com

Стремительный рост популярности генеративных нейросетей, способных создавать изображения по текстовому описанию, также привёл к многочисленным судебным искам со стороны современных художников в адрес компаний, занимающихся разработкой ИИ-алгоритмов. Дело в том, что для обучения генеративных нейросетей обычно используются изображения, опубликованные на разных веб-ресурсах. За счёт этого генеративные нейросети способны рисовать изображения не хуже человека и даже копировать стили известных художников.

Алгоритм Nightshade призван помочь художникам защитить свои работы от сканирования нейросетями. Он особым образом обрабатывает изображения, и, если в дальнейшем они используются для обучения нейросетей, то последние теряют способность должным образом обрабатывать пользовательский запрос и выдают неверный результат. Фактически такая доработка картинок заставляет нейросети неправильно распознавать изображённые на них предметы. Например, там, где нарисованы шляпы, алгоритм распознаёт торты, а сумки — распознаются как тостеры. Повреждённые таким образом данные очень сложно удалить, поскольку разработчикам генеративных алгоритмов придётся кропотливо находить каждый такой фрагмент вручную.

Художники, которые хотят поделиться своими работами в интернете, но при этом также намерены защитить их, могут задействовать Nightshade в сочетании с другим инструментом под названием Glaze (разработан той же группой исследователей и предназначен для модификации изображений таким образом, что нейросеть не сможет эффективно обучаться с их помощью). Согласно имеющимся данным, Nightshade и Glaze будут доступны для бесплатного использования, а первый из них будет иметь открытый исходный код, благодаря чему другие разработчики смогут улучшать его.

YouTube разрабатывает ИИ-инструмент для создания музыкальных треков с голосами известных вокалистов

Согласно сообщению Bloomberg, YouTube в настоящее время разрабатывает инструмент на базе ИИ, который позволит пользователям имитировать голоса известных музыкантов при записи звука. В настоящее время сервис пытается получить у музыкальных компаний права на обучение своей нейросети на песнях из их музыкальных каталогов. Ни один крупный звукозаписывающий лейбл пока не дал согласия, но источники утверждают, что переговоры между сторонами продолжаются.

 Источник изображения: Pixabay

Источник изображения: Pixabay

В прошлом месяце YouTube представил несколько новых инструментов на базе ИИ для авторов, в том числе созданные с помощью нейросети фоновые изображения и видео. Компания планировала включить в эти объявления и новый инструмент для клонирования голосов известных музыкантов, но не смогла вовремя получить разрешения от правообладателей.

Музыка, сгенерированная ИИ, в настоящее время находится в юридической «серой» зоне из-за трудностей с установлением прав собственности на песни, которые воспроизводят уникальный голос исполнителя, но не используют напрямую защищённых текстов или аудиозаписей. В настоящее время с точки зрения существующего законодательства неясно, является ли обучение генеративного ИИ клонированию голоса на музыкальном каталоге звукозаписывающей компании нарушением авторских прав. Тем не менее, это не подорвало интерес к разработке и обучению «музыкальных» нейросетей — в этом году Meta, Google и Stability AI выпустили ИИ-инструменты для создания музыки.

YouTube позиционирует себя в качестве партнёра, который поможет отрасли двигаться вперёд с помощью технологии генеративного ИИ, которую, по данным Bloomberg, приветствуют музыкальные компании. Хотя Alphabet в течение последнего года активно продвигала свои разработки в области генеративного ИИ, далеко не факт, что ей удастся на законных основаниях предоставить создателям YouTube инструменты клонирования голоса на базе ИИ, не вызвав многочисленных исков о нарушении авторских прав.

В настоящее время неясно, помогут ли дискуссии об ИИ-инструменте клонирования голоса YouTube решить возникающие претензии о нарушении авторских прав от звукозаписывающих компаний на фоне увеличения количества треков, созданных с помощью ИИ и подражающих популярным музыкантам. Широкое внимание к этой проблеме было привлечено в начале года, когда созданная ИИ песня Drake стала вирусной в интернете. В то время как некоторые музыканты, такие как Граймс (Grimes), поддерживают музыку, генерируемую ИИ, многие другие, в том числе Стинг (Sting), Джон Ледженд (John Legend) и Селена Гомес (Selena Gomez), призывают к введению правил, защищающих их голоса от копирования.

«Яндекс» представил YandexART — новую нейросеть для создания изображений

Команда разработчиков «Яндекса» представила новую диффузионную нейросеть Yandex AI Rendering Technology (YandexART), которая создаёт изображения и анимацию в ответ на текстовые запросы пользователей.

 Примеры созданных YandexART изображений (источник: пресс-служба «Яндекса»)

Примеры созданных YandexART изображений (источник: пресс-служба «Яндекса»)

YandexART формирует изображения и анимацию методом каскадной диффузии: сначала нейросеть генерирует картинки и кадры в соответствии с запросом пользователя, а затем поэтапно увеличивает их разрешение, насыщая деталями. В качестве обучающего набора данных были задействованы 330 млн изображений с текстовым описанием. Также разработчиками был реализован новый алгоритм распознавания текстов, помогающий нейросети лучше понимать пожелания пользователей.

Отличительной особенностью YandexART является понимание российского культурного кода — нейросеть знает известные места и города страны, выдающихся личностей разных эпох и знакомых с детства персонажей мультфильмов и сказок. Например, Чебурашку, богатырей и Бабу-Ягу.

Нейросеть уже интегрирована в мобильное приложение «Шедеврум» и помогает иллюстрировать рекламные объявления в «Яндекс Бизнесе». Вскоре YandexART появится в «Яндекс Клавиатуре» и других сервисах компании.

«Яндекс Браузер» научился кратко пересказывать видеоролики

Компания «Яндекс» сообщила об очередных доработках своего фирменного браузера и включении функции краткого пересказа русскоязычных видео. Она позволяет быстро ознакомиться с содержанием ролика и понять, есть ли в нём ответ на нужный вопрос.

В основу новой функции положены технологии распознавания речи и генеративная нейросеть нового поколения YandexGPT. Сначала алгоритм конвертирует аудиодорожку в текст с помощью системы распознавания речи, а затем YandexGPT разбивает его на смысловые фрагменты. Нейросеть обобщает каждый из них и указывает таймкод начала блоков, кликнув по которому, можно перейти к интересующему фрагменту видео.

Чтобы получить пересказ ролика, нужно открыть видео в «Яндекс Браузере» и нажать на кнопку «Краткий пересказ». Функция также доступна в поиске «Яндекса» и сервисе краткого пересказа 300.ya.ru.

Согласно данным статистического сервиса LiveInternet.ru, «Яндекс.Браузер» является вторым по популярности веб-обозревателем в Рунете и контролирует 28,3 % рынка. Лидирующую позицию занимает Google Chrome c 51,3 процентами отечественной аудитории (показатели приведены за октябрь 2023 года).

В Android 14 появился ИИ-генератор обоев

Сегодня состоялась презентация смартфонов Pixel 8 и Pixel 8 Pro, а также других аппаратных и программных новинок компании Google. Вместе с этим состоялся релиз мобильной операционной системы Android 14, которая имеет немало новых функций, включая генератор обоев на базе нейросети.

 Источник изображения: Google

Источник изображения: Google

Впервые эта функция была анонсирована в рамках мероприятия Google I/O в мае этого года. Взаимодействие с генератором обоев начинается с выбора категории, например, классического искусства, после чего нужно задать требуемые параметры и алгоритм представит несколько вариантов изображений на их основе. В одном из примеров Google выбирается категория Dreamscape, после чего отмечаются варианты структуры, материала и цвета. В конечном итоге формируется запрос «Дом из растений цвета индиго», после обработки которого алгоритм выдаёт несколько изображений покрытых растениями построек с входной дверью и фиолетовым оттенком.

Первыми функцию генерации обоев смогут испытать в деле обладатели смартфонов Pixel 8 и Pixel 8 Pro. Когда она может появиться на других смартфонах с Android 14, не уточняется. Однако формулировка Google предполагает, что в конечном счёте это всё же произойдёт.

ИИ-генератор обоев — это лишь одна из многих новых функций Android 14. Программная платформа предоставит широкие возможности в плане настройки пользовательского интерфейса, включая экран блокировки, возможность выбора разных шрифтов и цветов, ситуативные виджеты и др. Хотя Android в целом опережает iOS в плане возможностей визуальной настройки, пользователям не всегда легко привести интерфейс к желаемому виду. С выходом Android 14 сделать это будет проще.

Созданная с помощью ИИ песня Дрейка и The Weeknd не получит премию «Грэмми»

Ранее СМИ писали, что песня Heart on My Sleeve, сгенерированная с помощью нейросети на основе вокала Дрейка и The Weeknd, будет претендовать на получение престижной премии «Грэмми». Теперь же, президент Национальной академии искусства и науки звукозаписи Харви Мейсон (Harvey Mason Jr.) заявил, что трек не будет номинирован.

 Источник изображения: Elice Moore / unsplash.com

Источник изображения: Elice Moore / unsplash.com

Господин Мейсон опроверг своё же предыдущее заявление относительно того, что упомянутый трек может получить «Грэмми», поскольку он создавался с участием человека. Ранее на этой неделе Мейсон в беседе с журналистами заявил, что песня Heart on My Steeve «полностью соответствует требованиям, потому что её написал человек».

«Позвольте мне быть предельно ясным: несмотря на то, что она была написана человеком, вокал не был получен законным путём, не было получено одобрение на использование вокала от лейбла или исполнителей, песня не является коммерчески доступной, и поэтому она не может быть включена в список», — рассказал Мейсон в беседе с журналистами.

Напомним, автором композиции стал человек с ником Ghostwriter, который использовал текст собственного сочинения и сгенерированные нейросетью голоса известных исполнителей. Сообщалось, что трек будет претендовать на получение награды сразу в двух номинациях: «Лучшая рэп-песня» и «Песня года» (обе премии традиционно присуждаются автору композиции, а не её исполнителю). Несмотря на то, что Heart on My Sleeve не получит престижную премию, Мейсон дал понять, что в будущем на получение «Грэмми» могут быть номинированы композиции, созданные с помощью искусственного интеллекта.

В платформе «VK Звонки» добавили автоматические субтитры и текстовую расшифровку созвонов

Социальная сеть «ВКонтакте» представила новые функции платформы «VK Звонки», которые будут полезны для тех, кто использует сервис для делового общения или в условиях, когда важно соблюдать тишину. Речь идёт о текстовой расшифровке встреч, которая автоматически переводит звуковую дорожку встречи в текст с сохранением в чате звонка, а также об автосубтитрах, которые дублируют речь участников чата.

 Источник изображения: «ВКонтакте»

Источник изображения: «ВКонтакте»

Функцию текстовой расшифровку может включить любой из участников группового звонка, при этом остальные собеседники получат об этом уведомление. После завершения общения файл с текстом поступит в чат звонка и будет сохранён в специальном разделе в профиле пользователя, включившего текстовую расшифровку. В файле автоматически расставляются тайм-коды и имена говорящих.

Что касается автоматических субтитров, то они будут показываться в реальном времени только у тех пользователей, которые включили эту опцию. Текстовая расшифровка может выполняться одновременно с субтитрами и записью звонка.

Для перевода речи в текст «ВКонтакте» использует собственные нейросетевые разработки, которые соцсеть применяет для расшифровки голосовых сообщений и создания автосубтитров в видео. Для обеспечения высокого качества расшифровки аудиопоток обрабатывается в несколько этапов. Сначала запись очищается от фоновых звуков с использованием интеллектуального шумоподавления, после чего нейросеть распознаёт слова, формируя текст, который потом делит на предложения в соответствии с конкретным спикером. Нейросети постоянно совершенствуются, проходя обучение, в том числе, на актуальной разговорной речи и сленге.

Новыми функциями можно также воспользоваться в сессионных залах и в звонках от имени сообщества. В настоящее время функции доступны только для русского языка, но в дальнейшем будут добавлены и другие языки. Также в ближайшее время планируется запуск новых функций в звонках один на один и возможность настройки администратором того, кто из участников встречи сможет запускать расшифровку.

Как отметила «ВКонтакте», новые функции будут особенно полезны тем, кто использует «VK Звонки» для делового общения, позволяя быстро расшифровать интервью, отправить ключевые тезисы после встречи или рассказать об итогах звонка коллегам, которые не были на встрече. Субтитры будут полезны в ситуации, когда важно соблюдать тишину и у пользователя не оказалось наушников. «Кроме того, это шаг к формированию доступной цифровой среды для слабослышащих пользователей: они смогут участвовать во встречах без ограничений», — подчеркнула пресс-служба соцсети.

Долой формулы и макросы: российская нейросеть SheetsGPT облегчит работу с таблицами в Excel

В России создана нейросеть SheetsGPT, призванная упростить работу с электронными таблицами для всех, кто использует их в своей работе — бухгалтеров, операторов персональных данных, сотрудников маркетплейсов и других специалистов, пишет РИА Новости со ссылкой на информацию пресс-службы платформы Национальной технологической инициативы (НТИ). Нейросеть «понимает» текстовые запросы, поэтому специалистам больше не потребуется прибегать к формулам и писать макросы в Excel.

 Источник изображения: Pixabay

Источник изображения: Pixabay

«Российская команда разработчиков создала систему SheetsGPT на базе собственной нейросети, которая упростит работу бухгалтера, оператора персональных данных, сотрудника маркетплейсов и всех, кто работает с электронными таблицами — персональные данные, отчёты, заказы и продажи и многое другое. В будущем пользователь также сможет вносить изменения в таблицы. Такое решение избавит клиентов от заучивания формул и написания макросов», — рассказали в пресс-службе.

По словам руководителя проекта Антона Аверьянова, пользователю будет достаточно направить нейросети текстовый запрос, который будет обработан серверной частью, после чего человек получит ответ, преобразованный нейросетью в удобный для него вид.

Чтобы получить необходимые данные из электронной таблицы, пользователю необходимо загрузить документ на сайт SheetsGPT и написать запрос, на подготовку ответа на который нейросети потребуется 8–15 секунд. Нейросеть также обладает способностью сопоставлять и создавать срез сразу по нескольким таблицам, получать выборки в виде таблицы. В дальнейшем разработчики намерены добавить опцию редактирования данных в таблицах с помощью SheetsGPT.

«Мы предлагаем принципиально новый подход к работе с данными. Теперь не нужно знать формулы, писать макросы для того, чтобы с ними работать, — вам нужно только написать текстом то, что вы хотите получить», — рассказал Аверьянов.

На данный момент проект находится на стадии прототипа. В ближайшем будущем после проведения тестов разработчики планируют начать продажи продукта конечным потребителям, а также клиентам B2B и B2G-сегментов.

NVIDIA наделила эмоциями неигровых персонажей в играх с помощью ИИ

На выставке Computex 2023 компания NVIDIA представила платформу Avatar Cloud Engine (ACE) for Games, которая позволит сделать умнее неигровых персонажей (NPC) в играх. Представленный инструмент даёт возможность разработчикам создавать собственные ИИ-модели, которые позволят генерировать для NPC естественную речь, диалоги, а также движения. За минувшие месяцы с момента анонса платформы NVIDIA её усовершенствовала, научив создавать эмоциональных персонажей.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

В рамках изначальной демонстрации работы технологии ACE компания показала интерактивную демо-сцену Kairos с неигровым персонажем Джином, владельцем лапшичной, созданную на движке Unreal Engine 5 с технологией трассировки лучей. Сегодня NVIDIA отчиталась, что интегрировала в платформу ACE ИИ-модель NVIDIA NeMo SteerLM. Она позволяет разработчикам игр изменять характер неигровых персонажей, делая их более эмоциональными и реалистичными, что позволяет человеку сильнее погрузиться в мир игры.

Большинство языковых моделей (LLM) разработаны с целью давать только нейтральные ответы. Они лишены возможности эмоциональных имитаций и личностных поведенческих особенностей. Типичным примером таких LLM являются ИИ-чат-боты. В свою очередь с помощью SteerLM языковые модели обучаются давать ответы, соответствующие определённым атрибутам характера, от юмора до креативности и токсичности. При этом все особенности характера NPC можно настроить всего лишь движением нескольких ползунков в интерфейсе SteerLM. С примером использования SteerLM и результатами работы можно ознакомиться на видео ниже, в рамках всё той же интерактивной демо-сцены NVIDIA Kairos.

Как можно заметить, ответы NPC значительно отличаются, в зависимости от выбранных атрибутов характера и уровня интенсивности. Неигровой персонаж может обидеться на реплику игрока, попытаться более подробно объяснить ситуацию, а также сделать это с юмором и креативностью. При использовании NVIDIA NeMo SteerLM можно изменять существующие черты характера, а также добавлять новые, создавая по-настоящему уникальных неигровых интерактивных персонажей под определённую сцену в игре или локацию.

Эмоциональный отклик — не единственный вариант использования SteerLM в играх. С помощью этой технологии разработчики могут создавать сразу несколько персонажей, используя одну LLM. Кроме того, разработчики могут создавать так называемые атрибуты фракций, чтобы согласовать реакции тех или иных NPC с развитием внутриигровой истории, позволяя неигровым персонажам динамически изменяться в характере с учётом изменяющихся событий в игре.

В приведенной выше демо-сцене для озвучивания неигрового персонажа Джина использовался синтезатор текста в речь ElevenLabs. С помощью ACE разработчики могут добавлять свои собственные компоненты в конвейер ACE, расширяя его возможности.


window-new
Soft
Hard
Тренды 🔥
В Японии назревает противостояние двух приложений в духе Pokemon Go, но со столбами электропередач вместо покемонов 2 ч.
Релиз СУБД Platform V Pangolin 6.1: упрощённая миграция с зарубежных решений и повышенная производительность 3 ч.
Появились первые данные об успехах сериала Fallout — миллионы просмотров за рубежом и популярность в России 4 ч.
Блокировка TikTok в США одобрена Сенатом и вскоре станет законом 4 ч.
Сверхспособности, кошачий стелс и механика страха: инсайдер раскрыл детали мрачной Assassin's Creed Codename: Hexe про охоту на ведьм 4 ч.
SAS Institute представила новые инструменты для разработчиков ИИ-приложений — Viya Copilot и SAS Viya Workbench 4 ч.
Вышел Unreal Engine 5.4: улучшение TSR, повышенная производительность и ускоренная трассировка лучей 6 ч.
Институт системного программирования РАН и «Базис» расширяют работу по повышению безопасности российских облачных решений 6 ч.
IBM намерена купить поставщика решений для управления инфраструктурой HashiCorp 6 ч.
Google вновь отложила блокировку сторонних cookie в браузере Chrome 9 ч.