Сегодня 09 января 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → captioning ai

LG представила нейросеть Captioning AI, которая создаёт текстовые описания для изображений

Одно из подразделений компании LG представило генеративную систему ИИ Captioning AI, которая может распознавать элементы изображения и генерировать для них описания и ключевые слова — трудно переоценить пользу, которую подобная технология способна оказать, например, при систематизации баз фотоснимков крупных компаний.

 Возможно, не все изображения будет легко описать. Источник изображения: Rick Rothenberg/unsplash.com

Возможно, не все изображения будет легко описать. Источник изображения: Rick Rothenberg/unsplash.com

Представители LG AI Research, занимавшейся разработкой Captioning AI, выступили на мероприятии Computer Vision and Pattern Recognition 2023, крупнейшей в мире конференции, посвящённой «компьютерному зрению» — она проходила в воскресенье в Ванкувере (Канада). Как сообщили в LG, сервис основан на разработанной LG AI Research технологии Zero-shot Image Captioning, позволяющей ИИ «понимать» и описывать объекты или сцены, которые нейросеть оценивает впервые без дополнительных подсказок, на основе своего предыдущего опыта — так же, как и люди.

В компании объяснили, что технология отличается от ИИ-сервисов вроде Midjourney, в которых всё происходит ровно наоборот — пользователи вводят текст или загружают картинку, на основе которых ИИ генерирует собственное творение. Создание «субтитров» к картинкам может показаться довольно лёгким, поскольку концепция не нова. Тем не менее, технология вышла на новый уровень. Например, искусственный интеллект действительно может делать выводы и описывать то, чего он не «видел» никогда раньше — посмотреть на пейзаж или человека и вычислить, о каком именно месте идёт речь. Технология позволяет распознавать на изображении фон, персонажей и даже активность и описывать взаимодействие элементов.

 Источник изображения: LG

Источник изображения: LG

Captioning AI может генерировать текстовые описания и ключевые слова для 10 тыс. изображений менее чем за два дня, что в теории позволяет повысить эффективность и продуктивность для компаний, которым необходимо справляться с большими массивами изображений. В среднем система может генерировать 5 предложений и 10 ключевых слов за 10 секунд.

Сервис разработан при сотрудничестве с Shutterstock, одной из крупнейших платформ для размещения визуального контента — от изображений до видео. LG AI Research сотрудничала с этой американской компанией ранее и намерена делать это и впредь расширяя сотрудничество и с другими партнёрами. Как сообщили в Shutterstock, технология Caption AI развивается благодаря «раннему доступу» к программе десяти глобальных клиентов.


window-new
Soft
Hard
Тренды 🔥
Assassin’s Creed Shadows скрылась от февральских конкурентов — Ubisoft опять перенесла релиз игры 2 ч.
На Пхукете туристам разрешили платить криптовалютой за товары и услуги 4 ч.
Square Enix показала трейлер ПК-версии Final Fantasy VII Rebirth и объявила системные требования для игры в 4K и 60 FPS 4 ч.
xAI выпустил самостоятельное приложение для фривольного ИИ-бота Grok — пока в тестовом режиме и только на iOS 5 ч.
«В этом была бы трагедия Дженсена»: бывший сценарист Eidos Montreal рассказал, каким могло стать продолжение Deus Ex: Mankind Divided 5 ч.
Microsoft подтвердила презентацию Developer_Direct — Doom: The Dark Ages, игра-сюрприз и не только 5 ч.
Медиаплеер VLC получил ИИ-генератор субтитров с переводом на более чем 100 языков — он работает оффлайн 6 ч.
Meta освободила от стандартной модерации рекламодателей, которые приносят больше всех денег 8 ч.
Microsoft вернула старый ИИ-генератор картинок Bing Image Creator, потому что новый работал хуже 8 ч.
Российское подразделение Oracle подало в суд на инициаторов своего банкротства 9 ч.
DJI представила сверхлёгкие экшен-камеры O4 Air для дронов — трансляция видео в 4K на расстояние до 15 км с задержкой 15 мс 3 ч.
Astrohaus представила клавиатуру Freewrite Wordrunner со счётчиком слов и механическим таймером 3 ч.
PowerColor показала свои Radeon RX 9070 XT и RX 9070 в версиях Red Devil, Hellhound и Reaper 4 ч.
Xpeng Aero HT представила на CES 2025 модульный летающий автомобиль Land Aircraft Carrier, который стоит меньше $300 000 4 ч.
Мощнейший в истории гамма-всплеск может пролить свет на новую физику — аксионы и тайну тёмной материи 4 ч.
Cooler Master представила кулеры в стиле мощных автомобильных двигателей и другие новинки 5 ч.
Lenovo обновила профессиональные мониторы ThinkVision: от 27 до 34 дюймов, QHD или WQHD и 120 Гц 5 ч.
Zotac показала прототип портативной игровой консоли Zone Gaming на чипе AMD Ryzen AI 9 HX 370 5 ч.
SoftBank и Arm заинтересовались покупкой Ampere, но о переговорах говорить рано 5 ч.
Palit представила компактный ИИ-компьютер Pandora на базе Nvidia Jetson Orin NX Super 5 ч.