Сегодня 06 мая 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → adobe

ИИ-модель DragGAN способна поворачивать головы и менять позы людей и животных на фото, словно в 3D

Исследователи из Института Макса Планка представили ИИ-модель DragGAN, которая позволяет манипулировать изображениями практически в режиме реального времени. Инструмент похож на функцию «Искривление» в Photoshop, но гораздо мощнее, так как пользователь не просто перемещает пиксели, а использует искусственный интеллект для повторного создания базового объекта. Более того он позволяет вращать изображения, как если бы они были в 3D-формате.

 Источник изображения: arxiv.org / Drag Your GAN

Источник изображения: arxiv.org / Drag Your GAN

DragGAN может не только изменять размеры объекта на изображении или превращать улыбку в хмурое выражение лица простым щелчком мыши, но и поворачивать его таким образом, как если бы это была 3D-модель. Например, можно изменить направление лица человека. Приведённые ниже видео взяты с сайта исследовательской группы. Полный текст исследовательской работы можно прочитать на сайте arXiv.

Как отмечает команда разработчиков, то, что действительно интересно в этой работе, это не манипуляция изображениями как таковая, а пользовательский интерфейс. Мы уже давно можем использовать инструменты ИИ, такие как GANs, для создания реалистичных изображений, но большинству методов не хватает гибкости и точности. Вы можете сказать генератору изображений ИИ: «Сделай изображение льва, наблюдающего за саванной», и получите его, но может оказаться, что лев сидит не совсем в той позе, которая вам нужна.

DragGAN предлагает решение этой проблемы. Интерфейс точно такой же, как и в традиционных редакторах изображений, но вместо того, чтобы просто размазывать существующие пиксели, модель создаёт объект заново. Исследователи пишут: «Наш подход не только может создавать окклюзию объектов, но и может деформировать их в соответствии с жёсткостью, например, при сгибании ноги лошади».

Пока это только демонстрация, которая не даёт оценить технологию полностью, но это ещё один пример того, как сделать манипуляции с изображениями с помощью ИИ более доступными.

ИИ от Adobe автоматизирует добавление тегов в PDF-файлы

Компания Adobe Systems анонсировала новую функцию Auto-Tag, которая автоматизирует процесс добавления тегов для PDF-файлов и упростит их для понимания людьми с ограниченными возможностями. Нововведение будет доступно в API для разработчиков и Acrobat Pro/Reader.

 Источник изображения: Rubaitul Azad/unsplash.com

Источник изображения: Rubaitul Azad/unsplash.com

PDF-файлы имеют встроенные метаданные, предоставляющие структурную информацию — заголовки, абзацы, списки и таблицы — в документах для вспомогательного софта, такого как программы чтения с экрана. Однако пометка цифровых документов для обеспечения совместимости может занять много времени, особенно для документов со сложным макетом. Для компаний с накопившимися старыми файлами, в которых отсутствуют надлежащие метаданные, это также является времязатратным процессом. По оценкам Adobe Systems, более 90 % PDF-файлов недоступны для людей с ограниченными возможностями.

Adobe PDF Accessibility Auto-Tag API автоматизирует процесс добавления тегов. Компания заявляет, что её программное обеспечение на базе ИИ-платформы Sensei будет указывать правильный порядок чтения для вспомогательных технологий, экономя время компаний и, что более важно, делая PDF-файлы более удобными для чтения людьми с ограниченными возможностями. Adobe заверяет, что ИИ сможет быстро просматривать старые документы, не имеющих надлежащей структуры.

Auto-Tag появится в Acrobat Pro в июне и предложит автоматическое структурирование метаданных в приложении без дополнительной платы для всех подписчиков. Осенью эта функция появится и в Acrobat Reader.


window-new
Soft
Hard
Тренды 🔥
«Рассчитываем на понимание»: в Москве предупредили об ограничениях в работе мобильного интернета с 7 по 9 мая 4 мин.
Philips представила киберспортивный монитор Evnia 25M2N5200U: 24,5 дюйма, 1080p и 390 Гц за $440 8 мин.
Китайскому «супероружию» против подводных кабелей на поверку оказалось не меньше сотни лет 23 мин.
Габаритная Radeon RX 9060 XT с 16 Гбайт видеопамяти появилась в бразильском магазине 2 ч.
ЦОД «Авантаж» сертифицирован по УЗ-1 3 ч.
Khazna из ОАЭ намерена захватить четверть рынка ЦОД Саудовской Аравии 3 ч.
LG представила гибкий OLED с по-настоящему всплывающими окнами — их можно пощупать и затолкать обратно 3 ч.
Samsung наконец начала массовый выпуск 12-ярусных стеков HBM3E для Nvidia 3 ч.
ЕС необходимо учетверить инвестиции в полупроводники, чтобы не упустить рынок чипов 3 ч.
В Китае пара беспилотников вызвала дождь по требованию — это шаг к управлению погодой 4 ч.