Теги → машинное зрение
Быстрый переход

Facebook научил свой ИИ распознавать товары на фотографиях в соцсети, чтобы вы могли их купить

Компания Facebook сегодня запустила «универсальную модель распознавания продуктов», которая использует искусственный интеллект (ИИ) для идентификации широкого спектра потребительских товаров: от мебели и одежды до дорогих автомобилей. Это первый шаг к будущему, когда предметы на каждом изображении на сайте соцсети можно будет сначала идентифицировать, а потом купить.

«Мы хотим, чтобы всё и вся на нашей платформе было доступно для покупки, когда этого захочется» — сказал Манохар Палури (Manohar Paluri), руководитель отдела прикладного компьютерного зрения в Facebook. Возможность распознавания товаров — первое новшество на базе ИИ в серии обновлений для платформы электронной коммерции Facebook в ближайшем будущем. В конечном итоге в соцсети объединятся искусственный интеллект, дополненная реальность и даже цифровые помощники, что можно будет выразить термином «социальный» шопинг. Facebook и Instagram также запустили сегодня платформу под названием Shops, которая позволяет малому бизнесу создавать бесплатные витрины для своих магазинов в Facebook и Instagram.

Facebook не стала первой на поприще интернет-торговли с задействованием средств ИИ. Например, Amazon уже создала своего собственного помощника на базе ИИ области одежды/моды, правда теперь о нем мало что слышно. А использование машинного зрения для идентификации и покупки товаров стало реальностью ещё, по крайней мере, со времен Amazon Fire Phone. Тем не менее, онлайн-торговые платформы, такие как eBay, уже используют искусственный интеллект для ускорения работы листинга товаров на продажу, а Amazon — одна из многих фирм, которая запустила свой собственный «Shazam для одежды» с применением технологии машинного обучения.

Компания Facebook заверяет, что её собственные инструменты отличаются от разработок конкурентов своим охватом и точностью. Новый инструмент распознавания товаров, который называется GrokNet, может идентифицировать десятки тысяч различных атрибутов на изображении: начиная от цвета и размера предметов, и заканчивая определением конкретных брендов.

ИИ GrokNet уже был развернут на Facebook Marketplace, где он помогает пользователям быстро определять товары для продажи, и генерирует короткие описания. Например, можно загрузить в соцсеть фотографию своего дивана, и онлайн-платформа предложит назвать его для продажи как «черный, кожаный, секционный диван».

В разработке этих инструментов компании Facebook, конечно, помогает прямой доступ к фотографиям пользователей на Marketplace. GrokNet обучается на колоссальной базе данных порядка 100 миллионов изображений. Facebook говорит, что эти данные жизненно важны для создания системы машинного зрения, которая сможет идентифицировать товары на фотографиях при плохом освещении и с сомнительных ракурсов.

Достоверно не известно, насколько точно работает GrokNet. Компания заверяет, что ИИ может идентифицировать 90 процентов изображений в Marketplace, в категории «Дом и сад». Однако Facebook не разглашает аналогичной статистики для других категорий продуктов.

Платформа NVIDIA Isaac Sim 2020.1 ускорит разработку и симуляцию роботов

Во время заочного доклада #GTC20 исполнительный директор и основатель NVIDIA Дженсен Хуанг (Jensen Huang) продемонстрировал первую в отрасли платформу для разработки искусственного интеллекта роботов с симуляцией, навигацией и манипуляциями.

На представленном видео показано, как модель робота NVIDIA Kaya толкает жёсткие тела и мягкие пляжные мячи, модель манипулятора управляется с корзинами, лотками и другими предметами и наконец логистический робот #robot занимается транспортировкой поддона с грузом, учитывая внешние препятствия и движения аналогичных роботов. Симуляции автоматизированных действий, произведённые в Isaac SIM 2020.1, затем с тем же успехом выполняются в реальных условиях.

Графические процессоры ускоряют машинное обучение, восприятие и планирование с использованием глубинных нейронных сетей. Моделирование процессов позволяет ускорить разработку, обучение и тестирование алгоритмов роботов.

Isaac SDK включает каркас приложений Isaac Engine, пакеты с высокопроизводительными робототехническими алгоритмами Isaac GEM, эталонные приложения Isaac Apps и мощную платформу моделирования Isaac Sim for Navigation. Эти инструменты и интерфейсы API ускоряют разработку роботов, упрощая внедрение искусственного интеллекта для восприятия пространства и навигации.

Набор инструментов разработчиков оптимизирован для систем NVIDIA Jetson AGX Xavier, представленных в декабре 2018 года и обеспечивающих хорошее сочетание производительности и энергоэффективности автономных машин. JetPack SDK включает в себя NVIDIA CUDA, DeepStream SDK, библиотеки для глубинного обучения, компьютерного зрения, ускоренных вычислений и мультимедиа.

Isaac SDK использует рабочие процессы машинного обучения и непрерывного тестирования при исполнении Isaac Sim на системах NVIDIA DGX, разработанных под требования ИИ и аналитики. Эти полностью интегрированные решения предназначены, чтобы предоставить учёным, работающим с данными, самые мощные инструменты для ИИ и машинного обучения.

Набор инструментов разработчиков и платформа Isaac SIM 2020.1 станут доступны позже в этом месяце.

Одноплатный компьютер Boardcon EM1808 подходит для обработки ИИ-задач

В ближайшее время начнутся продажи одноплатного компьютера Boardcon EM1808, на базе которого разработчики смогут реализовывать различные проекты в области искусственного интеллекта (ИИ) и машинного зрения.

Решение состоит из базовой платы и вычислительного CPU-модуля. Применён процессор Rockchip RK1808 с двумя ядрами Cortex-A35 (до 1,6 ГГц) и нейронным блоком, обеспечивающим производительность до 3,0 TOPS (триллионов операций в секунду).

Оснащение включает 2 Гбайт оперативной памяти LPDDR3, флеш-модуль eMMC на 8 Гбайт и слот для карты microSD. Есть возможность подключения твердотельного накопителя M.2 NVMe SSD.

Предусмотрены сетевой контроллер Gigabit Ethernet на базе Realtek RTL8211E, адаптеры беспроводной связи Wi-Fi 4 (802.11b/g/n) и Bluetooth 4.0. Опционально могут быть установлены модуль 4G/LTE и приёмник спутниковой навигационной системы GPS.

Есть порты USB 2.0 и USB3.0, набор 3,5-миллиметровых аудиоразъёмов, гнездо RJ45 для сетевого кабеля. Говорится о поддержке интерфейсов MIPI CSI & DSI, I2S, UART и др.

Базовая плата имеет размеры 131 × 91 мм, вычислительный модуль — 55 × 35 мм. Говорится о совместимости с операционными системами на ядре Linux. О цене сведений пока нет. 

Видео: автопилот Tesla скоро сможет реагировать на светофоры

В ноябре прошлого года Tesla добавила функцию, которая позволяла автопилоту обнаруживать дорожные конусы, что улучшило возможности машины ориентироваться при движении по улицам. Теперь, похоже, компания работает над ещё одной функцией по улучшению автопилота своих автомобилей.

Новая функция позволит автомобилям Tesla считывать сигналы светофора и предпринимать соответствующие действия. Согласно видео, опубликованному в Твиттере, автопилот Tesla может заметить светофор с расстояния около 150 метров и даже на короткое время выводит подсказку. При обнаружении светофора на экране появляется всплывающее окно с сообщением о том, что машина остановилась в рамках регулировки уличного движения.

Непонятно, может ли автопилот видеть светофоры дальше, но 150 метров кажется разумным расстоянием, чтобы безопасно замедлить движение перед светофором. Пока не ясно, когда будет доступна новая функция, но одно можно сказать: наверняка она будет развёрнута через обновления для существующих автомобилей Tesla.

Tesla сделала поглощение, которое поможет ей развивать машинное зрение

На первых этапах электромобили Tesla в своей способности заменять водителя в определённых ситуациях полагались на компоненты компании Mobileye, которая позже стала частью корпорации Intel. Разрыву отношений Tesla и Mobileye способствовала одна из первых аварий со смертельным исходом, которая заставила задуматься о безопасности систем активной помощи водителю, применяемых американским производителем в то время. После «развода» с Mobileye компания Tesla обратила внимание на компоненты NVIDIA, но в апреле текущего года продемонстрировала всему миру характеристики процессора собственной разработки, который должен лечь в основу платформы третьего поколения, устанавливаемой на все серийные электромобили марки с весны этого года.

Источник изображения: Forge3

Источник изображения: Forge3

NVIDIA тогда попыталась сделать вид, что обиделась, и начала напоминать о быстродействии собственной платформы DRIVE PX в актуальном поколении, говоря о её превосходстве над решением Tesla. Однако теперь уже очевидно, что американский производитель электромобилей намерен двигаться собственным путём при создании компонентов, необходимых для полной автоматизации процесса управления транспортными средствами. Как сообщает CNBC, на работу в Tesla недавно перешёл основатель компании DeepScale, которая специализировалась на разработке высокоточных систем машинного зрения с использованием процессоров с низким уровнем энергопотребления. Источник также подтверждает, что Tesla купила DeepScale, хотя подробностей об условиях сделки не сообщается.

Ориентация на использование относительно недорогих процессоров для построения систем машинного зрения выгодна компании Tesla, поскольку это не только позволяет снизить их себестоимость, но и заложить необходимую для обеспечения надёжности избыточность подобных узлов. Илон Маск (Elon Musk) не раз публично утверждал, что для уверенной работы «автопилота» достаточно данных, получаемых ультразвуковыми датчиками и камерами, а оптические радары («лидары») в этом смысле избыточны, не очень удобны с компоновочной точки зрения, а также дороговаты в массовом применении. Разработки DeepScale наверняка позволят Tesla усовершенствовать технологии обработки изображений, получаемых бортовыми камерами электромобилей.

Сбербанк и АФК «Система» планируют вложиться в софт для беспилотных автомобилей

На Восточном экономическом форуме Алексей Нащекин, генеральный директор «Национальных телематических систем» (НТС), сообщил, что через 2-3 года в России заработают беспилотные грузовые перевозки. Сначала грузовики освоят маршрут «Москва–Санкт-Петербург» по новой скоростной автомагистрали М11. Проект уже прошел тестирование на полигоне в Казани.

НТС разработала аппаратную и программную части самостоятельно.

«Здесь полностью наша российская разработка, когда работает не только машина сама по себе с машинным зрением. А когда работает весь комплекс, — работает «умная дорога» и беспилотник работают в связке», — рассказал Нащекин.

Интерес к новой технологии проявил Сергей Яворский, генеральный директор Volvo Vostok. Он заявил, что компания готова поучаствовать в тестировании беспилотного тягача.

Инвесторы полагают, что в России таким образом сформируется новая и перспективная отрасль. Сегодня стало известно, что Сбербанк и АФК «Система» планируют вложиться в разработчика софта для беспилотников Cognitive Technologies. По мнению Александра Лупачева, директора по инвестициям Russia Partners Advisers, для них Cognitive Technologies – это прежде всего возможность расширить свои компетенции в области ПО для машинного зрения. Эксперт оценивает проект в $10 млн, основываясь исключительно на ценности технологий. Ранее Сбербанк и АФК «Система» вложились в разработчика систем машинного зрения VisionLabs через Sistema_VC.

В 2016 году в состав Cognitive Technologies вошла компания Cognitive Pilot (ООО «Когнитив-пилот»), производитель беспилотного транспорта. В августе 2019 года стало известно, что Cognitive Pilot вместе с Hyundai Mobis (входит в Hyundai Motor Group) планирует разработать программный модуль для автономного вождения, а также софт для распознавания пешеходов, автомобилей, велосипедистов и мотоциклистов.

Cognitive Technologies планирует выйти на международный рынок автономного транспорта, где, по мнению инвестиционного директора Российской венчурной компании Алексея Басова, скоро появятся новые «единороги».

Инженеры Google создали систему для распознавания жестов для мобильных устройств

Отслеживание движения и формы рук в режиме реального времени является основной составляющей для систем управления при помощи жестов и программ-переводчиков с языка жестов на понятную нам речь, не говоря уже об активном использовании данной технологии в сфере дополненной и виртуальной реальности. Такое количество проблем и задач в данной области побудило учёных из Google попытаться разработать новый подход в сфере компьютерного зрения для восприятия человеческих рук, который смог бы максимально использовать современные технологии машинного обучения. В итоге исследователям удалось в эксперименте при помощи мобильного телефона распознать 21 точку зафиксированную на руке комбинацию (или нескольких руках одновременно) в рамках одного кадра и затем динамически отслеживать их изменения, считывая заранее определённые жесты в произвольной последовательности.

Исследователи из лаборатории Google AI выложили в открытый доступ реализацию системы распознавания жестов, способную захватывать и считывать движения человеческой ладони через камеру мобильного устройства

Исследователи из лаборатории Google AI выложили в открытый доступ реализацию системы распознавания жестов, способную захватывать и считывать движения человеческой ладони через камеру мобильного устройства

Google представила новую технологию на конференции по компьютерному зрению и распознаванию образов, проходившей в этом году в июне в Лонг-Бич, Калифорнии, и недавно внедрила её в MediaPipe, кросс-платформенной фреймворк для машинного обучения с моделями для распознавания лиц, рук, волос и различных объектов окружающего мира, при этом исходный код и инструкции по использованию доступны для всех желающих на GitHub.

«Способность воспринимать форму и движение рук может стать жизненно важным компонентом для улучшения взаимодействия с пользователем в различных технологических областях и платформах», — пишут инженеры-исследователи Валентин Базаревский (Valentin Bazarevsky) и Фан Чжан (Fan Zhang) в своём блоге. «Мы надеемся, что предоставленная нами сообществу исследователей и разработчиков технология для восприятия рук приведёт к появлению различных творческих вариантов её использования, а также к стимулированию появления новых приложений и направлений исследований в данной области».

Новая технология Google включает в себя три модели искусственного интеллекта, работающих во взаимосвязи: детектор ладони, который команда назвала BlazePalm, чья задачи анализировать кадр и возвращать ограничивающий прямоугольник, в котором находится ладонь человека; модель для разметки ладони, которая анализирует область изображения, полученного от BlazePalm, и возвращает набор трёхмерных точек, образующих скелет руки; непосредственно моде, распознающая жесты, которая классифицирует ранее полученную конфигурацию из точек и сопоставляет их с тем или иным жестом.

Распознать на изображении руки — это непростая задача. BlazePalm вынужден решать её в условиях отсутствия функции, позволяющей отличать открытые и закрытые положения рук. Чтобы решить эту задачу, команда обучила детектор обнаруживать ладони, а не сами руки, поскольку отличить небольшой ограниченный объект, такой как кулак, обычно легче, чем обнаружить руки или пальцы. В качестве дополнительного преимущества BlazePalm также хорошо работает в граничных случаях, например, распознавая ладони при рукопожатии и генерируя ограничивающие рамки для дальнейшей работы алгоритма.

После обнаружения области, где находится ладонь человека, в дело вступает модель разметки, которая локализует 21 трёхмерную точку, позволяющих с высокой точностью определить положение каждого пальца руки. Для обучения данной модели потребовалось 30 000 изображений ладони с помеченными вручную точками, а также создание синтетической модели руки, которую размещали на различном фоне.

Последний шаг в работе алгоритма — это система распознавания жестов, которая определяет состояние каждого пальца по углам, образованных суставами, и сопоставляет положение пальцев рук с предварительно определёнными вариантами жестов.

Отдельные задачи, такие как обрезка кадра и рендеринг, выполняют исключительно на графических картах, а детектор ладони работает только по мере необходимости, так как большую часть времени местоположение руки в последующих кадрах определяется исходя из вычисленных ранее ключевых точек руки. Только когда достоверность считывания жестов опускается ниже определенного порога, модель обнаружения ладони повторно применяется ко всему кадру. Всё это позволяет оптимизировать производительность работы алгоритма. В будущем Базаревский, Чжан и их коллеги планируют развивать данную технологию и сделать отслеживание ещё более надежным и стабильным, а также увеличить количество поддерживаемых жестов.

Сотрудник Amazon сделал дверцу на ИИ для кота, чтобы тот не нёс добычу в дом

Машинное обучение может стать существенным дополнением к арсеналу любого изобретателя-умельца, помогая решать небольшие проблемы, с которыми не может справиться ни один коммерческий гаджет.

Для инженера компании Amazon Бена Хэмма (Ben Hamm) эта проблема заключалась в том, что его «милый кровожадный кот» регулярно приносил домой мёртвую или полуживую добычу после охоты и будил его посреди ночи, чтобы похвастать своими достижениями.

Чтобы не дать коту следовать его привычкам, Хэмм подключил дверцу для кота во входной двери к камере с поддержкой ИИ (камера DeepLens производства Amazon) и системе блокировки на базе Arduino.

Благодаря загруженным алгоритмам машинного зрения, разработанным самим Хэммом, камера определяет, несёт ли кот добычу в зубах. Если ответ положительный, дверца для кота блокируется на 15 минут, о чём Хэмм получает сообщение.

В России начинается эксплуатация поездов с машинным зрением

Компания «Российские железные дороги» (РЖД), как сообщает сетевое издание «РИА Новости», получила первый скоростной электропоезд «Ласточка», оборудованный системой машинного зрения.

Фотографии РЖД

Фотографии РЖД

Сейчас все пассажирские поезда, курсирующие по путям общего пользования в России, управляются машинистом. Новая система открывает путь для внедрения технологий самоуправления.

Сообщается, что «Ласточка» со средствами машинного зрения передана РЖД заводом «Уральские локомотивы». По сути, речь идёт о внедрении системы искусственного интеллекта, которая сможет отслеживать обстановку на железнодорожных путях.

Электропоезд оборудован комплексом специализированных датчиков для получения информации об окружающей обстановке. Это, в частности, видеокамеры, тепловизоры и лидары.

Система способна распознавать различные объекты на пути следования. Причём дальность действия комплекса достигает 1,5 километра.

«Системы "машинного зрения" и точного позиционирования на основе технологии автоведения являются подготовительными этапами внедрения беспилотных технологий. Мониторинг и анализ работы новых систем позволит на основе полученных данных проработать возможности для внедрения технологий вождения подвижного состава без машинистов», — отмечает «РИА Новости». 

ИИ поможет дронам ориентироваться в условиях с ограниченным пространством

Современные беспилотники от таких компаний, как DJI и Parrot, уже давно имеют собственные инструменты для избежания столкновений с элементами ландшафта, но когда дроны сталкиваются с обилием препятствий и крайне ограниченным пространством, например, в лесу, автономная навигация затруднена и стандартные алгоритмы уже не справляются. Вот почему ученые из Intel Labs и мексиканского Центра перспективных исследований при Национальном политехническом институте попытались решить данную проблему при помощи машинного обучения и набора 3D-датчиков.

Исследователи из Intel Labs и мексиканского Центра перспективных исследований при Национальном политехническом институте при помощи машинного обучения, 3D-датчиков и модуля одометрии научили дронов ориентироваться в условиях с ограниченным пространством, таких как лес или складские помещения

Исследователи при помощи машинного обучения, 3D-датчиков и модуля одометрии научили дроны ориентироваться в условиях с ограниченным пространством

Исследователи поделились результатами проделанной работы в статье «Автономная навигация беспилотных летательных аппаратов в неизвестных загроможденных средах», опубликованной на сервере препринтов Arxiv.org, где утверждается, что в проведённом ими тестировании новый алгоритм навигации, проверенный на дронах Intel Ready to Fly, продемонстрировал отличную производительность.

«Автономная навигация в неизвестном окружении с ограниченным пространством является одной из фундаментальных проблем в робототехнике, особенно в задачах по поиску и спасанию, сбору информации и проверки промышленных и гражданских сооружений», — написали соавторы. «Хотя картографирование, планирование и генерацию траекторий можно считать давно изученными задачами, которые можно решить с учётом определенных комбинаций роботизированных платформ и окружений, системы, объединяющие все эти инструменты для навигации дронов, всё еще отсутствуют».

Новая система навигации использует набор 3D-датчиков и модуль одометрии и состоит из трёх компонентов: 1 — алгоритм, который создаёт карту пространства при помощи датчиков глубины,  2 — модель, которая генерирует траектории безопасные для навигации, учитывая ограничения поля обзора, и 3 — модель, которая планирует непосредственное передвижение беспилотника по безопасному маршруту. На этапе картирования алгоритм формирует облако точек, а затем добавляет его к отображению на карте занятого пространства беспилотника. Данные об окружении собираются в режиме реального времени и на их основе непрерывно просчитываются варианты возможных траекторий, чтобы выбрать наиболее короткую и надёжную из них, при этом система пытается обеспечить постоянную ориентацию дрона в пространстве таким образом, чтобы датчики получали максимум информации.

Чтобы проверить работу своего решения, исследователи провели эксперименты как в реальных условиях, так и в виртуальной среде, используя фреймворк Robotic Operating System Kinetic. Они сообщают, что в одном из тестов время, необходимое дрону для начала движения в заданных условиях, составило 3,37 миллисекунды по сравнению со стандартными алгоритмами, где ему потребовалось 103,2 миллисекунды  в одном варианте и 35,5 миллисекунды в другом, а на составление карты пространства и  расчёт траектории движения потребовалось 0,256 миллисекунды против 700,7 и 2,035 миллисекунды.

Конечно, пока ещё новая система не идеальна. Команда отмечает, что их алгоритм имел тенденцию в тестах генерировать несколько более длинные маршруты, чем оптимальные, которые можно было бы использовать при ручном управлении, и что он не смог достичь целевой точки назначения в симуляции лабиринта с очень тесными пространствами. Тем не менее, учёные считают, что их работа в будущем может привести к появлению решений, которые объединят инструменты по расчёту траектории при помощи сканирования пространства и модели для динамического предсказания препятствий, что поможет дронам значительно более эффективно ориентироваться в сложных условиях.

На видео ниже вы можете наглядно посмотреть на тестирование системы.

Nikon заинтересовалась машинным зрением и глубоким обучением

Корпорация Nikon объявила об инвестициях в канадский стартап wrnch, который специализируется на разработке технологий машинного зрения и глубокого обучения.

Фотографии Reuters

Фотографии Reuters

Фирма wrnch была основана в 2014 году. Компания предлагает инструменты и комплекты для разработчиков (SDK), которые позволяют компьютерам видеть и распознавать движения и активность людей.

Сообщается, что в рамках соглашения Nikon окажет wrnch финансовую поддержку в размере 7,5 миллиона долларов США. Средства будут направлены на разработку новых программных решений.

Благодаря сотрудничеству с wrnch корпорация Nikon рассчитывает расширить возможность автоматической съёмки в своих камерах. Речь идёт прежде всего о съёмке спортивных событий.

Кроме того, использование машинного зрения и глубокого обучения поможет Nikon реализовать новые интеллектуальные функции в своих устройствах.

Добавим, что рынок глубокого обучения и искусственного интеллекта (ИИ) быстро развивается. Такие средства позволяют автоматизировать выполнение многих рутинных операций. К примеру, компании и организации часто внедряют чат-сервисы на базе ИИ, рекомендательные платформы, а также «умные» системы анализа информации. 

NVIDIA STEAL поможет ИИ лучше определять границы у объектов реального мира

Исследователи из NVIDIA, Университета Торонто и Института по изучению искусственного интеллекта Vector в Торонто разработали метод для более точного обнаружения границ, отделяющих одни объекты на изображениях от других. Эта технология может улучшить работу существующих моделей компьютерного зрения и помочь маркировать данные для обучения систем искусственного интеллекта. Например, в экспериментах, проведённых исследователями, STEAL (Semantically Thinned Edge Alignment Learning) позволяет повысить точность одной из современных моделей прогнозирования семантических границ CASENet на 4 %. При этом стоит отметить, что более точное распознавание границ у объектов может иметь приложение для самых разных задач компьютерного зрения, начиная от стандартных по обнаружению и классификации до генерации изображений и трёхмерного моделирования.

Исследователи из NVIDIA, Университета Торонто и Института Vector разработали модель, которая может помочь существующим системам машинного зрения с определением границ реальных объектов и их классификации

Исследователи из NVIDIA, Университета Торонто и Института Vector разработали модель, которая может помочь существующим системам машинного зрения с определением границ реальных объектов и их классификацией

STEAL обнаруживает границы объектов в пикселях при помощи метода, который исследователи называют «активным выравниванием». Как фреймворк он может применяться для улучшения существующих свёрточных нейронных сетей и моделей машинного зрения. Также учёные считают, что их разработка может помочь другим исследователям более эффективно маркировать или аннотировать данные для обучения их нейронных сетей. Чтобы доказать это, метод STEAL был использован для уточнения Cityscapes, набора визуальных данных в рамках городской среды, впервые представленного на конференции Computer Vision and Pattern Recognition (CVPR) в 2016 году, при этом удалось добиться увеличения точности сегментации в отдельных категориях до 1,2 %.

Пример работы STEAL в динамике

Пример работы STEAL в динамике

«Мы обнаружили, что наши результаты по предсказанию границ у объектов значительно лучше, чем те, которые по последним данным, демонстрирует модель DeepLab-v3, и это при использовании гораздо более лёгкой архитектуры», — пишут авторы исследования.

Научная работа «Дьявол в границах: изучение семантических границ в зашумлённых аннотациях» будет представлена в устной презентации на этой неделе на конференции CVPR 2019 в Лонг-Бич, Калифорния. Помимо неё десятки других исследовательских работ, многие из которых написаны исследователями из NVIDIA Research, будут представлены в выступлениях на конференции, сообщает компания NVIDIA в своём блоге.

Исходный код STEAL доступен для всех желающих на платформе GitHub.

Учёные из MIT научили ИИ понимать тактильные ощущения

Роботы, которые смогут ориентироваться в пространстве на ощупь, появятся в недалёком будущем, утверждают исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (MIT). В недавно опубликованной ими научной работе, которая будет представлена на этой неделе на Конференции по компьютерному зрению и распознаванию образов в Лонг-Бич, Калифорния, они описывают систему на базе искусственного интеллекта (ИИ), способную воссоздавать визуальный образ объекта по тактильным ощущениям и предсказать тактильные ощущения от прикосновения к нему на основе изображения.

Учёные из MIT научили ИИ использовать тактильные ощущения. Пока что на ограниченной выборке, но ИИ уже может понять к чему и где он прикасается, а также предсказать ощущения от прикосновения к объекту на основе одного лишь изображения

Учёные из MIT научили ИИ использовать тактильные ощущения. Пока что на ограниченной выборке, но ИИ уже может понять к чему и где он прикасается, а также предсказать ощущения от прикосновения к объекту на основе одного лишь изображения

«Используя визуальное изображение, наша модель может представить возможные ощущения от прикосновения к плоской поверхности или к острому краю», — говорит аспирант Лаборатории искусственного интеллекта MIT и ведущий автор работы Юнчжу Ли (Yunzhu Li), который провёл исследования вместе с профессорами MIT Руссом Тедрейком (Russ Tedrake) и Антонио Торралба (Antonio Torralba), а также постдокторантом Джун-Ян Чжу (Jun-Yan Zhu). «Просто касаясь объектов без использования зрения, наша ИИ-модель может предсказать взаимодействие с окружающей средой исключительно по тактильным ощущениям. Объединение этих двух чувств может расширить возможности роботов и уменьшить объем данных, которые требуются для выполнения задач, связанных с манипулированием и захватом объектов».

ИИ предсказывает тактильные ощущения на базе визуальной информации. Зелёный квадрат — данные с тактильного сенсора, красный — предсказание ИИ

ИИ предсказывает тактильные ощущения на базе визуальной информации (зелёный квадрат — данные с тактильного сенсора, красный — предсказание ИИ)

Для генерации изображений на основе тактильных данных команда исследователей использовала GAN (англ. Generative adversarial network — генеративно-состязательная сеть) — двухчастную нейронную сеть, состоящую из генератора, который создаёт искусственную выборку, и дискриминатора, которые пытаются различить сгенерированные и реальные образцы. Обучалась модель на специальной базе данных, которую исследователи назвали «VisGel», представляющую собой совокупность из более чем 3 миллионов пар визуальных и тактильных изображений и включающую в себя 12 000 видеоклипов почти 200 объектов (таких как инструменты, ткани и товары для дома), которые ученые самостоятельно оцифровали при помощи простой веб-камеры и тактильного датчика GelSight, разработанного другой группой исследователей в MIT.

Используя тактильные данные, модель научилась ориентироваться относительно места прикосновения к объекту. Например, используя эталонную выборку данных по обуви и снятые с тактильного датчика данные, путём сравнения определить, к какой части обуви и с какой силой в данный момент прикасается манипулятор Kuka. Эталонные изображения помогли системе правильно декодировать информацию об объектах и окружающей среде, позволяя дальше ИИ самосовершенствоваться самостоятельно.

На базе тактильной информации ИИ определяет какого объекта коснулся манипулятор и в каком месте

На базе тактильной информации ИИ определяет, какого объекта коснулся манипулятор и в каком месте (зелёный квадрат — считывание информации, красный — поиск места предыдущего касания при помощи ИИ)

Исследователи отмечают, что текущая модель имеет примеры взаимодействий только в контролируемой среде и пока ещё малопригодна для практического применения, и что некоторые параметры, например, такие как мягкость объекта, системе определить пока ещё сложно. Тем не менее, они уверены, что их подход заложит основу для будущей интеграции человека с роботом в производственных условиях, особенно в тех ситуациях, когда визуальных данных просто недостаточно, например, когда свет по каким-то причинам отсутствует, и человеку приходится манипулировать с объектами вслепую.

«Это первая технология, которая может достоверно транслировать визуальные и сенсорные сигналы друг в друга», — говорит Эндрю Оуэнс (Andrew Owens), научный сотрудник Калифорнийского университета в Беркли. «Подобные методы потенциально могут быть очень полезны для робототехники, когда вам нужно ответить на вопросы типа „Этот объект твёрдый или мягкий?“ или „Если я подниму эту кружку за ручку, насколько надёжен мой захват?“ — это очень сложная задача, так как сигналы очень разные, и эта модель (созданная исследователями из MIT) продемонстрировала большие возможности».

Разрабатывающий эмоциональный ИИ стартап Realeyes получил $12,4 млн инвестиций

Искусственный эмоциональный интеллект — одно из ключевых направлений развития современных исследований в области ИИ. Хорошо иметь машины, которые могут понимать и отвечать на вопросы людей на естественном языке и даже побеждать людей в видеоиграх, но пока они не смогут расшифровывать невербальные сигналы, такие как голосовые интонации, язык тела и выражения лица, люди всегда будут иметь преимущество в понимании других людей. Одна из компаний, которая пытается решить эту проблему, это лондонский стартап Realeyes, помогающий крупным брендам, таким как AT&T, Mars, Hershey's и Coca-Cola, в маркетинговых целях при помощи камер настольных компьютеров и мобильных устройств анализировать человеческие эмоции.

Лондонский стартап Realeyes, занимающийся анализом человеческих эмоций при помощи ИИ, получил 12.4 млн долларов финансирования

Лондонский стартап Realeyes, занимающийся анализом человеческих эмоций при помощи ИИ, получил 12,4 млн долларов финансирования, планирует развитие бизнеса в новых регионах, и не только

Realeyes был основан в 2007 году, в настоящее время в компании работает 78 сотрудников, половина из которых заняты в отделе исследований и разработок в офисах Realeyes в Нью-Йорке, Бостоне, Лондоне и Будапеште. Компания объявила о получении инвестиций в размере 12,4 миллиона долларов от Draper Esprit, венчурного подразделения японского телекоммуникационного гиганта NTT Docomo, и японского венчурного фонда Global Brain, а также от фондов Karma Ventures и The Entrepreneurs Fund. Данный раунд финансирования следует за инвестициями серии A в размере 16,2 миллиона долларов, полученных стартапом в мае прошлого года.

Realeyes предоставляет своим клиентам подробный отчет изменения эмоций испытуемых на всём временном промежутке просмотра маркетингового материала

Realeyes предоставляет своим клиентам подробный отчет изменения эмоций испытуемых на всём временном промежутке просмотра маркетингового материала

Основное направление деятельность Realeyes — это маркетинговые кампании, включая видеоролики и фото-публикации, в рамках фокус-групп. Компания получает и обрабатывает информацию от участников исследований, которые для этого открывают ей доступ к своим веб-камерам или камерам смартфонов, после чего Realeyes использует так называемое «кодирование лица» для анализа эмоций, уровня внимания и чувств человека через мимику его лица во время просмотра маркетинговых материалов. Также компания использует ИИ для анализа письменных опросников по итогам исследований, что хорошо дополняет данные, полученные в результате лицевого кодирования. Как правило, Realeyes доставляет отчёты своим клиентам в течение одного дня, давая брендам возможность заранее оценить, как реагируют на их рекламу различные демографические и рыночные сегменты.

Существуют и другие стартапы, работающие над использованием ИИ в данном направлении, при этом лицевое кодирование — только один из методов, который они используют, чтобы понять человеческие эмоции. При этом в некоторых отчётах указывается, что в 2018 году рынок по выявлению и распознаванию эмоций составил около 12 миллиардов долларов, а к 2024 году он может вырасти до более чем 90 миллиардов долларов.

Например, израильский стартап Beyond Verbal разрабатывает систему, которая распознаёт признаки гнева, тревоги, возбуждения и многие другие эмоции, анализируя голос человека — не какие-то конкретные слова, а именно интонацию. Это может оказаться полезным для оценки психического здоровья людей или даже для помощи колл-центрам в улучшении отношений с клиентами по телефону. Даже такой гигант, как Amazon, также работает над улучшением способности своего умного помощника Alexa обнаруживать эмоции в голосе пользователей. Различные исследователи также ищут способы улучшить понимание человеческих эмоций ИИ путём объединения данных, получаемых как из интонации речи, так и из выражения лица.

Получив 12,4 миллиона долларов, Realeyes имеет возможности для расширения своей деятельности по всему миру. Тем более что с учётом участия NTT Docomo и Global Brain в этом раунде финансирования становится ясно, на какой рынок Realeyes будет ориентироваться в ближайшем будущем, учитывая, что Япония является третьей в мире страной по величине расходов на рекламу в мире, после США и Китая.

Генеральный директор и соучредитель Realeyes Михкель Яятма, судя по всему, счастлив

Генеральный директор и соучредитель Realeyes Михкель Яатма, судя по всему, счастлив от новых инвестиций

«Благодаря новым японским инвесторам NTT DOCOMO Ventures и Global Brain у нас есть прекрасные партнёры, которые помогут нам выйти на один из крупнейших и наиболее интересных рекламных рынков в мире», — говорит генеральный директор и соучредитель Realeyes Михкель Яатма (Mihkel Jäätma). «В Японии наблюдается почти ненасытный аппетит к онлайн-видео, и продукт Realeyes на базе ИИ предоставляют идеальное решение для рекламодателей, стремящихся максимально эффективно использовать этот огромный спрос».

Компания заявила, что она также будет использовать свои новые ресурсы для развития в США, Европе, на Ближнем Востоке и в Африке, а также планирует расшить свою сферу деятельность и помимо маркетинга изучить такие направления, как умные города, психическое благополучие и робототехника.

«Это только начало путешествия Realeyes», — уверен Яатма. «Выходя за рамки маркетингового направления, мы увидели лишь намёк на потенциальные возможности эмоционального ИИ. Благодаря глобальному развёртыванию сетей 5G Realeyes стремится гуманизировать технологии, фундаментально изменив способы взаимодействия с нашими устройствами».

Новая нейронная сеть Google значительно точнее и быстрее, чем популярные аналоги

Свёрточные нейронные сети (англ. Convolutional neural networks — CNN), вдохновлённые биологическими процессами в зрительной коре человека, хорошо подходят для таких задач, как распознавание объектов и лиц, но повышение точности их работы требует утомительной и тонкой настройки. Вот почему учёные из исследовательского отдела Google AI изучают новые модели, которые «масштабируют» CNN «более структурированным» способом. Результат своей работы они опубликовали в статье «EfficientNet: переосмысление масштабирования моделей для свёрточных нейронных сетей», размещённой на научном портале Arxiv.org, а также в публикации в своём блоге. Соавторы утверждают, что семейство систем искусственного интеллекта, получившее название EfficientNets, превосходит точность стандартных CNN и повышает эффективность нейронной сети до 10 раз.

В отличии от стандартных подходов к масштабированию CNN, команда Google AI предлагает подход, который равномерно масштабирует все параметры нейронной сети

В отличие от стандартных подходов к масштабированию CNN, команда Google AI предлагает метод, который равномерно масштабирует сразу все базовые параметры нейронной сети

«Обычная практика масштабирования моделей заключается в произвольном увеличении глубины или ширины CNN, а также использовании большего разрешения входного изображения для обучения и оценки», — пишут штатный инженер-программист Минсинг Тан (Mingxing Tan) и ведущий ученый в Google AI Куок Ли (Quoc V. Le). «В отличие от традиционных подходов, которые произвольно масштабируют параметры сети, такие как ширина, глубина и входящее разрешение, наш метод равномерно масштабирует каждое измерение с фиксированным набором коэффициентов масштабирования».

Для дальнейшего повышения производительности исследователи выступают за использование новой базовой сети — мобильной инвертированной свёртки узкого места (англ. mobile inverted bottleneck convolution — MBConv), которая служит основой для семейства моделей EfficientNets.

В тестах EfficientNets продемонстрировало как более высокую точность, так и лучшую эффективность по сравнению с существующими CNN, на порядок уменьшив требование к размеру параметров и вычислительным ресурсам. Одна из моделей — EfficientNet-B7, продемонстрировала в 8,4 раза меньший размер и в 6,1 раза лучшую производительность, чем известная CNN Gpipe, а также достигла 84,4 % и 97,1 % точности (Топ-1 и Топ-5 результат) в тестировании на наборе ImageNet. По сравнению с популярной CNN ResNet-50, другая модель EfficientNet — EfficientNet-B4, используя аналогичные ресурсы, продемонстрировала точность в 82,6 % против 76,3 % у ResNet-50.

Модели EfficientNets хорошо показали себя и на других наборах данных, достигнув высокой точности в пяти из восьми тестов, включая наборы CIFAR-100 (точность 91,7 %) и Flowers (98,8 %).

Сравнение размеров модели и точности

Сравнение размеров модели и точности распознавания для популярных CNN и EfficientNets

«Обеспечивая значительные улучшения эффективности нейронных моделей, мы ожидаем, что EfficientNets потенциально может послужить новой основой для будущих задач в области компьютерного зрения», — пишут Тан и Ли.

Исходный код и учебные сценарии для облачных тензорных процессоров (TPU) от Google находятся в свободном доступе на Github.

window-new
Soft
Hard
Тренды 🔥