Теги → распознавание объектов
Быстрый переход

Умная камера «Яндекса» может на лету распознавать объекты и переводить тексты

Компания «Яндекс» добавила в своё мобильное приложение интеллектуальную камеру: система способна в режиме реального времени распознавать объекты и переводить тексты.

Камера использует технологии компьютерного зрения: специальные нейронные сети обучены на огромном числе примеров, благодаря чему возможна идентификация самых разных объектов.

Переводы осуществляются с помощью платформы «Яндекс.Переводчик»: переведённый текст показывается поверх изображения. Это удобно, если нужно распознать надпись на этикетке или, скажем, на указателе.

«В приложении "Яндекс" теперь есть умная камера: в ней объединились технологии компьютерного зрения, машинного перевода и поиска. Камера умеет в реальном времени распознавать и искать предметы, которые попали в объектив. А ещё — переводить текст и сканировать документы», — отмечает российский IT-гигант.

Новые возможности доступны в приложении для мобильных устройств под управлением операционных систем Android и iOS. В программе также есть сканер: он позволяет сделать цифровую копию любого документа, будь то паспорт или диплом. 

В Австралии разработали «паучий Shazam» для распознавания ядовитых арахнидов

Австралийский программисты Ник и Мюррей Скарcы разработали приложение Critterpedia для распознавания пауков. Об этом пишет Cnet. Сервис призван облегчить жизнь людей, которым сложно узнавать опасных арахнидов, которых в стране более 2 тысяч видов.

Приложение работает на основе искусственного интеллекта, который создавался при сотрудничестве с Австралийским национальным учёным агентством (CSIRO). Сейчас сервис находится на стадии бета-тестирования, потому что ИИ требуются тысячи различных фотографий арахнидов, чтобы точно их распознавать. По словам руководителя проекта Мэтта Адкока, различия некоторых видов могут быть достаточно тонкими. 

Судя по всему, сервис не сможет справиться со своей задачей без австралийцев. В связи с этим, разработчики попросили тестеров присылать как можно больше снимков пауков, чтобы приложение могло распознавать их безошибочно.

«Используя революционные передовые технологии Critteripedia может помочь людям глубже понять дикую природу. Сервис предоставляет инструменты и опыт, которые нужны для хорошего образования и позитивных перемен», — заявил гендиректор и соучредитель Critteripedia Ник Скарс.

Видео: робомобиль Waymo распознаёт детей и прогнозирует поведение велосипедистов

Waymo, дочернее предприятие холдинга Alphabet, специализирующееся на разработке технологий автономного вождения, опубликовало в рамках рекламной кампании пару видеороликов, посвящённых безопасности движения самоуправляемых автомобилей.

В них демонстрируется, как система автономного вождения Waymo распознает и реагирует на два наиболее уязвимых «объекта» на дороге: школьников и велосипедистов.

«Безопасное общее пользование дорогой — важная часть вождения. — сообщила главный специалист по безопасности Waymo Дебора Херсман (Deborah Hersman), — И „водитель“ Waymo неустанно сканирует объекты вокруг автомобиля, включая пешеходов, велосипедистов, транспортные средства, дорожных рабочих, животных и препятствия, а затем прогнозирует их будущее движение на основе такой информации, как скорость, траектория и дорожная ситуация».

В первом видео Waymo, где самоуправляемый автомобиль пересекает переполненный школьный переход, используется разделённый экран, где на правой стороне отражается ситуация, как её видит человек — регулировщик, дети на пешеходном переходе, а на левой стороне показано, как „видит“ обстановку система автоматизированного управления — люди в поле зрения (жёлтые объекты), припаркованные автомобили (объекты пурпурного цвета), и движущиеся транспортные средства (объекты зелёного цвета).

Второе видео Waymo демонстрирует способность виртуального водителя предсказать поведение велосипедиста. В видеоролике система автомобиля прогнозирует, что велосипедист переместится на полосу движения машины, чтобы объехать припаркованный прицеп.

Google Lens научили разбираться в породах собак и кошек

Функция Google Lens — интегрированный в сервис Google Photos инструментарий с элементами дополненной реальности — позволяет идентифицировать оказавшиеся в кадре предметы за считанные секунды. Для этого достаточно просто направить объектив камеры смартфона на объект и дождаться, когда программное обеспечение от Google вынесет свой вердикт.

Алгоритм Google Lens способен проинформировать пользователя о названии цветка, растения, определить фильм по постеру и книгу по обложке, стать персональным гидом в незнакомом месте — рассказать о памятниках архитектуры и местных достопримечательностях. Список выделяемых Google Lens предметов достаточно широк, однако помочь в распознавании четвероногих друзей до недавнего времени ему было не под силу.  

Теперь же сервис Google Lens научился разбираться в породах собак, а в качестве бонуса разработчики наградили его знаниями, позволяющими различать между собой представителей семейства кошачьих. Базовый принцип работы системы изменений не претерпел: достаточно навести камеру на заинтересовавшую пользователя собаку/кошку, после чего в дело вступит анализатор Google Lens и выведет на экран общие сведения о животном. 

В случае, если Google Lens не сможет с уверенностью назвать породу, то на экране будут отображаться несколько вариантов с кратким описанием всех упомянутых животных, любопытные факты о них и ссылки на тематические интернет-ресурсы. 

mashable.com

mashable.com

Сервис Google Lens стал доступен пользователям iOS

Функция Google Lens, которая изначально была доступной лишь владельцам Pixel и не так давно пришла на другие Android-гаджеты, недолго пробыла в статусе эксклюзива указанной мобильной платформы. Теперь оценить преимущества ПО, предлагающего машинное зрение с повадками ИИ для визуального поиска в режиме реального времени, смогут и обладатели Apple-смартфонов. 

Напомним, что Google Lens представляет собой программный алгоритм для распознавания изображений с указанием какой именно предмет/объект попал в кадр. К примеру, сервис может идентифицировать название цветка или растения на фотографии, памятников архитектуры, определить фильм по постеру или магазин по его витрине. Ещё одной важной особенностью Google Lens является способность оцифровать данные с визитной карточки или иной документации, чтобы добавить их в автоматическом режиме к контактам из адресной книги. 

Если Google Lens по силу справиться с поставленной задачей, то на экране мобильного устройства появится карточка с описанием содержимого изображения, а также ссылки, по которым пользователь сможет получить более детальную информацию о нём.

Поддержка сервисом Google Photos функции Google Lens уже доступна пользователям iOS в некоторых регионах. Полномасштабная интеграция будет завершена в течение следующей недели. 

Microsoft улучшила ИИ-инструменты распознавания изображений и лиц

Microsoft внесла в ИИ-инструменты для компаний ряд улучшений, связанных с распознаванием лиц и объектов, а также классификацией изображений. Все обновления являются частью набора API под названием Cognitive Services, которые позволяют разработчикам интегрировать в свои продукты интеллектуальные функции, даже если у них нет опыта работы с искусственным интеллектом.

Первый инструмент, Custom Vision Service, перешёл в стадию платного публичного бета-тестирования. С помощью него компании могут обучать свои системы классификации изображений определённым задачам — например, определению различных видов птиц или различению разновидностей огурца, — без необходимости создавать собственные модели искусственного интеллекта. Ранее сервис был доступен бесплатно.

Модели, созданные с помощью Custom Vision Service, можно экспортировать из облака Microsoft и разворачивать на смартфонах, используя фреймворки CoreML от Apple и TensorFlow от Google. Это избавляет от каких-либо задержек при работе с этими моделями.

Face API теперь можно обучать на базе миллиона лиц, благодаря чему технология стала гораздо лучше различать людей. Это очень важно для интеллектуальных систем безопасности, которые засекают людей, входящих в здание.

Наконец, стал общедоступен Bing Entity Search. Сервис, использующий базу данных поискового движка Microsoft, позволяет искать знаменитых людей, места и вещи и получать о них соответствующую контексту информацию. С помощью этого инструмента, к примеру, можно создать приложение для поиска спортсменов.

Sony разработала VGA-датчик для сканирования пространства со скоростью 120 FPS

Компания Sony Corporation анонсировала новое поколение датчиков изображения для так называемых времяпролётных камер (ToF, time-of-flight). Времяпролётные камеры необходимы для измерения глубины сцены или, проще говоря, для оцифровки окружающего пространства и объектов. Делается это тремя основными способами, общий смысл которых заключается в измерении или в вычислении времени движения света от источника до объекта и обратно отражённого света до датчика изображения. Это время вычисляется для каждого пикселя камеры, что накладывает особенные требования к чувствительности пикселей и к скорости работы всей электронной обвязки датчика.

Sony

Sony

Датчик Sony IMX456QL разрешением 640 × 480 пикселей (0,307 Мп) и с диагональю 8 мм (Type 1/2) использует метод определения дальности с опорным модулированным излучением. Источником модулированного излучения являются инфракрасные светодиоды с длиной волны 850/940 нм. Частота модуляции 5–100 МГц. Каждый пиксель датчика принимает отражённый от объекта сигнал и сравнивает его с опорным, а затем (в соответствие с алгоритмом) из разности фаз или амплитуд, происходит вычисление дальности до каждой точки снимаемого объекта. Заявленная для датчика Sony IMX456QL точность составляет 6 мм на расстоянии одного метра. При этом датчик может определять глубину сцены как на дальности от 30 см до одного метра, так и до 10 метров.

Определение расстояния до объекта на удалении до 1 метра (Sony)

Определение расстояния до объекта на удалении до 1 метра (Sony)

Времяпролётные камеры необходимы в системах цифрового зрения роботов, а также в автопилотах автомобилей и дронов. Они востребованы в игровых приставках, для распознавания жестов и наверняка найдут применение в гарнитурах виртуальной и дополненной реальности. Прежнее поколение датчиков могло похвастаться разрешением 320 × 240 пикселей. Новое поддерживает разрешение типа VGA и, что немаловажно, работает на скорости 120 кадров в секунду. Кстати, дальность определяется сразу на всём кадре, что делает датчики Sony интереснее систем на основе лазерных дальномеров. Последние вносят искажения при работе на быстродвижущихся объектах, тогда как полнокадровый датчик определения глубины лишён этого недостатка.

Определение глубины сцены до 10 мернов (Sony)

Определение глубины сцены до 10 метров (Sony)

Образцы датчиков Sony IMX456QL компания начнёт поставлять в апреле 2018 года. Цена вопроса — 3000 иен или примерно $26,6 без учёта налогов. Массовое производство датчиков запланировано на ноябрь 2018 года. Кстати, датчики IMX456QL стали первыми с использованием фотодиодов с так называемой обратной засветкой (back-illuminated). Это означает, что датчики подходят для стековой сборки из нескольких чипов, например, с буферной памятью и цифровым процессором изображения.

Российская IP-видеокамера с инфракрасной подсветкой займётся распознаванием лиц

Холдинг «Швабе» сообщил о разработке IP-видеокамеры С-400 с инфракрасной подсветкой, рассчитанной на использование на открытых пространствах.

Новинка, как утверждается, вдвое превосходит другие аналогичные изделия по разрешению матрицы — 4 мегапикселя. Максимальное разрешение транслируемого видеоизображения составляет 2590 × 1520 точек.

«Повышенное разрешение изображения обеспечит пользователю более детализированное изображение. Данный показатель играет ключевую роль при осуществлении круглосуточного и всепогодного наблюдения», — говорят представители холдинга.

Камера подходит для применения в составе систем распознавания лиц. Причём соответствующая процедура может выполняться в любых условиях освещённости.

Кроме того, новинка может использоваться в автоматизированных программно-аппаратных комплексах определения автомобильных номеров. Дальность распознавания в этом случае может достигать 100 метров.

Камера наделена объективом с оптическим увеличением. Устройство заключено в антивандальный алюминиевый корпус. Новинка имеет встроенный детектор движения, способна получать электропитание по сигнальному кабелю с использованием технологии PoE и может эксплуатироваться в температурном диапазоне от минус 40 до плюс 50 градусов Цельсия.

Цена и сроки начала коммерческих поставок камеры пока не называются. 

Nest представила камеру видеонаблюдения Cam IQ, распознающую и масштабирующую объекты

Домашняя камера видеонаблюдения от Nest, предварительное знакомство с функциональностью которой произошло неделей ранеевчера была представлена официально. Новинка получила название Cam IQ, что намекает на интеллектуальные алгоритмы работы устройства. Лежащий в основе камеры сенсор, как и утверждали инсайдеры, характеризуется псевдоподдержкой 4К-вещания, но сама трансляция ведётся с автоматическим сжатием до 1080p.

www.engadget.com

www.engadget.com

www.engadget.com

www.engadget.com

Nest Cam IQ комплектуется 8-Мп модулем для фото- и видеонаблюдения, который в теории позволяет осуществлять съёмку в 4К-формате. Но на деле разрешающая способность устройства ограничена стандартом Full HD, а скрытый 4К-потенциал здесь используется лишь для масштабирования объектов в кадре с целью улучшения качества изображения. Данная особенность Nest Cam IQ — технология Supersight — активизируется при обнаружении видеокамерой движущихся объектов для их отображения крупным планом. Это позволяет пользователю более детально следить за происходящим.  

www.engadget.com

www.engadget.com

www.engadget.com

www.engadget.com

Nest Cam IQ поддерживает технологию HDR и 12-кратный цифровой зум, а её широкоугольный объектив обеспечивает 130-градусный обзор. Заявлена поддержка интеллектуального распознавания объектов в кадре — идентификация системой неодушевлённых предметов и биологических существ. Благодаря данному программному решению владелец Nest Cam IQ может настроить режим масштабирования таким образом, чтобы камера автоматически фокусировала внимание, например, на человеке и не переключалась на сторонние предметы.

www.engadget.com

www.engadget.com

Для этого даже предусмотрен отдельный «живой канал», который в режиме «картинка в картинке» выводит на экран лица людей в поле зрения камеры.

www.engadget.com

www.engadget.com

Nest Cam IQ умеет оповещать своего владельца о появлении в квартире незапланированного гостя посредством уведомления на смартфон, к которому прилагаются видеоматериалы с подозрительными персонажами. Правда, данная опция потребует подписки на услугу Nest Aware с ежемесячной 10-долларовой абонентской платой.  

В США заказы на модель Cam IQ принимаются с сегодняшнего дня. Стоимость устройства там составляет $299. 

www.engadget.com

www.engadget.com

Google представила API для автоматического распознавания объектов на видео

В рамках конференции Cloud Next в Сан-Франциско Google анонсировала запуск нового прикладного программного интерфейса на базе машинного обучения, позволяющего автоматически распознавать объекты на видео и делать их доступными для поиска.

Video Intelligence API позволяет разработчикам создавать приложения, которые могут автоматически извлекать обнаруженные на видео объекты. До недавнего времени большинство похожих облачных API могли распознавать только изображения. Помимо извлечения метаданных, новый прикладной программный интерфейс позволяет помечать изменения в сценах.

Такие видеоролики должны храниться в облачном сервисе Google. Демонстрацию работы Video Intelligence API можно найти здесь. Разработчики могут подписаться на участие в закрытом бета-тестировании технологии по этой ссылке.

Как отметила главный научный сотрудник Google Cloud в сфере искусственного интеллекта и машинного обучения Фей-Фей Ли (Fei-Fei Li), мир пикселей выходит за рамки изображений. Работа с видео уже давно была проблемой для исследователей в сфере машинного обучения. Новый сервис же позволяет извлекать информацию из роликов с той же лёгкостью, что в и в случае с картинками.

В дополнение ко всему прочему Ли сообщила, что разработчикам по всему миру стал доступен Cloud Machine Learning Engine — инструмент компании для создания пользовательских моделей машинного обучения с использованием фреймворка TensorFlow.

Ли добавила, что компания хочет демократизировать технологии машинного обучения, создаваемые ею. Video Intelligence API — ещё один тому пример.

Microsoft разрабатывает технологию анализа и описания изображений

Корпорация Microsoft поделилась информацией об одном из своих исследовательских проектов, который в перспективе может помочь в создании систем искусственного интеллекта. Речь идёт о платформе глубокого анализа изображений с целью идентификации и описания представленных на них объектов.

Идея заключается в том, чтобы научить программу воспринимать фотографии так, как это делает человек. То есть, если на снимке запечатлён, скажем, пользователь за компьютерным столом, система должна понимать, что главным объектом является именно пользователь, а не предмет мебели. Далее благодаря различным алгоритмам, а также базе знаний программа сможет сделать предположения о возрасте, расовой и половой принадлежности и пр. Так, распознав щетину на лице, система сделает вывод, что на фотографии запечатлён мужчина.

Процесс описания изображений можно разбить на три основных этапа (см. иллюстрации). На первом после идентификации отдельных объектов подбираются соответствующие им ключевые слова — например, женщина, толпа, кошка, камера. На втором этапе на основе сгенерированного списка слов формируются фразы: «женщина в толпе держит камеру», «женщина держит кошку» и т. п. Наконец, заключительная фаза предполагает сортировку фраз в порядке важности.

Пока система несовершенна и может ошибаться, а также некорректно распознавать отдельные фрагменты изображений. Но работа над проектом продолжается, и с течением времени точность будет повышаться. 

window-new
Soft
Hard
Тренды 🔥