Сегодня 04 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → распознавание

Приложение умной камеры «Яндекса» научилось распознавать текст

Компания «Яндекс» расширила возможности своей умной камеры — специального инструмента, который доступен в браузере и в приложении «Яндекса» для мобильных устройств под управлением операционных систем Android и iOS.

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

Появился новый режим «Текст», позволяющий распознавать и копировать тексты. Достаточно навести камеру смартфона на любое слово или фразу, и приложение преобразует надпись в текстовый вид. Далее текст можно сохранить, отправить в мессенджер или в поиск.

Например, чтобы найти в интернете учебник, теперь не нужно набирать его название: можно навести камеру на обложку и нажать кнопку «Найти». Инструмент поможет также скопировать текст со слайда или, скажем, конспект доклада.

Приложение способно распознавать печатные тексты на 47 языках. Для обработки изображений применяются нейронные сети. Одна из них идентифицирует области с текстом, а вторая распознаёт надписи, анализируя контекст: начертания букв, соседние буквы и слова. Аналогичная технология применяется при распознавании текста в режиме «Перевод».

«Умная камера помогает в решении разных задач. С её помощью можно искать товары, переводить текст, сканировать документы и распознавать предметы. Например, она подскажет модель автомобиля или название комнатного растения», — отмечает «Яндекс».

Системы лицевой идентификации оказались бессильны перед естественными возрастными изменениями

Технологии распознавания лиц неплохо проявляют себя при выявлении нужных людей в толпе, однако старение человека значительно усложняет для них задачу — в отдельных случаях она становится непосильной. При отсутствии новых снимков человека достаточно всего пяти лет, чтобы серьёзно воспрепятствовать работе системы лицевой идентификации.

 Источник изображения: Tumisu / pixabay.com

Источник изображения: Tumisu / pixabay.com

К неутешительным для современных решений выводам пришла группа учёных из Норвежского университета естественных и технических наук (NTNU), возглавляемая кандидатом наук Марселем Гриммером (Marcel Grimmer). При помощи алгоритма искусственного интеллекта сгенерировали 50 000 человеческих лиц и искусственно их состарили, чтобы посмотреть, как справятся с этой задачей системы лицевой идентификации.

Создатели коммерческих систем распознавания лиц не раскрывают принципов работы своих алгоритмов, поэтому в качестве испытуемых были выбраны решения с открытым исходным кодом. В ходе тестирования исследователи обнаружили, что по мере увеличения возраста образцов точность срабатывания систем понижалась, а по достижении пятилетней разницы между образцом и сверяемым с ним изображением начинались заметные сбои. По достижении 20-летнего порога шансы на положительный результат становились чрезвычайно малыми.

Важным аспектом оказывался возраст образцов: системам было труднее справляться с лицами людей до 20 или старше 60 лет — в эти периоды возрастные изменения происходят быстрее. Господин Гриммер пояснил, что лица младенцев сильно меняются даже за два месяца — можно делать снимок ребёнка каждый месяц, и гарантии результата всё равно не будет. Небольшие изменения в лице отмечаются до 20 лет. Аналогичные процессы начинаются и после 60 лет: «снова меняется форма головы, и появляются более выраженные морщины», а значит, снижается и доля положительных срабатываний.

Самое простое решение для поддержки штатной работы систем лицевой идентификации — регулярно обновлять образцы снимков. Впрочем, это зависит от конкретной задачи, и если речь идёт о конфиденциальности, возрастные изменения могут оказаться естественной формой защиты от вторжения в частную жизнь.

У «Яндекса» появилась нейросеть-полиглот, распознающая десять языков одновременно

Облачное подразделение компании «Яндекс» (Yandex Cloud) сообщило о разработке новой системы на базе машинного обучения, которая способна распознавать более 10 иностранных языков одновременно.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

В основе модели лежат сервис синтеза и распознавания Yandex SpeechKit и специализированная архитектура под названием Transformer. Алгоритмы обрабатывают входные слова параллельно и независимо друг от друга, благодаря чему быстро обучаются.

Система распознаёт речь на любую тему и в разных форматах: это могут быть короткие и длинные фразы, имена, адреса, даты и пр. Модель способна распознавать язык автоматически в одном потоке: нейросеть может в любой момент переключаться между различными языками. При этом есть возможность давать ей «подсказки» — это повышает качество распознавания.

Для обучения модели использовались огромные массивы данных (десятки терабайт) из профессиональных источников, а также из сервисов и приложений самого «Яндекса». Нейросеть-полиглот может работать и с популярными языками, такими как английский и французский, и с более редкими — датским, финским, турецким и другими.

Microsoft ограничит доступ к ИИ-решениям для распознавания эмоций

Компания Microsoft объявила о прекращении продаж технологий, позволяющих распознавать эмоции по выражениям лиц, и более не будет предоставлять неограниченный доступ к программным решениям для распознавания лиц.

 Источник изображения: Erik Mclean/unsplash.com

Источник изображения: Erik Mclean/unsplash.com

Известно, что ещё с прошлого года в Microsoft пытаются определить, насколько системы распознавания эмоций основаны на научном подходе. По словам представителя подразделения Microsoft Azure AI, эти попытки подняли ряд вопросов, связанных с обеспечением конфиденциальности, отсутствием консенсуса относительно самого определения термина «эмоции», невозможностью обобщить связь между выражением лица и настроением в разных обстоятельствах, регионах или половозрастных группах.

Хотя продажи технологии прекращены со вчерашнего дня, использующие сервис клиенты смогут ещё год пользоваться ИИ-инструментами, позволяющими распознавать эмоции, пол, возраст, улыбки, растительность на лице, волосы и макияж.

В прошлом году сервис Google Cloud также заблокировал распознавание 13 видов эмоций в своих инструментах, поставив под вопрос распознавание ещё четырёх, включая, например, радость и печаль. Компания оценивала возможность внедрения новой системы, позволяющей описать мимику вроде хмурости или улыбок без привязки её к эмоциям.

Дополнительно Microsoft заявила, что теперь клиенты должны получить разрешение на использование сервисов распознавания лиц, которые позволяют людям авторизоваться на сайтах или, например, открывать двери с помощью сканирования лиц.

Компания призвала клиентов избегать ситуаций, нарушающих конфиденциальность пользователей, или тех, в которых технологиям будет сложно справляться — вроде определения возраста и распознавания несовершеннолетних. Тем не менее, прямого запрета на использование подобных технологий пока не предусмотрено.

Clearview AI оштрафовали на $9,5 млн и обязали удалить данные жителей Великобритании

Британский регулятор оштрафовал компанию Clearview AI за нелегальный сбор фото жителей Соединённого Королевства на £7,55 млн ($9,5 млн). Кроме того, ей придётся прекратить сбор сведений о жителях страны в социальных сетях и интернете в целом и удалить ранее собранные данные.

 Источник изображения: Tumisu/pixabay.com

Источник изображения: Tumisu/pixabay.com

По словам представителей британских властей, компания не только обеспечивала идентификацию людей с помощью своего ПО, но и занималась мониторингом информации об их привычках, а также предлагала соответствующие данные на продажу.

Управление комиссара по информации Великобритании (ICO) начало совместное с австралийскими властями расследование в отношении Clearview AI в 2020 году и назначило «предварительный» штраф, эквивалентный $21,4 млн в прошлом. На тот момент ведомство сообщило, что база Clearview AI, судя по всему, включает данные существенного числа жителей Великобритании, многие из которых были собраны без их ведома и согласия с общедоступных площадок, включая социальные медиаплатформы.

В окончательном постановлении ICO отметило, что во всём мире компания незаконно собрала более 20 млрд изображений лиц для своей базы данных. И хотя она более не оказывает услуг британским организациям, у неё имеются клиенты в других странах, поэтому компания по-прежнему использует сведения о жителях Соединённого Королевства. В частности, Clearview AI продаёт приложение, позволяющее загружать чьё-либо фото для его последующей проверки по базе. Услугами компании пользуются многочисленные правоохранительные ведомства по всему миру, несмотря на то, что технология с точки зрения закона находится, как минимум, в «серой» зоне.

Twitter, Google и YouTube уже обратились к компании, заявив, что она нарушает условия пользования сервисами. Кроме того, Facebook потребовала прекратить сбор информации. Компания уже получала жалобы от правозащитных групп в Европе и была оштрафована на 20 млн евро в Италии.

В США Американский союз гражданских свобод подавал в суд на Clearview AI за нарушение законов Иллинойса — недавно она пошла на сделку, обязавшись ограничить использование своей базы в этом штате. При этом компания продолжит предоставлять все доступные сведения федеральным правоохранительным ведомствам и властям других штатов.


window-new
Soft
Hard
Тренды 🔥
Asus представит на Computex 2024 консоль ROG Ally 2024, блок питания Thor 1600 III, ИБП Mojlonir и многое другое 40 мин.
Квартальные продажи HDD приблизились к 30 млн штук, а Western Digital вышла в лидеры 5 ч.
Спрос на первый российский микроконтроллер на базе RISC-V оказался очень высоким 5 ч.
Разработано бактерицидное покрытие из меди для сенсорных экранов, и оно прозрачное 7 ч.
Virgin Galactic назначила новый суборбитальный полёт на 8 июня — несмотря на происшествие в прошлый раз 9 ч.
Первый пилотируемый полёт корабля Boeing Starliner состоится 6 мая, подтвердили в NASA 9 ч.
В первом квартале выручка от реализации смартфонов достигла сезонного максимума, объём поставок вырос на 6 % 13 ч.
В юбилейной публикации блога AMD слова «искусственный интеллект» упоминались 23 раза 14 ч.
Ученые создали светофильтр на 2D-полупроводнике, который прокачал недорогую камеру и открыл новый путь к оптическим компьютерам 21 ч.
Защищённые смартфоны «Ростеха» AYYA T1 начали собирать в России на предприятии «Ростелекома» 21 ч.