Новости Software

«Яндекс.Диск» научился искать изображения по надписям на них

Компания «Яндекс» реализовала технологию компьютерного зрения в облачном хранилище данных «Яндекс.Диск»: отныне сервис позволяет искать изображения, содержащие текст поискового запроса.

В основе поиска надписей на изображениях лежит технология оптического распознавания символов. Система состоит из двух частей — классификатора картинок и модуля распознавания. Сначала классификатор (глубокая нейронная сеть) отбирает из всех доступных изображений те, на которых присутствует текст. Использование машинного обучения позволяет добиться высокого качества распознавания, поскольку алгоритм опирается не на какие-то определённые правила, а на опыт анализа миллионов разных файлов.

Когда изображения с текстом отобраны, система находит на них линии, предположительно содержащие текст, — различать их помогает ещё одна нейронная сеть. На следующем этапе алгоритм оставляет только те линии текста, в которых он уверен. Далее модуль распознавания разбивает линии текста на отдельные символы. Для каждого символа определяется несколько наиболее вероятных вариантов распознавания. Например, это могут быть буквы «О», «о» и цифра «0», очень похожие друг на друга.

После этого в дело вступает языковая модель — система принимает решение, какой из символов-кандидатов подходит лучше всего. Данный инструмент опирается на словари и учитывает не только сходство символов с теми, которые знает система, но и контекст, то есть соседние символы. Если из нескольких вероятных символов складывается известное системе слово, то она может принять решение, что на картинке написано именно оно.

В настоящее время сервис позволяет искать по тексту изображения форматов JPEG, GIF и PNG. В результатах поиска выводятся не только картинки, соответствующие введённому запросу, но и файлы и папки, в названиях и описаниях которых есть указанное слово.

Система способна распознавать текст на изображениях, разных по виду, содержанию и качеству. Точность распознавания текстов на русском языке составляет около 80 % для отсканированных документов, примерно 63 % для фотографий с надписями и почти 100 % для скриншотов. Помимо русского языка, система также распознаёт английский, украинский и турецкий. Точность распознавания текстов всего потока изображений превышает 70 %.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Цена акций Tesla достигла рекордного уровня после выхода квартального отчёта — капитализация устремилась к $1 трлн 2 ч.
Для обеспечения работы суперкомпьютера El Capitan потребуется 28 тыс. тонн воды и 35 МВт энергии 2 ч.
Крупный американский ретейлер оценил Core i9-12900K в $670, а Core i7-12700K — в $470 3 ч.
SpaceX провела первые статические огневые испытания вакуумного двигателя на прототипе Starship SN20 3 ч.
Создатель iPod рассказал, как разрабатывался легендарный плеер Apple — всего за 5 месяцев 3 ч.
Грядущий дрон DJI Mavic 3 показался на фото — новинка получит обтекаемый корпус 4 ч.
MacBook Air следующего поколения получит дисплей Mini-LED, как у новых MacBook Pro 4 ч.
Концерн «Автоматика» представил новые серверы на процессорах «Эльбрус-8СВ» 4 ч.
Huawei выпустила ноутбук MateBook 14 2021 Ryzen Edition с экраном 2K FullView 5 ч.
Материнские платы ASUS ROG и MSI на чипсете Intel Z690 показались на фото 6 ч.