Сегодня 02 июня 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Программное обеспечение

На пути к совершенству. Обзор новшеств ABBYY FineReader 11

Пожалуй, трудно в IT-сфере найти человека, ничего не слышавшего о программных решениях отечественной компании ABBYY, входящей в ТОП-100 самых упоминаемых брендов Рунета и являющейся законодателем мод в области распознавания документов и лингвистики. Более чем двадцатилетний опыт насыщенной и продуктивной работы определил успех российского разработчика во всем мире, о чем свидетельствует не только 30-миллионная аудитория пользователей более чем в 130 странах, но и признание со стороны бизнес-сообщества, обрабатывающего с помощью технологий и инструментов компании свыше 1,6 млрд страниц документов и форм ежегодно. Цифры впечатляющие, однако в ABBYY не почивают на лаврах и продолжают неустанно из года в год совершенствовать и расширять линейку своей продукции, не так давно пополнившуюся новой, одиннадцатой по счету версией OCR-пакета FineReader, представленного в редакциях Professional Edition и Corporate Edition и предназначенного для конвертирования отсканированных документов, изображений, фотографий и PDF-файлов в редактируемые форматы.

Говоря о нововведениях в систему оптического распознавания текстов, прежде всего следует отметить увеличенную скорость обработки документов. По результатам проведенных ABBYY тестов, FineReader 11 демонстрирует возросшую на 20% производительность по сравнению с предыдущей версией продукта. Особый акцент разработчики делают на оптимизации различных режимов работы приложения, позволяющих добиваться существенной экономии времени при обработке больших объемов информации. Так, практическое использование нового ­черно-белого режима ускоряет конвертирование данных до 30%, а активация режима быстрого распознавания, предназначенного для документов с простым оформлением и хорошим качеством печати, форсирует упомянутый процесс аж до 70%. Немалую роль в достижении программой столь значимых результатов играет эффективное использование вычислительных возможностей многоядерных процессоров.

Вторая ключевая особенность FineReader 11 — улучшенное качество распознавания и сохранения­ структуры многостраничных документов. Благодаря совершенствованию технологии адаптивного распознавания документов (ADRT — Adaptive Document Recognition Technology), специалистам ABBYY удалось на 40% повысить точность определения заголовков и колонтитулов, на 70% — текста на полях, на 25% улучшить распознавание таблиц и на 15% — определение картинок и диаграмм­. Также добавлена поддержка вертикальных колонтитулов, улучшено на 20% качество "понимания" текстов для группы языков CJK (китайский, японский, корейский) и в состав программы включен инструментарий для создания в PDF-документе оглавления в виде закладок. Использование последней опции восстанавливает структуру­ оглавления документа с возможностью перехода по ссылкам, что существенно упрощает навигацию и работу с многостраничными материалами.

Важный аспект — поддержка языков, также не оставшаяся без внимания программистов, инженеров и лингвистов ABBYY. Разработчики добавили в одиннадцатую сборку продукта арабский, вьетнамский, туркменский (латиница) языки и реализовали словарную поддержку для­ арабского, вьетнамского, латинского,­ японского, корейского языков. Таким образом, отныне в активе OCR-решения значится 189 языков распознавания, для 45 из которых предусмотрена проверка орфографии. Такой багаж знаний делает FineReader самой многоязычной системой распознавания в мире.

Вполне возможно, что рядовым пользователям FineReader, чья работа с приложением ограничивается конвертированием документов на двух-трех европейских языках, включение поддержки перечисленных в предыдущем абзаце языков покажется малозначительным, однако на деле умение программы понимать особенности той же арабской системы письма свидетельствует о том, что технологии оптического распознавания ABBYY развиваются, а значит, становятся еще совершеннее. Важно осознавать, что за реализацией поддержки любого дополнительного языка кроется кропотливый труд большого числа специалистов и экспертов компании.

Отдельное внимание при разработке программы было уделено переводу бумажных книг в цифровой вид. Электронные книги давно уже превратились из экзотики в обыденность, поэтому включение в состав FineReader 11 поддержки форматов FictionBook 2.0 (FB2), Electronic Publication (ePub) и возможности отправлять файлы непосредственно из окна приложения в учетную запись Amazon Kindle является оправданным шагом. В настройках модуля, отвечающего за формирование eBook-изданий, можно управлять функцией сохранения изображений и их качеством, выбирать оформление книги с использованием простого или форматированного текста, включать встраивание шрифтов и манипулировать прочими свойствами документа. Кроме того, программа умеет автоматически сохранять главы книги в отдельные HTML-файлы и восстанавливать ссылки в содержании на соответствующие главы книги. Данная возможность FineReader также может быть востребована владельцами eBook-ридеров и прочих портативных устройств.

Серьезно изменились средства обработки фотографий, пополнившиеся новыми инструментами для редактирования изображений, включая настройку яркости, контрастности и уровней интенсивности света и тени, которая позволяет значительно улучшить исходные снимки и получить более точные результаты распознавания. Подобного рода корректировки можно произвести в любом имеющемся под рукой графическом редакторе, однако одно дело — возиться со сторонним приложением и затем переносить файлы в FineReader, и совсем другое — вносить необходимые правки непосредственно в окне OCR-пакета.

Упомянуть следует и появившийся в 10-й версии программы и улучшенный в 11-й инструментарий для исправления трапециевидных искажений, часто возникающих при съемке документов цифровой камерой. Выбрав в редакторе изображений соответствующий пункт, пользователь может, перетаскивая мышью углы рамки и совмещая их с углами картинки, устранить искажение перспективы и в два счета привести снимок к «плоскому» виду. Подобный функционал может быть полезен как для улучшения читабельности сфотографированных документов, так и для приведения разнородных снимков к общему знаменателю.

Изображение до...

...и после коррекции трапеции средствами FineReader 11

ABBYY FineReader предоставляет широкий спектр возможностей для работы с форматом PDF — принятым во всем мире стандартом обмена электронными документами и деловой переписки. В обновленной редакции продукта улучшена технология MRC-сжатия (Mixed Raster Content), благодаря чему можно уменьшить размеры PDF-файлов в пять раз, по сравнению с 10-й версией программы, без видимых изменений качества изображения — это позволяет экономить пространство на диске компьютера и пересылать объемные документы по электронной почте. Три новых режима сохранения PDF — «Высокое качество», «Небольшой размер», «Сбалансированный режим» — позволяют пользователю получать оптимальные результаты для разного типа задач.

Раз уж речь зашла о функциях сохранения и архивирования данных, то логичным будет упомянуть еще об одном нововведении в данной области — поддержке форматов экспорта DjVu и OpenDocument Text (ODT). Первый формат повсеместно используется для хранения отсканированных документов — научных книг, журналов и рукописей с обилием формул, схем, рисунков и рукописных символов; второй — задействован в OpenOffice.org Writer и прочих открытых офисных пакетах, все чаще применяемых в государственном секторе и образовательных учреждениях.

Претерпели изменения в FineReader 11 также средства редактирования и проверки документов. Из наиболее значимых новшеств можно отметить механизм разделения пакета страниц на несколько документов. Данная функция может быть полезна при сканировании в едином потоке разнородных­ материалов (газетные вырезки, журнальные статьи, сканы книжных страниц и так далее), для каждого из которых необходимо использовать различные настройки OCR-движка. Сортировка осуществляется простым перетягиванием мышью миниатюр страниц в окне «Разделить документ на несколько» и последующим нажатием клавиши «Создать» (см. скриншот). В результате для каждого набора страниц запустятся отдельные копии FineReader с независимыми друг от друга параметрами распознавания текстов.

Брызги нововведений затронули также инструментарий для проверки неуверенно распознанных и отсутствующих в словарной базе слов, редактор стилей с функцией объединения стилей со схожими атрибутами и диалоговое окно «Задачи», обеспечивающее мгновенный доступ ко всем базовым и пользовательским сценариям работы. Кроме того, в FineReader 11 появилась возможность изменять нумерацию страниц­ в книгах с обратной нумерацией и восстанавливать оную при двустороннем сканировании документов.

Таковы основные изменения одиннадцатой линейки FineReader, обзор которой был бы неполным без упоминания особенностей корпоративной сборки продукта, включающей все возможности Professional-редакции и имеющей ряд дополнительных инструментов для удобства совместной работы в сети (например на одном компьютере можно сканировать документы, на другом — распознавать, а на третьем — проверять результаты). Кроме того, версия Corporate Edition предусматривает возможность автоматизированной установки программы на вычислительные машины в локальной сети и централизованное управление лицензиями.

Акцентируя внимание на новшествах FineReader 11 Corporate Edition, прежде всего следует отметить расширенное стартовое окно «Задачи» и возможность создания пользователем собственных сценариев работы программы. Если в профессиональной редакции OCR-пакета список «однокликовых» операций строго регламентирован, то в корпоративной версии его можно всячески варьировать, гибко настраивая и автоматизируя работу FineReader. Важной особенностью приложения является возможность использования сценариев, созданных другими пользователями, и наличие в составе продукта планировщика Hot Folder, также подвергшегося дальнейшим улучшениям и доработкам.

Настраиваемые сценарии FineReader 11 Corporate Edition

Менеджер задач с функциями экспорта/импорта сценариев

Следуя новым техническим и организационным веяниям в области информационной безопасности, разработчики ABBYY оснастили текстовый редактор программы средствами цензурирования документов. Основная функция новинки заключается в защите конфиденциальных данных от посторонних глаз: с помощью специального маркер, пользователь может замазать черными полосами секретный текст и сделать его недоступным для просмотра и копирования. Функция поддерживается при сохранении­ документа в PDF-файл, а также в других форматах.

Наконец, еще одним нововведением в FineReader 11 Corporate Edition является наличие в дистрибутиве продукта ABBYY Business Card Reader — программы для автоматического перевода бумажных визитных карточек в электронный формат. Решение поддерживает 25 языков распознавания, позволяет одновременно сканировать до десяти ­визиток на одной странице, а также оснащено функциями экспорта записей в Microsoft Outlook, файлы формата vCard и пересылки контактных данных по электронной почте. Полный список продуктов и условия использования приложения представлены на сайте abbyy.ru.

Что касается предъявляемых одиннадцатой версией FineReader системных требований, то они практически не изменились. Для корректной работы пакета необходим функционирующий под управлением Windows компьютер с тактовой частотой процессора 1 ГГц или выше и объемом оперативной памяти не менее одного гигабайта. Программа работает со всеми популярными моделями сканеров и многофункциональных устройств (МФУ), в том числе с цифровыми фотокамерами и камерами мобильных телефонов с разрешением свыше двух мегапикселей и функцией автофокуса.

Обновленная линейка OCR-решений уже доступна в онлайн-маркете store.abbyy.ru, торговых сетях партнеров компании и в виде ознакомительных версий на сайте ABBYY. Рекомендованная розничная цена коробочной версии FineReader 11 Professional Edition составляет 3 990 рублей, электронной версии — 3 590 рублей. Стоимость Corporate-редакции продукта также не претерпела изменений — 8 990 рублей в интернет-магазине разработчика. Пользователи предыдущих сборок FineReader могут сэкономить, приобретя соответствующий набор обновлений.

 
 
Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.

window-new
Soft
Hard
Тренды 🔥
Boeing отменила пилотируемый полёт космического корабля Starliner к МКС за несколько минут до старта 3 ч.
Привет из 2014-го: Asus выпустила обновлённую GeForce GT 710 EVO с 2 Гбайт GDDR5 4 ч.
Apple выбрала процессоры М2 Ultra и М4 для серверов, на которых будут работать ИИ-функции iPhone 8 ч.
Выставка Computex 2024 откроется 4 июня, но презентации AMD, Intel и Nvidia пройдут раньше 9 ч.
iPhone 5s официально устарел, а iPod touch 6 стал винтажным 9 ч.
Vivo оккупировала значительную часть майского рейтинга производительности AnTuTu 10 ч.
Игровой монитор Xiaomi G Pro 27i на панели Mini LED с 1152 зонами затенения выйдет на мировой рынок 10 ч.
Starlink хочет открыть для пользователей спутниковую сотовую связь уже осенью 11 ч.
Новые спутники Starlink могут уничтожить радиоастрономию на Земле, предупреждают учёные 14 ч.
Корейский профсоюз Samsung объявил забастовку, но на производство и поставки памяти это не повлияет 14 ч.