Новости Software

Amazon запускает облачный сервис для распознавания документов

Вам нужно быстро и автоматически извлечь информацию из множества документов? А они, к тому же, хранятся в виде сканов или фотографий? Вам повезло, если вы являетесь клиентом Amazon Web Services (AWS). Amazon объявила об открытии доступа к Textract, облачного и полностью управляемого сервиса, который использует машинное обучение для анализа таблиц, текстовых форм и целых страниц текста в популярных электронных форматах. Пока что он будет доступен только в некоторых регионах AWS, в частности в восточной части США (Огайо и Северная Вирджиния), на западе США (в штате Орегон) и в ЕС (Ирландия), а в следующем году Textract станет доступен для всех желающих.

 Textract — новый сервис от AWS, который позволит клиентам Amazon эффективно распознавать и систематизировать коллекции документов.

Textract — новый сервис от AWS, который позволит клиентам Amazon эффективно распознавать и систематизировать коллекции документов

Как утверждает Amazon, Textract значительно более эффективен, чем обычные оптические системы распознавания символов. Из файлов, хранящихся в корзине Amazon S3, он может извлечь содержимое полей и таблиц с учётом контекста, в котором представлена эта информация, например, система автоматически выделяет имена и номера социального страхования в налоговых формах или итоговые суммы по сфотографированным квитанциям. Как отмечает Amazon в пресс-релизе, Textract поддерживает такие форматы изображений, как сканы, PDF-файлы и фотографии, а также эффективно работает с контекстом в документах специфичных для финансовых услуг, страхования и здравоохранения.

Textract сохраняет результаты в формате JSON, снабженного аннотациями с номерами страниц, разделами, метками форм и типами данных, и при желании интегрируется с сервисами баз данных и аналитики, такими как Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena, и продуктами для машинного обучения, такими как Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate и Amazon SageMaker, для постобработки. В качестве альтернативы извлеченные данные могут быть переданы непосредственно в сторонние облачные сервисы для целей обеспечения соответствия в бухгалтерском учёте и аудите или для поддержки интеллектуального поиска в архивах документов. Как утверждает Amazon, Textract может «точно» обработать миллионы страниц разных документов за «всего несколько часов».

Множество клиентов AWS уже используют Textract, включая Globe and Mail, национальную метеорологическую службу Великобритании, PricewaterhouseCoopers, некоммерческую организацию управляемой медицинской помощи Healthfirst и компании по автоматизации роботизированных процессов UiPath, Ripcord и Blue Prism. Candor, стартап, целью которого является привнести прозрачность в ипотечную отрасль, использует Textract, чтобы извлекать данные из таких документов, как банковские выписки, платежные квитанции и различные налоговые документы, чтобы ускорить процесс одобрения кредита для своих клиентов.

«Мощь Amazon Textract заключается в том, что он точно извлекает текстовые и структурированные данные практически из любого документа без необходимости предварительного машинного обучения», — рассказывает вице-президент Amazon Machine Learning Свами Сивасубраманян (Swami Sivasubramanian). «В дополнение к интеграции с другими сервисами AWS, большое сообщество, развивающееся вокруг Amazon Textract, позволяет нашим клиентам получать реальную пользу от своих коллекций файлов, работать более эффективно, улучшать соответствие требованиям безопасности, автоматизировать ввод данных и ускорять принятие бизнес-решений».

Ниже вы можете посмотреть презентацию Textract на конференции re:Invent 2018 на английском языке.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Cuphead выйдет в коробочной версии с дополнением The Delicious Last Course 2 ч.
Геймеры столкнулись с проблемами при верификации через СМС для игры в Overwatch 2 2 ч.
Sega анонсировала свою первую блокчейн-игру — она будет основана на серии Sangokushi Taisen 2 ч.
Еврокомиссия вынесет решение по сделке Microsoft и Activision Blizzard до 8 ноября — может потребоваться углубленное расследование 2 ч.
Глава Apple: большинство людей вряд ли понимает, что такое метавселенная 2 ч.
Genshin Impact выручила $3,7 млрд на мобильных платформах за 2 года — больше только у Honor of Kings и PUBG Mobile 3 ч.
Ubisoft не бросит покупателей своих игр для Google Stadia — их можно будет перенести на ПК 6 ч.
Новая статья: Return to Monkey Island — пираты никогда не уходят на пенсию. Рецензия 15 ч.
Positive Technologies: доля акций в свободном обращении составила 11,9% 16 ч.
В 2022 количество используемых камер для видеонаблюдения в России превысит 21 млн 16 ч.
Разработчика аэротакси Joby Aviation обвинили в завышенных обещаниях — компания не сможет выпустить достаточно машин 2 ч.
Глава Yangtze Memory подал в отставку — его уход связывают с «большой коррупцией» в хайтек фондах Китая 2 ч.
Разработчик автопилота Intel Mobileye подал заявку на размещение акций — планируется привлечь до $50 млрд 2 ч.
Процессорные планы AMD: скоро выйдут Ryzen 7000 c 3D-кешем, а Threadripper и APU на Zen 4 — к концу следующего года 2 ч.
Kioxia сократит выпуск флеш-памяти на 30 % — это сигнал о падении всей индустрии 3 ч.
NASA снова попытается запустить лунную ракету SLS только в ноябре 4 ч.
Число бета-тестировщиков автопилота Tesla Full Self Driving выросло до 160 тыс. за год 4 ч.
ИИ-масштабирование Intel XeSS протестировали на видеокартах Intel, NVIDIA и AMD — результаты разнятся 4 ч.
Летающая обсерватория SOFIA завершила работу — в NASA прекратили финансирование проекта 5 ч.
В России впервые отмечается День работников отрасли ЦОД 8 ч.