Сегодня 05 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Mistral AI представила инструмент, который превратит любой PDF-документ в текстовый файл для ИИ

Французский разработчик больших языковых моделей (LLM) Mistral AI объявил о выпуске нового API, который предназначен для обработки сложных PDF-документов. Mistral OCR — это API оптического распознавания символов (OCR), с помощью которого любой PDF-документ можно превратить в текстовый файл, чтобы облегчить его обработку алгоритмами на основе искусственного интеллекта.

 Источник изображения: Scott Graham / Unsplash

Источник изображения: Scott Graham / Unsplash

Языковые модели, лежащие в основе популярных генеративных алгоритмов, таких как ChatGPT от OpenAI, особенно хорошо работают с необработанным текстом. Поэтому компании, которые намерены вводить собственные рабочие ИИ-процессы, знают о важности хранения и индексации данных в чистом формате, чтобы эту информацию можно было повторно использовать в процессе обработки ИИ-алгоритмами.

В отличие от многих API OCR, разработка Mistral представляет собой мультимодальный API, который способен распознавать не только текст, но также иллюстрации и фотографии, размещённые между текстовыми блоками. API OCR формирует ограничительные рамки вокруг обнаруженных графических элементов и включает их в вывод. В результате обработки PDF-документа с помощью Mistral OCR формируется отформатированный в Markdown текст, который ИИ-алгоритмы обрабатывают более эффективно.

 Источник изображения: Mistral

Источник изображения: Mistral

«С годами в организациях накапливается множество документов, часто в формате PDF или в виде слайдов, которые недоступны для обработки LLM, особенно для систем RAG [Retrieval-Augmented Generation — техника получения и использования данных в качестве контекста для генеративных ИИ-алгоритмов]. Благодаря Mistral OCR наши клиенты могут преобразовывать сложные документы в читаемый контент на всех языках. Это важнейший шаг на пути к широкому внедрению ассистентов с искусственным интеллектом в компаниях, которым необходимо упростить доступ к обширной внутренней документации», — считает соучредитель и научный руководитель Mistral Гийом Лэмпл (Guillaume Lample).

Mistral OCR доступен на собственной платформе компании, а также в инфраструктуре облачных партнёров Mistral, таких как AWS, Azure и др. Для компаний, которые работают с конфиденциальными или секретными данными, Mistral предлагает версию API для локального развёртывания. В компании заявили, что Mistral OCR работает лучше, чем аналогичные API от Google, Microsoft или OpenAI. Компания протестировала свой API на сложных PDF-документах, в том числе содержащих математические выражения, сложные макеты и таблицы.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
OpenAI прокачала память ChatGPT — вскоре бот сможет помнить разное и для бесплатных пользователей 55 мин.
Отправление задерживается: безумный платформер про неподвластный гравитации поезд Denshattack! не выйдет 17 июня 5 ч.
AMD не планирует наделять поддержкой FSR 4.1 встроенную графику RDNA 3.5 6 ч.
FromSoftware подтвердила дату выхода Elden Ring: Tarnished Edition для Nintendo Switch 2 и платное дополнение для других платформ 6 ч.
Apple App Store обеспечил разработчикам приложений $1,4 трлн продаж — втрое больше, чем в 2019 году 8 ч.
«Всё, о чём я мечтал, и даже больше»: 10 минут геймплея Ace Combat 8: Wings of Theve привели фанатов в восторг 8 ч.
God of War Laufey не придётся ждать годами 8 ч.
Instagram оповестил пользователей, которых взломали с помощью ИИ-бота Meta 10 ч.
Авторитетный инсайдер считает, что большая июньская презентация Nintendo Direct пройдёт на следующей неделе 11 ч.
Глава Take-Two Interactive Штраус Зельник стал рестлером — руководителя добавили в WWE 2K26 12 ч.
Новая статья: Обзор Infinix SMART 20: каким может быть бюджетный смартфон в эпоху оперативного кризиса? 53 мин.
HP и Ferrari выпустили ярко красный ноутбук HP Limited Edition Scuderia Ferrari AI PC за $5599 3 ч.
Waymo даст вторую жизнь аккумуляторам роботакси — их превратят в накопители энергии 3 ч.
Cooler Master представила процессорный кулер V8 Ace 3DHP с «экстремальной» эффективностью теплоотвода 6 ч.
Представлен доступный смартфон Huawei nova Y74 — камера 50 Мп и батарея на 6620 мА·ч 6 ч.
PowerColor показала видеокарты Radeon RX 9000, которые святятся под ультрафиолетом 7 ч.
3,84 Тбайт в формате M.2 — Swissbit представила SSD серии N7000 7 ч.
Silicon Motion нарастила продажи SSD-контроллеров на фоне дефицита NAND — нехватка памяти усугубится в 2027 году 7 ч.
7 из 10 американцев не хотят видеть дата-центры рядом с домом — ещё девять месяцев назад таких было лишь 42 % 8 ч.
Amazon представила полностью автономного складского робота Proteus с голосовым управлением 8 ч.