Сегодня 25 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Mistral AI представила инструмент, который превратит любой PDF-документ в текстовый файл для ИИ

Французский разработчик больших языковых моделей (LLM) Mistral AI объявил о выпуске нового API, который предназначен для обработки сложных PDF-документов. Mistral OCR — это API оптического распознавания символов (OCR), с помощью которого любой PDF-документ можно превратить в текстовый файл, чтобы облегчить его обработку алгоритмами на основе искусственного интеллекта.

 Источник изображения: Scott Graham / Unsplash

Источник изображения: Scott Graham / Unsplash

Языковые модели, лежащие в основе популярных генеративных алгоритмов, таких как ChatGPT от OpenAI, особенно хорошо работают с необработанным текстом. Поэтому компании, которые намерены вводить собственные рабочие ИИ-процессы, знают о важности хранения и индексации данных в чистом формате, чтобы эту информацию можно было повторно использовать в процессе обработки ИИ-алгоритмами.

В отличие от многих API OCR, разработка Mistral представляет собой мультимодальный API, который способен распознавать не только текст, но также иллюстрации и фотографии, размещённые между текстовыми блоками. API OCR формирует ограничительные рамки вокруг обнаруженных графических элементов и включает их в вывод. В результате обработки PDF-документа с помощью Mistral OCR формируется отформатированный в Markdown текст, который ИИ-алгоритмы обрабатывают более эффективно.

 Источник изображения: Mistral

Источник изображения: Mistral

«С годами в организациях накапливается множество документов, часто в формате PDF или в виде слайдов, которые недоступны для обработки LLM, особенно для систем RAG [Retrieval-Augmented Generation — техника получения и использования данных в качестве контекста для генеративных ИИ-алгоритмов]. Благодаря Mistral OCR наши клиенты могут преобразовывать сложные документы в читаемый контент на всех языках. Это важнейший шаг на пути к широкому внедрению ассистентов с искусственным интеллектом в компаниях, которым необходимо упростить доступ к обширной внутренней документации», — считает соучредитель и научный руководитель Mistral Гийом Лэмпл (Guillaume Lample).

Mistral OCR доступен на собственной платформе компании, а также в инфраструктуре облачных партнёров Mistral, таких как AWS, Azure и др. Для компаний, которые работают с конфиденциальными или секретными данными, Mistral предлагает версию API для локального развёртывания. В компании заявили, что Mistral OCR работает лучше, чем аналогичные API от Google, Microsoft или OpenAI. Компания протестировала свой API на сложных PDF-документах, в том числе содержащих математические выражения, сложные макеты и таблицы.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Американский судья усмотрела в действиях Пентагона желание наказать Anthropic за её позицию 16 мин.
ChatGPT научился давать прогноз погоды на срок до 10 дней с помощью AccuWeather 35 мин.
Апскейлер PSSR 2 для PlayStation 5 имеет общие корни с технологией масштабирования AMD FSR, но использует иную реализацию 2 ч.
Вышла macOS Tahoe 26.4 с компактной панелью вкладок Safari, лимитами заряда батареи и другими нововведениями 3 ч.
Apple объединит управление устройствами и бизнес-инструменты в одной платформе — Apple Business 3 ч.
ФАС не будет штрафовать за рекламу в Telegram и YouTube до конца 2026 года 4 ч.
Разработчик «Мира танков» и «Мира кораблей» задолжал государству более 11 миллиардов рублей 5 ч.
Конец эпохи: Xiaomi отправила на пенсию MIUI — оболочку, которая прославила компанию 5 ч.
Минцифры хочет фильтровать весь трафик Рунета — средства блокировки разгонят в 2,5 раза к 2030 году 5 ч.
Apple выпустила iOS 26.4 и iPadOS 26.4 с новыми эмодзи и функциями 5 ч.
BYD второй месяц подряд обошла Tesla по продажам в Европе — отрыв увеличился 13 мин.
NextEra построит газовые электростанции на 10 ГВт для ИИ ЦОД в США 27 мин.
В России начались продажи планшета Honor Pad X8b с ёмкой батареей и большим экраном по цене от 16 тыс. рублей 39 мин.
Через два года США первыми в истории запустят корабль с ядерным двигателем за пределы земной орбиты — к Марсу 58 мин.
Microsoft получит 700 МВт в ИИ ЦОД Crusoe, от которых отказались Oracle и OpenAI 2 ч.
Amazon поглотила стартап Fauna — он выпустил домашнего робота размером с ребёнка 2 ч.
Гагарин получил 512 ИИ-ускорителей B300 — Eleveight AI развернула чипы NVIDIA в 2-МВт ЦОД в Армении 2 ч.
Volkswagen объявила отзыв почти 100 000 электромобилей из-за дефекта тяговых батарей 2 ч.
Sony передумала выпускать электромобили — совместная с Honda разработка Afeela остановлена 2 ч.
Всё на нужды ИИ: OpenAI привлечёт ещё $10 млрд от мелких инвесторов 3 ч.