Сегодня 09 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Mistral AI представила инструмент, который превратит любой PDF-документ в текстовый файл для ИИ

Французский разработчик больших языковых моделей (LLM) Mistral AI объявил о выпуске нового API, который предназначен для обработки сложных PDF-документов. Mistral OCR — это API оптического распознавания символов (OCR), с помощью которого любой PDF-документ можно превратить в текстовый файл, чтобы облегчить его обработку алгоритмами на основе искусственного интеллекта.

 Источник изображения: Scott Graham / Unsplash

Источник изображения: Scott Graham / Unsplash

Языковые модели, лежащие в основе популярных генеративных алгоритмов, таких как ChatGPT от OpenAI, особенно хорошо работают с необработанным текстом. Поэтому компании, которые намерены вводить собственные рабочие ИИ-процессы, знают о важности хранения и индексации данных в чистом формате, чтобы эту информацию можно было повторно использовать в процессе обработки ИИ-алгоритмами.

В отличие от многих API OCR, разработка Mistral представляет собой мультимодальный API, который способен распознавать не только текст, но также иллюстрации и фотографии, размещённые между текстовыми блоками. API OCR формирует ограничительные рамки вокруг обнаруженных графических элементов и включает их в вывод. В результате обработки PDF-документа с помощью Mistral OCR формируется отформатированный в Markdown текст, который ИИ-алгоритмы обрабатывают более эффективно.

 Источник изображения: Mistral

Источник изображения: Mistral

«С годами в организациях накапливается множество документов, часто в формате PDF или в виде слайдов, которые недоступны для обработки LLM, особенно для систем RAG [Retrieval-Augmented Generation — техника получения и использования данных в качестве контекста для генеративных ИИ-алгоритмов]. Благодаря Mistral OCR наши клиенты могут преобразовывать сложные документы в читаемый контент на всех языках. Это важнейший шаг на пути к широкому внедрению ассистентов с искусственным интеллектом в компаниях, которым необходимо упростить доступ к обширной внутренней документации», — считает соучредитель и научный руководитель Mistral Гийом Лэмпл (Guillaume Lample).

Mistral OCR доступен на собственной платформе компании, а также в инфраструктуре облачных партнёров Mistral, таких как AWS, Azure и др. Для компаний, которые работают с конфиденциальными или секретными данными, Mistral предлагает версию API для локального развёртывания. В компании заявили, что Mistral OCR работает лучше, чем аналогичные API от Google, Microsoft или OpenAI. Компания протестировала свой API на сложных PDF-документах, в том числе содержащих математические выражения, сложные макеты и таблицы.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Наследие Deus Ex, полноценный стелс и стрельба почти как в Destiny: журналисты показали 11 минут геймплея The Outer Worlds 2 4 мин.
Microsoft сломала Windows Hello последним обновлением безопасности 11 мин.
«Конец эпохи»: CD Projekt Red полностью поглотила студию The Molasses Flood, которая делает нелинейный мультиплеерный экшен по «Ведьмаку» 2 ч.
ИИ-помощник программиста Google Gemini Code Assist научился писать приложения по описанию и переводить код из одного языка в другой 2 ч.
Yandex B2B Tech запустил сервис мониторинга и реагирования на инциденты в облачной среде 2 ч.
Microsoft подтвердила первые детали Xbox Games Showcase 2025 и анонсировала показ The Outer Worlds 2 3 ч.
ИИ Google Gemini поможет переписать приложения для мейнфреймов и перенести их в облако 3 ч.
Google представила Vertex AI Studio — набор ИИ-инструментов для создания готовых к публикации видео 3 ч.
Google представила рассуждающую ИИ-модель Gemini 2.5 Flash с высокой производительностью и эффективностью 3 ч.
Европа решила стать «ИИ-континентом»: инфраструктуру будут развивать, а регулирование — ослаблять 4 ч.
Apple разрешила пользователям ремонтировать iPhone 16e самостоятельно и начала продавать запчасти 23 мин.
Google показала живьём прототип AR-очков под управлением Android XR 26 мин.
AOC представила пару быстрых геймерских мониторов: CU34G4Z с 34" и 240 Гц и 25G4SXU с 24,5" и 300 Гц 32 мин.
Мяч с мозгами: Samsung и Google объединились для выпуска домашнего робота Ballie с ИИ Gemini и проектором 3 ч.
Учёные соединили 60 сенсоров для смартфонных камер, чтобы наблюдать за аннигиляцией антипротонов 3 ч.
Если iPhone полностью производить в США, он подорожает до $3500 3 ч.
NVIDIA и Cassava Technologies построят в Африке ИИ-фабрику за $720 млн 3 ч.
Китай ответил Трампу 50-% повышением пошлин на американские товары 4 ч.
Google представила свой самый мощный ИИ-процессор Ironwood — до 4,6 квадриллиона операций в секунду 5 ч.
Первый аукцион 5G-частот в России пройдёт до конца года — там предложат не те частоты 5 ч.