Mistral выпустила OCR 4 с bounding boxes и оценками уверенности за $4

Mistral выпустила OCR 4 — модель для распознавания и структурирования документов. Главное отличие от прошлых версий: она возвращает не просто текст, а типизированные блоки с bounding boxes и оценкой уверенности для каждого слова и страницы. Это даёт понимание, где находится текст, какую роль играет (заголовок, таблица, формула, подпись) и насколько модель уверена в распознавании.

OCR 4 поддерживает 170 языков из 10 языковых групп, включая редкие и низкоресурсные, с которыми многие конкуренты справляются плохо. Модель компактная — помещается в один контейнер для полностью изолированного развёртывания на своей инфраструктуре. Это важно для компаний с требованиями к суверенитету данных.

В бенчмарках OCR 4 показывает лучшие результаты. На публичном OlmOCRBench — 85.20, на внутреннем Crawl Multilingual — 0.98, на OmniDocBench — 93.07. В человеческих тестах независимые аннотаторы предпочитали OCR 4 большинству конкурентов: средний win rate — 72%. При этом в отчёте честно указывают на артефакты бенчмарков: неправильные референсы, проблемы со сравнением эквивалентных LaTeX-формул, ошибочное снятие баллов за мультиколоночную вёрстку и header/footer. Так что к агрегированным цифрам советуют относиться как к ориентиру, а не абсолютной истине.

Стоимость: $4 за 1000 страниц через API, со скидкой 50% на Batch API — $2 за 1000 страниц. Document AI (надстройка с кастомными JSON-схемами и промптами на базе mistral-small-2603) стоит $5 за 1000 страниц.

OCR 4 уже доступна через Mistral Studio, Amazon SageMaker, Microsoft Foundry и скоро появится в Snowflake Parse Document. Также есть интеграция с Mistral Search Toolkit — фреймворком для поиска и RAG. Для строгих требований к приватности — self-hosted развёртывание.