MWS Vision Bench
На «Финополис-2025» CEO MWS AI, Денис Филиппов, рассказал, что их команда запустила первый открытый бенчмарк для мультимодальных моделей.
Инструмент предназначен для оценки моделей, которые работают с документами, содержащими изображения и текст на русском.
До сих пор подходящих бенчмарков для русского языка не существовало — международные наборы вроде OCRBench или AI2D ограничены английским и китайским.
Внутри:
— 800 изображений,
— 2580 заданий,
— договоры, схемы, таблицы, рукописные записи и чертежи.
Валидационная часть выложена в открытый доступ. Можно тестировать свои модели и сравнивать результаты.
CEO MWS AI отметил, что без единых инструментов оценки сложно сравнивать мультимодальные модели и определять, какие из них действительно подходят для применения в бизнесе.
Согласно первым результатам в бенчмарке, лидируют Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini.
В сравнении также участвовали ChatGPT-5 и Qwen3-VL.
Исходники тут:
🧩 GitHub — github.com/mts-ai/MWS-Vision-Bench
📂 Hugging Face — huggingface.co/datasets/MTSAIR/MWS-Vision-Bench