智通財經APP獲悉,11月25日,騰訊混元推出全新開源模型 HunyuanOCR,參數僅為1B,依托于混元原生多模態架構打造,獲得多項業界OCR應用榜單SOTA(最先進水平)成績。據介紹,HunyuanOCR 具有高度易用性,不僅體積小,便于部署,得益于混元原生多模態大模型“端到端”的理念設計,各項功能僅需單次前向推理即可直達最優結果,較業界級聯方案更高效和便捷,性價比高。
混元OCR專家模型依托于混元原生多模態架構打造,主要由三大部分組建構成:原生分辨率視頻編碼器、自適應視覺適配器和輕量化混元語言模型。
不同于其他開源的OCR專家模型或系統,HunyuanOCR模型的訓練和推理均采用全端到端范式,通過規模化的高質量應用導向數據,結合在線強化學習,模型表現出了非常穩健的端到端推理能力。
值得注意的是,混元OCR多項核心能力達到SOTA效果,其中在復雜文檔解析的OmniDocBench測評中,獲得了最高的94.1分,效果超過了谷歌的Gemini3-pro等一眾領先的模型;文字檢測和識別能力,在自建覆蓋了9大應用場景(文檔、藝術字、街景、手寫、廣告、票據、截屏、游戲、視頻)的基準上,大幅度領先同類開源模型以及商業OCR模型;在OCRBench榜單上,總得分為860分,以僅僅1B總參數的模型配置,取得了包括通用視覺理解模型在內總參數3B以下的SOTA成績。





京公網安備 11011402013531號