IT之家 11 月 25 日消息,騰訊混元今日宣布推出全新開源模型 HunyuanOCR,參數僅為 1B,依托于混元原生多模態架構打造,獲得多項業界 OCR 應用榜單 SOTA(IT之家注:最先進水平)成績。

騰訊官方表示,得益于混元原生多模態大模型“端到端”的理念設計,HunyuanOCR 各項功能僅需單次前向推理即可直達最優結果。
混元 OCR 專家模型依托于混元原生多模態架構打造,主要由三大部分組建構成:原生分辨率視頻編碼器、自適應視覺適配器和輕量化混元語言模型。
不同于其他開源的 OCR 專家模型或系統,HunyuanOCR 模型的訓練和推理均采用全端到端范式,通過規模化的應用導向數據,結合在線強化學習,模型表現出了穩健的端到端推理能力。

混元 OCR 多項核心能力達到 SOTA 效果,其中在復雜文檔解析的 OmniDocBench 測評中,獲得了最高的 94.1 分,效果超過了谷歌的 Gemini3-pro 等一眾領先的模型;文字檢測和識別能力,在自建覆蓋了 9 大應用場景(文檔、藝術字、街景、手寫、廣告、票據、截屏、游戲、視頻)的基準上,大幅度領先同類開源模型以及商業 OCR 模型;在 OCRBench 榜單上,總得分為 860 分,以僅僅 1B 總參數的模型配置,取得了包括通用視覺理解模型在內總參數 3B 以下的 SOTA 成績。
在小語種翻譯能力,混元 OCR 支持 14 種高頻小語種翻譯翻譯中文或英文的效果,并且取得了 ICDAR2025 端到端文檔翻譯比賽小模型賽道冠軍。

應用場景方面,HunyuanOCR 支持多語種復雜文檔解析,同時兼具文字檢測和識別能力,在票據字段抽取、視頻字幕識別、拍照翻譯等場景得到應用。
在文字檢測和識別能力上,模型對文檔、藝術字、街景、手寫、廣告、票據、截屏、游戲、視頻等場景上表現卓越。

復雜文檔解析指的是對多語種文檔掃描件或拍攝圖像進行電子化,具體地,就是將圖片中出現的文本內容按照閱讀順序進行組織、公式采用 Latex 格式、復雜表格采用 HTML 格式表達。

此外常見的應用場景還要票據字段提取、視頻字幕提取和拍照翻譯等功能。
1、對常見卡證和票據的感興趣字段(如姓名 / 地址 / 單位等),采用標準的 json 格式解析。

2、對視頻的字幕實現自動化抽取,包括雙語字幕。

3、拍照翻譯功能,支持 14 種高頻應用小語種,具體包括:德語、西班牙語、土耳其語、意大利語、俄語、法語、葡萄牙語、阿拉伯語、泰語、越南語、印尼語、馬來語、日語、韓語翻譯成中 / 英文,以及中英互譯功能。






京公網安備 11011402013531號