![]()
新智元報道
編輯:定慧 KingHZ
百度登頂全球第一!最新模型「PaddleOCR-VL」以0.9B參數(shù)量,在全球權(quán)威榜單OmniDocBench V1.5中以92.6分奪得綜合性能第一,橫掃文本識別、公式識別、表格理解與閱讀順序四項SOTA。
今天習(xí)慣性地刷Hugging Face,突然發(fā)現(xiàn)Trending榜單第一的模型有點眼熟。
點進去一看,這不百度飛槳昨天才發(fā)布的PaddleOCR-VL嗎,一夜之間就沖上榜首,這個速度也太快了吧!
![]()
Hugging Face:https://huggingface.co/PaddlePaddle/PaddleOCR-VL
去社區(qū)翻了一下,發(fā)現(xiàn)好多人都在聊這個模型,很多人使用后都各種稱贊,什么:
PDF天才、PDF之神、OCR之神、又小又棒、難以置信、好用、迄今為止最強、能像人類一樣理解文檔、將文檔AI提升到全新高度、最好的OCR框架。
![]()
![]()
![]()
![]()
![]()
![]()
左右滑動查看
有點夸張啊,這么厲害的嘛,必須去翻一下了。
去看了一下官方文檔,10月16日發(fā)布并開源的PaddleOCR-VL,已經(jīng)在OCR領(lǐng)域全球第一啦!
這里插一句,OCR大家都熟悉,日常掃描或者用AI讀個圖片已經(jīng)司空見慣,不過效果多多少少不能100%識別。
OCR在AI領(lǐng)域的能力,還有另一個名稱,這個能力基準(zhǔn)叫做文檔視覺語言理解基準(zhǔn)。
仔細(xì)看了一下16號公布的數(shù)據(jù),在最新OmniDocBench榜單中,PaddleOCR-VL以92.6綜合得分位列全球第一!而且是雙榜單第一。
![]()
OmniDocBench v1.0+v1.5雙榜:百度的AI模型PaddleOCR-VL,綜合性能全球第一
并且在四大核心能力維度——文本識別、公式識別、表格理解、閱讀順序中,PaddleOCR-VL均位居第一,是榜單中唯一在四項指標(biāo)中全面領(lǐng)先的模型。
![]()
然后去查了下OmniDocBench的權(quán)威性,這個基準(zhǔn)測試榜單竟然是國際上最有代表性的文檔視覺語言理解基準(zhǔn)之一。
并且GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL、InternVL 1.5、MonkeyOCR Pro等主流模型都采用這個基準(zhǔn)測試結(jié)果。
![]()
OmniDocBench幾乎包含能想到的所有PDF文件樣式和內(nèi)容
這下真的好奇心拉滿了,必須實測感受一下了。
在百度飛槳AI Studio上,提供了一個PaddleOCR-VL Demo體驗鏈接,可以直接上傳文件。
![]()
官方Demo體驗:https://aistudio.baidu.com/application/detail/98365
實測驚人,堪稱「OCR之神」
在測試完以上四項任務(wù)和評測基準(zhǔn)外一些專門上難度的例子后,覺得PaddleOCR-VL是真的有點厲害!
最直觀的感受就是,非常的準(zhǔn),或者說太準(zhǔn)了!不愧是能登頂排第一的模型。
以前我們常用的一些傳統(tǒng)OCR,或者說多模態(tài)大模型,比如GPT-5/Gemini等,大部分情況下能夠識別個80/90%,已經(jīng)覺得很厲害。
但PaddleOCR-VL給人的感覺就是不管是什么樣子的文檔上「犄角旮旯的」內(nèi)容都能識別出來。
文本識別
任意選擇了編程書上的一頁,PaddleOCR-VL的特點是對版面分解非常清晰。
分割出的每個模塊都帶有1、2、3這樣的序號,在此基礎(chǔ)上,再進行文本識別。
特地選擇了帶水印的代碼和文本混雜章節(jié),PaddleOCR-VL識別的準(zhǔn)確率是100%。
![]()
![]()
![]()
左右滑動查看
公式識別
對于復(fù)雜的數(shù)學(xué)公式,比如公式都有上下標(biāo)、且很長的情況,PaddleOCR-VL也能完美的處理。
![]()
![]()
![]()
左右滑動查看
同樣的公式,使用GPT-5 OCR的模式,因為公式太長,GPT-5就沒有識別出來。
![]()
對于手寫公式來說,也基本不在話下:
![]()
表格識別
OCR識別表格算是一個難題,而且表格類型豐富,有時候帶邊線,有時候不帶,數(shù)字又多,模型非常容易整錯。
用PaddleOCR-VL測了幾個表格,發(fā)現(xiàn)它是「看得真準(zhǔn)」。
用PaddleOCR-VL識別了一下百度的財報,可以直接整理出一個非常好看的表格。
![]()
![]()
左右滑動查看
識別一下工作報銷用的表格,結(jié)果也很完美識別,準(zhǔn)確率依然100%。
![]()
![]()
還可以把類似表格的結(jié)構(gòu)整體出來。
比如,App Store的免費APP排行榜就能提取到一張表格之中。
![]()
閱讀順序
OCR識別的另一個難題就是文檔的結(jié)構(gòu)和閱讀順序。
現(xiàn)代社會,信息的主要載體就是文檔,而現(xiàn)在的文檔不僅內(nèi)容越來越復(fù)雜,而且版面也越來越多變。
多欄布局、圖文混排、表格、折頁、背景裝飾、彩色印刷、傾斜掃描、手寫注記……都大大增加了OCR的難度。
![]()
文檔的閱讀順序不一定總是從上到下,從左到右。
在PaddleOCR-VL技術(shù)報告附錄中,還展示了模型如何像人一樣去理解復(fù)雜的文檔結(jié)構(gòu)。
![]()
![]()
以一份《2025百度人工智能創(chuàng)新與專利白皮書》為例,其中一頁是這樣。
![]()
早期傳統(tǒng)的OCR只能逐行掃描,會將紅框中的字體連成一句本不存在的話。
![]()
PaddleOCR-VL首先就對內(nèi)容的版面進行準(zhǔn)確地分割和定位。
這就是PaddleOCR-VL一個很強的能力,也是識別準(zhǔn)確率很高的一大原因:能夠像人一樣理解復(fù)雜版面結(jié)構(gòu)。
![]()
無論是學(xué)術(shù)論文、多欄報刊還是技術(shù)報告,均可智能解析版面布局,自動還原符合人類閱讀習(xí)慣的閱讀順序。
比如PaddleOCR-VL對左下角的圖片處理也很「巧妙」,它直接「截圖」,而沒有「多此一舉」去截取這些文字。
![]()
對于更加復(fù)雜版面的識別,PaddleOCR-VL的表現(xiàn)也極其穩(wěn)定。
以一份手寫筆記為例,其中涉及到文本、數(shù)字、段落和圖片等各種元素,以及人類才能理解的左右、上下分欄。
![]()
PaddleOCR-VL(左一)的分法正確、合理,分解難點在于圖片分割和上下、左右分欄。
而中間模型和右一其他模型則對版面的分解錯誤,比如無法理解「右下角的解析部分」其實是一整段。
小小揭秘一下,其他模型也是今年OCR領(lǐng)域其他爆火的VLM模型,中間是MinerU2.5,右邊是dots.ocr。
![]()
能夠登頂權(quán)威榜單,并在文本識別、公式識別、表格理解和閱讀順序四個核心維度中均位列第一,背后離不開模型在版面分解與元素識別上的極高準(zhǔn)確率。
在精度方面,PaddleOCR-VL于OmniDocBench v1.5上實現(xiàn)了紀(jì)錄級表現(xiàn):文本編輯距離僅0.035、公式識別CDM達(dá)到91.43、表格TEDS為89.76、閱讀順序預(yù)測誤差僅0.043。
這一系列數(shù)據(jù)不僅展現(xiàn)了模型在標(biāo)準(zhǔn)評測中的領(lǐng)先實力,也驗證了其在復(fù)雜文檔、手寫稿及歷史檔案等高難度場景下依然保持穩(wěn)定、精準(zhǔn)的識別能力。
但以上這些還都屬于是OCR的常規(guī)能力,PaddleOCR-VL的識別能力上限在哪里?
準(zhǔn)確率極高,才能登頂?shù)谝?/strong>
看完P(guān)addleOCR-VL的技術(shù)報告附錄中案例后,發(fā)現(xiàn)以上這些只是PaddleOCR-VL能力的冰山一角。
![]()
PaddleOCR-VL甚至可以「看懂」復(fù)雜金融圖表,并給出具體數(shù)據(jù)的估算結(jié)果,這個能力確實有點「逆天」了。
以附錄中圖表為例(btw,這個能力不屬于OmniDocBench評測基準(zhǔn))。
![]()
PaddleOCR-VL能夠準(zhǔn)確提取柱狀圖和線圖節(jié)點對應(yīng)的數(shù)值與對應(yīng)的省份進行匹配。
比如廣東省對應(yīng)的GDP數(shù)據(jù)在30000~35000之間,GDP增速在4%~5%之間,PaddleOCR-VL可以在這種「細(xì)粒度」上識別出一個區(qū)間比較準(zhǔn)確的數(shù)值。
這就非常神奇了,人拿著肉眼看也很難對齊,需要搞把尺子才能目測出來~
而PaddleOCR-VL居然可以細(xì)節(jié)到這個程度。
![]()
其他模型都或多或少的存在問題,并且作為對比的Qwen2.5VL-70B和GPT-4o,一個是參數(shù)遠(yuǎn)大于PaddleOCR-VL的開源VL模型,另一個則是經(jīng)典的閉源多模態(tài)模型。
比如Qwen2.5VL-70B模型完全無法從細(xì)粒度上識別線圖數(shù)據(jù),都識別為了4%。
而GPT-4o則是識別錯誤,有點幻覺了,比如廣東省的GDP直接識別成了6.5%。
![]()
還有一個案例也比較夸張,比如純手寫的這封信。
![]()
MinerU2.5和MonkeyOCR可能因為貼紙的干擾,未能識別到開頭部分。
![]()
復(fù)雜圖表提取和理解
除了整體文檔識別能力,PaddleOCR-VL還可以針對圖表進行識別和內(nèi)容提取。
類似這種需要從圖表中提取表格數(shù)據(jù)的任務(wù)。
PaddleOCR-VL一鍵即可完成,錯誤率幾乎為零。
![]()
![]()
多語言支持,可識別109語言
PaddleOCR-VL還是一個「世界語言引擎」,是一個能夠覆蓋109種語言的超大規(guī)模文字識別體系。
能夠精準(zhǔn)識別中文、英語、法語、日語、俄語、阿拉伯語、西班牙語等。
比如,下列希臘語的現(xiàn)代詩歌的模糊圖像,PaddleOCR-VL可分割圖像和文本。
![]()
法國文豪維克多·雨果的名言警句:
![]()
文學(xué)家陀思妥耶夫斯基的俄語名言:
![]()
德國數(shù)學(xué)家David Hilbert的墓志銘:
![]()
文本類型:手寫體、生僻字也無妨
除了識別語言,PaddleOCR-VL在識別各個古籍、手寫文本和歷史文檔也非常厲害。
古籍和各類手寫文本的挑戰(zhàn)在于,如何讓AI以人類視角「看懂」這些文字。
PaddleOCR-VL在識別各種非標(biāo)準(zhǔn)化、非結(jié)構(gòu)化文檔后,能夠按照「人類閱讀習(xí)慣」來還原文本正確順序。
不論是分欄、橫/縱向、從左向右or從右向左,PaddleOCR-VL能夠精準(zhǔn)分辨出哪些是標(biāo)題、正文、圖注,文章應(yīng)該從左向右閱讀,還是從右向左閱讀。
以下面的楷書字帖為例。
![]()
PaddleOCR-VL(左一)的準(zhǔn)確率可以做到幾乎100%。
其他模型對于「肩膀」的識別都或多或少出現(xiàn)問題,雖然他們也是OCR領(lǐng)域今年的明星項目。
![]()
而對于各種歷史類、考古類古籍,一是文本的閱讀順序和現(xiàn)代不同,二是存在大量生僻繁體字和模糊文字。
![]()
![]()
PaddleOCR-VL:文心4.5最強衍生模型
這次PaddleOCR-VL刷新了全球OCR VL模型性能天花板——
不僅超越GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL-72B等主流多模態(tài)大模型,還超越了MonkeyOCR-Pro-3B、MinerU2.5、dots.ocr等OCR領(lǐng)域模型。
在公開基準(zhǔn)OmniDocBench v1.0、v1.5和olmOCR-Bench以及內(nèi)部基準(zhǔn)上,PaddleOCR-VL均達(dá)到了最先進水平SOTA。
![]()
![]()
![]()
根據(jù)自建數(shù)據(jù)集上的測試,PaddleOCR-VL還具有出色的「跨語言」文本識別能力,在多個測試語種上均取得最佳成績,對其他的OCR專有模型實現(xiàn)了碾壓:
阿拉伯語(0.122)、韓語(0.052)、泰米爾語(0.043)、希臘語(0.135)、泰語(0.081)、泰盧固語(0.114)、天城文(0.097)、西里爾文(0.109)、拉丁文(0.013)和日文(0.086)。
![]()
在文本類型指標(biāo)中,新模型同樣表現(xiàn)優(yōu)異,所有類別均實現(xiàn)了最低錯誤率:
手寫中文(0.089)、手寫英文(0.042)、印刷中文(0.035)、印刷英文(0.016)、繁體中文(0.048)、古籍文本(0.198)、自然場景(0.067)、拼音(0.113)、生僻字(0.001)、豎排文本(0.005)、單字符(0.027)、表情符號(0.057)及藝術(shù)字體(0.165)。
![]()
不僅識別效果與這些主流技術(shù)比肩,PaddleOCR-VL具有明顯更低的時延和更高的吞吐量!
在推理方面,在單張A100 GPU上,PaddleOCR-VL每秒可處理1881個Token,推理速度較 MinerU2.5提升14.2%,較 dots.ocr 提升253.01%。
但模型的核心組件——視覺語言模型文心語言模型ERNIE-4.5-0.3B,非常小,只有0.9B!
這意味著它能部署在普通服務(wù)器、個人電腦,甚至還可以當(dāng)一個插件安裝在瀏覽器里。
但在OCR能力上,性能卻能超越70B-200B這種大體積模型,甚至還能擊敗GPT-4o、Gemini 2.5等頂尖多模態(tài)模型!
PaddleOCR-VL堪稱文心4.5最強衍生模型!
這既得益于團隊在OCR領(lǐng)域不斷的技術(shù)積累,更是因為在架構(gòu)設(shè)計和數(shù)據(jù)構(gòu)建上的創(chuàng)新。
![]()
技術(shù)報告地址:https://arxiv.org/pdf/2510.14528
打破文檔解析天花板,ERNIE-4.5-0.3B立新功
PaddleOCR-VL由PP-DocLayoutV2、PaddleOCR-VL-0.9B兩部分組成。
其中,核心部分是PaddleOCR-VL-0.9B,融合了預(yù)訓(xùn)練視覺編碼器與動態(tài)分辨率預(yù)處理器、雙層MLP投影器以及預(yù)訓(xùn)練大語言模型。
![]()
預(yù)處理技術(shù)采用原生動態(tài)高分辨率。視覺編碼器,用了NaViT風(fēng)格編碼器,其支持原生分辨率輸入。
這一設(shè)計讓視覺語言模型PaddleOCR-VL-0.9B減少了幻覺、提升了性能。
投影器則高效地將視覺編碼器的特征連接到語言模型的嵌入空間中。
在自回歸語言模型中,整個序列是通過一次預(yù)測一個標(biāo)記來生成的。這意味著解碼器的規(guī)模直接影響整體推理延遲,因此更小的模型解碼速度會更快。
考慮到這一點,團隊選擇ERNIE-4.5-0.3B模型。
這是一個開源語言模型,參數(shù)數(shù)量雖少,但推理效率很強。
可以說ERNIE-4.5-0.3B是PaddleOCR-VL-0.9B的「文本側(cè)大腦」,高效地解讀視覺編碼器「看到的」內(nèi)容。
文心ERNIE-4.5-0.3B語言模型+NaViT風(fēng)格動態(tài)分辨率視覺編碼器,雙管齊下顯著提升了PaddleOCR-VL的文檔解析性能,同時實現(xiàn)了最低的內(nèi)存占用和更快的推理速度。
![]()
在A100上,不同文檔解析模型的端到端推理速度
整體上,相較端到端方案,能夠在復(fù)雜版面中更穩(wěn)定、更高效,有效避免多模態(tài)模型常見的幻覺與錯位問題。
創(chuàng)新架構(gòu)設(shè)計:避免錯誤與幻覺
如上所述,PaddleOCR-VL由兩個核心模塊組成:
PP-DocLayoutV2:負(fù)責(zé)版面分析(layout analysis),定位文檔中的語義區(qū)域,并預(yù)測其閱讀順序(reading order)。
PaddleOCR-VL-0.9B:進一步細(xì)粒度識別多種內(nèi)容(fine-grained recognition)。
在架構(gòu)上,PP-DocLayoutV2由兩個按順序連接的網(wǎng)絡(luò)組成。
與其他專用模型相比,PP-DocLayoutV2模型通過將RT-DETR高效擴展為帶指針網(wǎng)絡(luò)的結(jié)構(gòu),以更少的參數(shù)實現(xiàn)了更高的性能。
![]()
訓(xùn)練數(shù)據(jù):廣覆蓋 + 自動標(biāo)注 + 難例挖掘
為構(gòu)建高質(zhì)量、且多樣化的訓(xùn)練數(shù)據(jù)集,PaddleOCR-VL團隊創(chuàng)新了數(shù)據(jù)構(gòu)建方法。
![]()
為支撐復(fù)雜文檔理解,團隊構(gòu)建了廣泛、多源、高難度的數(shù)據(jù)體系:
開源數(shù)據(jù)集+ 合成數(shù)據(jù) +可公開獲取的網(wǎng)絡(luò)數(shù)據(jù)+內(nèi)部數(shù)據(jù),總數(shù)據(jù)量超過3000萬樣本,而「自動化標(biāo)注+難例挖掘」保證數(shù)據(jù)高質(zhì)量Scaling。
特別是,「難例挖掘」流程突破了特定復(fù)雜場景下的性能瓶頸。
評測引擎與數(shù)據(jù)構(gòu)建:覆蓋多類型任務(wù)的評測引擎,并人工構(gòu)建了大規(guī)模評測集,包含23類文本、20類表格、4類公式、11類圖表;
難例識別:在該評測集上執(zhí)行推理,并結(jié)合對應(yīng)的專業(yè)指標(biāo)即可精確定位模型表現(xiàn)欠佳的「硬樣本」。
難例合成與強化:針對識別出的薄弱點,系統(tǒng)利用豐富的資源與渲染工具,批量合成高質(zhì)量的新增難例,用于定向訓(xùn)練與性能提升。
高精度輕量的模型,對于OCR行業(yè)意味著什么
縱觀歷史,信息抽象和檢索的進步一直推動著人類的發(fā)展。
從象形文字到莎草紙,從印刷術(shù)到數(shù)字化,每一次飛躍都讓人類知識變得更容易獲取和應(yīng)用,從而激發(fā)更多創(chuàng)新。
如今,我們正處于下一個重大飛躍的邊緣——解鎖所有數(shù)字化信息的集體智慧。
技術(shù)上,OCR任務(wù)成為VL大模型競爭關(guān)鍵之一。
價值上,大模型時代,OCR越來越越來越重要——
現(xiàn)實世界的信息以非結(jié)構(gòu)化形態(tài)存在,大模型要發(fā)揮價值,必須依賴OCR進行信息轉(zhuǎn)化。
OCR地位上升的三大原因:
產(chǎn)業(yè)流程自動化:金融、物流、保險等場景需要大規(guī)模文檔處理。高精度低成本的OCR是唯一可持續(xù)路徑,成為大模型的高效「信息提取層」。
RAG應(yīng)用:企業(yè)知識多沉淀在掃描件、合同、報告中。OCR質(zhì)量決定了RAG鏈路的「輸入質(zhì)量」,影響最終輸出。
大模型進化:人類知識需經(jīng)OCR數(shù)字化才能成為大模型訓(xùn)練的養(yǎng)料。
OCR行業(yè)的AI新生
全球科技巨頭在OCR領(lǐng)域展開激烈競爭,紛紛推出創(chuàng)新模型。
比如,IBM聯(lián)合HuggingFace推出專用小模型SmolDocling;Mistral AI推出1000頁1美元的OCR服務(wù)等。
2023年,市場研究與咨詢公司Grand View Research預(yù)計,到2030年將增長至329億美元,2024-2030年復(fù)合年增長率達(dá)14.8%;市場增長主要驅(qū)動力,源于生產(chǎn)效率提升及自動內(nèi)容識別系統(tǒng)普及。
![]()
最近,Allied Market Research預(yù)計,從2025年到2034年將以15.1%的復(fù)合年增長率增長,到2034年將達(dá)到506.065億美元。
而Adobe、ABBYY、亞馬遜、微軟、IBM、谷歌母公司Alphabet等早已成為市場的主要玩家。
這些公司正通過擴展服務(wù)范圍、建立戰(zhàn)略合作、提升數(shù)字可及性、加強客戶觸達(dá)和技術(shù)創(chuàng)新等方式鞏固市場競爭力。
![]()
而PaddleOCR-VL的這次開源,或?qū)⑦M一步?jīng)_擊市場。
登頂背后:還得是經(jīng)典
PaddleOCR-VL的沖榜速度確實讓人很吃驚。
乍一看,PaddleOCR-VL好像是突然冒出來的一個模型,但其實背后的團隊和模型已經(jīng)打磨好多年了~
PaddleOCR-VL是由百度飛槳PaddleOCR團隊出品,PaddleOCR-VL模型是在PaddleOCR基礎(chǔ)上迭代而來,而PaddleOCR在OCR領(lǐng)域是很早就出名了。
PaddleOCR自2020年開源以來,累計下載量已經(jīng)突破900萬,被超過6k開源項目直接或間接使用。
![]()
該項目也是GitHub社區(qū)中唯一一個Star數(shù)超過50k的中國OCR項目。
![]()
PaddleOCR,這個經(jīng)典的模型可以說是「久經(jīng)考驗」。
在歷經(jīng)多年打磨后的PaddleOCR VL能夠一飛沖天,其實本質(zhì)上還是厚積薄發(fā),也是很能說得過去了。
OCR行業(yè)也可以說是踩中了AI的浪潮,成為「風(fēng)口上的豬」。
現(xiàn)在AI不論是從需要閱讀文檔的角度,還是為AI提供訓(xùn)練語料的角度,OCR是最開始也是最重要的環(huán)節(jié)之一。
未來,隨著AI原生應(yīng)用的加速到來,文檔將不再只是信息的容器,而是大模型學(xué)習(xí)和認(rèn)知世界的入口。
而PaddleOCR-VL,正成為AI認(rèn)識世界的一雙眼睛。
彩蛋
1989年,Yann LeCun(圖靈獎得主)首次將反向傳播神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫數(shù)字識別。
他讓神經(jīng)網(wǎng)絡(luò)直接「學(xué)」到字符識別的映射,而無需復(fù)雜的特征工程。
![]()
不管是圖像識別還是OCR,這是機器能夠看懂「文字」的一個關(guān)鍵節(jié)點。
那么25年過去了,現(xiàn)在的OCR技術(shù)能不能準(zhǔn)確識別這些數(shù)字?
用PaddleOCR-VL試了下,能夠準(zhǔn)確地識別了這些數(shù)字。
![]()
意外的是,GPT-5 OCR在識別右上角「75216」時,錯誤的識別成「75316」。(因為數(shù)字2上面有個干擾項)
第二行右側(cè)的「23505」也莫名多了一個「5」,變成了「235505」。
![]()
谷歌的Gemini 2.5 Pro同樣在多處識別錯誤。
![]()
看來還是術(shù)業(yè)有專攻,在OCR領(lǐng)域,PaddleOCR-VL更勝一籌。
參考資料:
https://arxiv.org/pdf/2510.14528
https://huggingface.co/PaddlePaddle/PaddleOCR-VL
https://aistudio.baidu.com/application/detail/98365
![]()





京公網(wǎng)安備 11011402013531號