![]()
古代文獻就像是時光的密碼箱,里面鎖著前人的智慧和故事,但由于年代久遠、字跡模糊,這些珍貴的歷史資料往往只能靜靜躺在圖書館里。現在,斯坦福大學的研究團隊終于找到了打開這些密碼箱的鑰匙。這項由斯坦福大學的Sina J. Semnani、Han Zhang、Xinyan He、Merve Tekgürler和Monica S. Lam領導的研究發表于2025年1月的arXiv預印本論文庫,編號為arXiv:2509.19768v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
研究團隊開發了一個名為CHURRO的人工智能系統,就像給古代文獻配備了一位經驗豐富的古文字專家。這個系統不僅能識別各種古老的文字,還能理解不規則的排版和因年代久遠而模糊的文字。更令人驚嘆的是,它可以處理從公元前3世紀到20世紀跨越22個世紀的文獻,覆蓋46種不同的語言和方言,包括許多已經消失的古代語言。
整個研究就像是為歷史文獻打造了一套萬能翻譯工具。研究團隊首先收集了一個名為CHURRO-DS的超大規模數據庫,這個數據庫包含了近10萬頁歷史文獻,涵蓋了歐洲、東亞、東南亞、中東和印度等地區的14種不同文字系統。這些文獻包括報紙、書籍、手寫日記、政府記錄等各種類型的歷史材料。
一、古文獻識別面臨的巨大挑戰
想象一下,你拿到一本祖傳的古書,上面的字跡已經因為年代久遠而變得模糊不清,有些頁面甚至出現了霉斑和破損。更復雜的是,這本書使用的是幾百年前的字體和拼寫方式,排版也和現代書籍完全不同。這正是歷史文獻數字化面臨的真實挑戰。
傳統的文字識別技術就像是一個只會閱讀現代印刷體的學生,當遇到古代手寫體或特殊字體時就束手無策。這些古代文獻具有許多獨特的特征:首先是語言的復雜性,不僅包括現代語言的歷史變體,還包括許多已經消失的古代語言。比如一份中世紀的拉丁文手稿,不僅使用的是古拉丁語,還充滿了當時特有的縮寫和簡寫形式。
其次是書寫方式的多樣性。古代文獻中經常出現各種裝飾性元素,如紅色的標題字、邊緣的注釋,以及精美的插圖。這些在現代文檔中很少見的特征,對文字識別系統來說都是額外的挑戰。手寫文獻的識別更加困難,因為不同的書寫者有不同的筆跡風格,即使是同一個人,在不同時期的書寫風格也可能發生變化。
第三個挑戰是物理狀態的退化。經過幾個世紀的保存,許多文獻都出現了不同程度的損壞,比如紙張發黃、墨跡褪色、頁面撕裂等。這些物理損傷使得原本就復雜的文字識別變得更加困難。
二、CHURRO系統的核心創新
面對這些挑戰,斯坦福的研究團隊采用了一種全新的解決方案。CHURRO系統就像是一個博學的古文字學者,不僅精通各種古代語言和文字,還具備強大的適應能力。
系統的核心是基于一個名為Qwen 2.5 VL的基礎模型,這個模型原本就具備處理圖像和文字的能力。研究團隊將其比作一個聰明的學生,雖然有一定的基礎,但還需要專門的訓練才能成為古文獻專家。通過在CHURRO-DS數據集上進行專門訓練,這個系統學會了如何處理各種復雜的歷史文獻。
與傳統方法不同,CHURRO采用了端到端的處理方式。傳統的文檔識別系統通常需要先檢測文字區域,然后逐個識別,最后再確定閱讀順序。這就像是把一幅拼圖拆散,然后試圖重新組裝。而CHURRO則能夠直接查看整個頁面,理解其中的內容和結構,就像人類閱讀文獻時的自然過程一樣。
這種方法特別適合處理復雜的歷史文獻布局。比如一份古代報紙可能采用多欄排版,還夾雜著廣告和插圖,傳統系統很難準確判斷正確的閱讀順序。CHURRO則能夠理解頁面的整體結構,正確識別從右到左或從上到下的閱讀方向,甚至能處理一些特殊的排版形式。
三、數據寶庫CHURRO-DS的構建
為了訓練CHURRO系統,研究團隊構建了迄今為止最大規模的歷史文獻數據庫CHURRO-DS。這個數據庫的建設過程就像是組織一次全球性的歷史文獻大搜集活動。
研究團隊花費了大量時間搜集和整理來自155個不同來源的歷史文獻,最終匯集了99491頁文檔。這些文獻跨越了從公元前3世紀到20世紀的漫長歷史時期,覆蓋了46種不同的語言集群。其中包括29種語言出現在驗證和測試數據集中,包括阿拉伯語、孟加拉語、保加利亞語、加泰羅尼亞語、中文、捷克語、荷蘭語、英語、芬蘭語、法語、德語、希臘語、希伯來語、印地語、意大利語、日語、高棉語、拉丁語、挪威語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、梵語、斯洛文尼亞語、西班牙語、瑞典語、土耳其語和越南語。
數據集還涵蓋了14種不同的文字系統,來自歐洲、東亞、東南亞、中東和印度等5個主要文字家族。這種多樣性確保了CHURRO系統能夠處理世界各地的歷史文獻,而不僅僅局限于某一種特定的語言或文字。
數據庫中的文獻類型也極其豐富,包括報紙、書籍、手寫日記、政府記錄等。每一頁文獻都配有完整的文本標注,這些標注是按照外交轉錄的標準制作的,也就是說,轉錄的文本完全忠實于原始文檔的內容,包括原有的拼寫、標點和格式。
四、訓練過程中的精心調校
訓練CHURRO系統的過程就像是培養一個古文獻專家。研究團隊選擇了Qwen 2.5 VL作為基礎模型,這是一個30億參數的多模態模型,具備處理圖像和文本的能力。雖然相比其他一些大型模型來說參數較少,但這個規模對于歷史文獻識別任務來說已經足夠了,而且能夠保持較高的運行效率。
訓練過程中,系統學習了如何處理各種復雜的歷史文獻特征。比如,它學會了識別各種古代字體,從哥特式字體到各種手寫體;學會了理解不同的頁面布局,從單欄到多欄,從水平文本到垂直文本;還學會了處理各種文檔狀態,從清晰的印刷品到模糊的手稿。
整個訓練過程使用了32個NVIDIA H100 GPU,持續了大約25小時。研究團隊采用了梯度累積技術,有效批次大小為128,學習率為5×10^-5,并使用了余弦學習率調度策略。這些技術細節確保了模型能夠穩定有效地學習數據集中的復雜模式。
五、令人驚嘆的性能表現
經過訓練的CHURRO系統表現出了令人印象深刻的能力。在印刷文檔的識別上,CHURRO達到了82.3%的標準化編輯距離相似度,在手寫文檔上達到了70.1%。這個成績不僅超越了所有其他開源模型,甚至比最好的商業模型Gemini 2.5 Pro還要好,在印刷和手寫文檔上分別高出1.4%和6.5%。
更令人驚嘆的是成本效益。CHURRO的運行成本僅為Gemini 2.5 Pro的1/15.5,這意味著同樣的預算可以處理15倍多的文獻。對于需要大規模數字化歷史文檔的圖書館和研究機構來說,這種成本優勢具有重要意義。
研究團隊對各種不同語言的處理效果進行了詳細分析。在印刷文檔方面,CHURRO在大多數語言上都表現出色,特別是在日語、芬蘭語和瑞典語等語言上改進最為明顯,分別提升了37.0%、32.9%和22.9%。在手寫文檔方面,希臘語、日語、土耳其語、希伯來語和波斯語的改進最為顯著,分別提升了62.6%、54.7%、42.3%、42.1%和36.8%。
六、深入的錯誤分析與改進空間
為了更好地理解CHURRO的表現,研究團隊進行了詳細的錯誤分析。他們發現,CHURRO在處理閱讀順序方面比基礎模型有顯著改進。在50個樣本中,基礎模型有42%出現重大閱讀順序錯誤,而CHURRO只有16%。這種改進對于保持文檔內容的連貫性和準確性至關重要。
最常見的問題是欄目順序處理。許多CHURRO-DS中的頁面采用兩欄或多欄布局,一些模型容易搞錯閱讀順序。對于東亞文字,這個問題更加突出,因為許多古代文獻采用從上到下、從右到左的書寫方向,而基礎模型往往無法正確識別這種傳統布局方式。
另一個有趣的發現是關于幻覺現象。基礎模型中有36%的預測出現重大幻覺,也就是說,當模型無法可靠識別文本時,會生成看似合理但實際錯誤的內容。比如,在一份18世紀的荷蘭信件中,模型正確識別出這是一封信,但由于無法轉錄實際內容,就生成了"Dit is een brief"(荷蘭語"這是一封信")這樣的內容。經過訓練的CHURRO完全消除了這種幻覺現象。
研究團隊還發現了一些金標準標注中的錯誤。在檢查的50個樣本中,有2個包含不完整的頁面文本,這些錯誤來自原始數據集中的標注問題,在清理過程中未能完全發現。這提醒我們,即使是精心構建的數據集,也可能存在一些難以避免的問題。
七、與現有技術的全面比較
研究團隊將CHURRO與各種現有技術進行了全面比較,包括專門的OCR系統、通用的大型視覺語言模型以及商業API服務。
在專門的OCR系統中,Azure OCR表現最好,達到71.9%的平均性能,但仍比CHURRO低10.4%。有趣的是,將Azure OCR與Gemini 2.5 Pro結合的混合系統表現反而更差,平均只有52.6%,在每種語言上的表現都不如其單獨組件。這說明簡單的系統組合并不一定能帶來性能提升。
在開源的視覺語言模型中,專門針對OCR優化的模型表現最好,如NuMarkdown、olmOCR和Nanonets OCR分別達到72.7%、69.8%和69.7%。但它們仍然顯著落后于CHURRO。
商業模型方面,Gemini 2.5 Pro在零樣本設置下達到80.9%的印刷文檔識別率和63.6%的手寫文檔識別率,是商業模型中表現最好的。其他商業模型的表現差異很大,從38.7%到73.1%不等。
一個有趣的發現是,模型大小與性能之間并沒有明顯的相關性。比如,3B參數的Qwen 2.5 VL表現優于同系列的72B參數版本,這與GPT-4.1和GPT-5系列中Mini模型的表現類似。這提醒我們,對于特定任務,精心設計的小模型可能比簡單放大的大模型更有效。
八、技術細節與實現策略
CHURRO的技術實現涉及多個關鍵決策。首先是模型架構的選擇。研究團隊選擇了Qwen 2.5 VL作為基礎,主要考慮其緊湊的規模、強大的零樣本OCR性能,以及處理高分辨率、可變大小圖像的能力。這些特性對于處理多樣化的歷史文獻布局至關重要。
在數據預處理方面,團隊采用了sophisticated的標準化流程。他們將各種標注格式(如ALTO XML、PAGE XML、JSON、純文本)統一轉換為單個文本字符串,并確保正確的閱讀順序。對于缺少明確閱讀順序標注的數據集,他們開發了數據集特定的啟發式方法,對于復雜布局則使用VLM確定閱讀順序。
數據清理過程也極其細致。研究團隊識別并修正了16個數據集中的標注問題。比如,某些數據集遺漏了頁面頂部的文本,另一些包含頻繁的轉錄錯誤。他們使用Gemini 2.5 Pro根據圖像邊界框建議修正,然后由人工驗證這些修正。
為了確保外交轉錄的準確性,研究團隊標準化了各種印刷元素。他們將分數符號(如1/4,Unicode U+00BC)轉換為1/4,將連字符(如Unicode U+FB06)轉換為"st"。這種標準化確保了評估系統只需轉錄可見內容,而不依賴特定數據集的指導原則。
九、評估方法與指標設計
研究團隊采用了標準化的Levenshtein相似度作為主要評估指標。這個指標測量將一個字符串轉換為另一個字符串所需的插入、刪除和替換操作次數,然后用較長字符串的長度進行標準化,最后轉換為相似度分數。這個指標與OCR研究中常用的字符識別率密切相關,但被限制在0到1的范圍內,便于跨不同文本長度進行比較。
為了確保公平比較,研究團隊對所有模型預測應用了相同的標準化程序。對于阿拉伯文字,他們還使用PyArabic工具包進行了額外的音調符號和hamza標準化。
評估結果按印刷和手寫文檔類型分別計算和平均。這種分類反映了兩種文檔類型的不同難度水平,手寫文檔通常更難識別,因為存在個體書寫風格的變化。
十、歷史文獻數字化的深遠意義
CHURRO的成功不僅僅是技術上的突破,更具有深遠的文化和學術意義。歷史文獻的數字化一直是人文學科的重要目標,但傳統方法要么成本高昂,要么準確率不足。CHURRO提供了一個可行的解決方案,使得大規模歷史文獻數字化成為可能。
對圖書館和檔案機構而言,CHURRO意味著他們可以以相對較低的成本將珍貴的歷史藏品數字化,使這些材料更容易被研究者和公眾獲取。即使是不完美的轉錄結果也能作為有價值的初稿,大大減少人工校對所需的時間。
對歷史學家和其他人文學者來說,CHURRO讓原本只有少數專家能夠閱讀的古代文獻變得更加易于獲取。這可能會促進新的研究發現,因為更多研究者能夠訪問和分析歷史文獻。
此外,CHURRO的多語言能力意味著它能夠幫助保護那些使用較少研究語言的文化遺產。許多歷史文獻使用的是現在已經很少使用或研究的語言,CHURRO能夠幫助這些文獻得到更好的保存和傳播。
說到底,CHURRO代表了人工智能技術與人文學科結合的一個成功范例。它不是要取代人類專家,而是要放大他們的能力,讓更多的歷史聲音能夠被聽到。通過讓沉睡千年的文獻重新開口說話,CHURRO為我們理解人類歷史和文化開辟了新的可能性。
研究團隊已經將CHURRO模型和CHURRO-DS數據集開源發布,希望能夠促進社區驅動的研究,進一步改善歷史文本的可讀性,加速學術研究的進展。這種開放的態度體現了學術界合作精神,也為這一重要技術的廣泛應用奠定了基礎。雖然目前的技術還不夠完美,但它已經為歷史文獻數字化領域帶來了革命性的改變,相信在未來會有更多的改進和創新。
Q&A
Q1:CHURRO是什么系統?
A:CHURRO是斯坦福大學開發的人工智能歷史文獻識別系統,就像給古代文獻配備了一位經驗豐富的古文字專家。它能識別各種古老文字,理解不規則排版和模糊文字,可以處理從公元前3世紀到20世紀跨越22個世紀的文獻,覆蓋46種不同語言。
Q2:CHURRO-DS數據集有什么特別之處?
A:CHURRO-DS是目前最大規模的歷史文獻數據庫,包含99491頁來自155個不同來源的文檔,涵蓋46種語言集群和14種文字系統。這些文獻包括報紙、書籍、手寫日記、政府記錄等,每頁都配有完整的外交轉錄標注,完全忠實于原始文檔內容。
Q3:CHURRO的識別準確率如何?
A:CHURRO在印刷文檔識別上達到82.3%準確率,手寫文檔達到70.1%準確率,不僅超越所有開源模型,還比最好的商業模型Gemini 2.5 Pro分別高出1.4%和6.5%。同時運行成本僅為商業模型的1/15.5,具有極高的性價比優勢。





京公網安備 11011402013531號