DeepSeek最新開源的模型,已經被硅谷夸瘋了!
因為實在太DeepSeek了。3B規模、指數級效能變革、大道至簡,甚至被認為把谷歌Gemini嚴防死守的商業機密開源了。
唯一的問題可能就是被“OCR”命名耽誤了。
是的,DeepSeek剛剛開源即火爆的模型就叫:DeepSeek-OCR。

這個模型瞄準的是大模型處理長文本時的算力爆炸難題……
雖然模型參數很小,但四兩撥千斤,其背后所代表的“用視覺方式壓縮一切”的思想,大道至簡,既是人類智能的現實,也不斷出現在諸如《三體》的科幻作品中。
簡單來說,由于一張圖能包含大量文字(用的token還更少),所以他們想到并驗證了“將視覺作為文本壓縮媒介”這一方法——就好比優秀的人看書都是掃一眼就知道內容,不必一字一句讀完才理解內容。
一圖勝千言。
而且DeepSeek研究后發現,當壓縮率小于10倍時(即文本token數是視覺token數的10倍以內),模型OCR解碼準確率高達97%;即使壓縮率高達20倍,準確率依舊能保持在60%左右,效果相當能打。
更主要的是,DeepSeek再次展現了高效能風格,他們的方法之下,生成訓練數據——僅憑一塊A100-40G GPU,每天就能生成超過20萬頁的優質LLM/VLM訓練數據。
所以這個研究一經公布,已經快速在GitHub斬獲了3.3K star。HuggingFace則已經熱榜第二……X上熱議,好評聲一片。
剛“尖銳”評價過AI現狀的卡帕西說:我很喜歡……特別是圖像比文字更適合LLM輸入,妙啊。
還有人認為這是“AI的JPEG時刻”,AI記憶架構打開了新路徑。

還有爆料猜測,谷歌Gemini的核心商業機密被開源了:

當然,如此火爆的工作還帶了更多思考——不少人看過論文后,認為這種統一視覺與語言的方法,或許是通往AGI的大門之一。
以及DeepSeek還在論文中,談到了AI的記憶和“遺忘”機制。
所以,DeepSeek的新模型,論文究竟是怎么說的?
概括而言,DeepSeek這次提出了一種名為“上下文光學壓縮”(Contexts Optical Compression)的思路。
其靈感來自這樣一個巧妙的逆向思維:
既然一張圖片能“裝下”成千上萬個字,那我們能不能把文字信息壓縮到圖片里,讓模型通過“看圖”來理解內容呢?

本質上來說,這就是一種視覺-文本壓縮范式,通過用少量的視覺token來表示原本需要大量文本token的內容,以此降低大模型的計算開銷。
為驗證這一想法,他們構建了3B大小的DeepSeek-OCR模型,結果發現它在主流文檔解析基準OmniDocBench上取得了新SOTA。
下圖顯示,DeepSeek-OCR(紅色圓點)在“平均每張圖的視覺token數”(橫軸)上位于最右側,這說明它使用的token數量最少;而在“整體性能”(縱軸,越低越好)上,它卻達到了SOTA水平,而且大多還是“以小博大”。

更具體的對比如下:
僅用100個視覺token,DeepSeek-OCR就超過了每頁使用256個token的GOT-OCR2.0;當使用400個視覺token時(其中有效token為285),DeepSeek-OCR就能和之前的SOTA模型表現相當;使用不到800個視覺token,DeepSeek-OCR便大大超過了平均每頁近7000個視覺token的MinerU2.0。

這一切背后都不開DeepSeek-OCR架構的兩大核心組件:
編碼器DeepEncoder:負責把圖片轉成高度壓縮的視覺token;解碼器DeepSeek3B-MoE-A570M:負責從壓縮的視覺token里重建文字。

這里重點說一下整個系統的創新關鍵——編碼器DeepEncoder。
其核心使命為,在處理高分辨率圖像時,能夠產出數量極少但信息密度極高的視覺token。
為此它采用了“先局部處理,再壓縮,后全局理解”的串行設計:
局部處理:利用僅使用“窗口注意力”機制的SAM-base模型(8000萬參數),第一步先在高分辨率圖像上進行細粒度的局部特征提取。盡管此時生成的視覺token數量龐大,但由于窗口注意力的高效性,內存開銷仍在可控范圍內;
再壓縮:然后在中間部分加一個16倍卷積壓縮器,從而在特征進入全局注意力模塊前大幅砍掉token數量,比如一張1024x1024的圖片,經過第一階段會產生4096個token,但經過壓縮機后,只剩下256個token進入第二階段;
后全局理解:最后利用使用“全局注意力”機制的CLIP-large模型(3億參數),更深入地理解這些經過濃縮后的少量token,此時由于輸入的token數量已經大幅減少,所以這里的計算開銷也變得可以接受。
此外值得一提的是,為了靈活應對不同的壓縮比需求和實際應用場景,DeepEncoder被訓練成支持從“Tiny”(512x512, 64token)到“Gundam”(動態分塊,近800token)等多種輸入模式。
就是說,同一個模型可以根據任務需要,隨機應變地調整其“壓縮強度”。

總之,基于以上原理和組件搭配,目前DeepSeek-OCR除了具備常規識別能力,還支持對金融報表、化學分子式、數學幾何圖、100多種語言等更為復雜的圖像進行深度解析。

如此被夸贊的新研究,來自三位研究人員,依然很DeepSeek——幾人都相對低調,網上公開資料很少。

Haoran Wei,曾就職于階躍星辰,當時還主導開發了意在實現“第二代OCR”的GOT-OCR2.0系統。
(2024年9月發表的這篇論文顯示,身為論文一作的Haoran Wei所處單位為階躍。)
此次DeepSeek-OCR的工作也可謂延續了GOT-OCR2.0之前的技術路徑,即致力于通過端到端模型解決復雜文檔解析問題。

Yaofeng Sun,從去年開始就陸續參與DeepSeek多款模型研發,包括R1、V3中都有他的身影。

Yukun Li(李宇琨),谷歌學術論文近萬引研究員,也持續參與了包括DeepSeek V2/V3在內的多款模型研發。

有意思的是,這三人在提出DeepSeek-OCR之后,還貢獻了一個腦洞大開的想法——
用光學壓縮模擬人類的遺忘機制。

只需將上下文光學壓縮與人類記憶的衰退過程進行類比,我們就能發現二者高度相似:
近期記憶:就像近處的物體,清晰可見。所以可以將其渲染成高分辨率圖像,用較多的視覺token來保留高保真信息。
遠期記憶 :就像遠處的物體,逐漸模糊。所以可以將其漸進式地縮放成更小、更模糊的圖像,用更少的視覺token來表示,從而實現信息的自然遺忘和壓縮。
這樣一來,理論上模型就可以在處理超長對話或文檔時,動態地為不同時期的上下文分配不同數量的計算資源,從而可能構建出一種無限長上下文的架構。
團隊表示,雖然這還是個早期研究方向,但不失為模型處理超長上下文的一種新思路。
這個思路確實也更像人類的智能。
之前AI的上下文研究,對于短期中期遠期的都是一視同仁,機器味兒十足,但計算資源和響應問題也會相應暴漲……
而現在,DeepSeek提出新思路,是時候讓AI記憶更像人了。





京公網安備 11011402013531號