特斯拉前自動(dòng)駕駛負(fù)責(zé)人、OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy近日在推特上評(píng)論了開源的DeepSeek-OCR論文,提出了一個(gè)頗具啟發(fā)性的觀點(diǎn):相比傳統(tǒng)文本輸入,圖像作為大語言模型(LLM)的輸入形式可能更加高效。這一觀點(diǎn)在AI研究社區(qū)引發(fā)了關(guān)于模型輸入方式未來演進(jìn)方向的討論。
Karpathy認(rèn)為,當(dāng)前廣泛使用的文本token輸入方式可能既浪費(fèi)又低效,未來研究或許應(yīng)該轉(zhuǎn)向圖像輸入。他從幾個(gè)維度闡述了圖像輸入相比文本輸入的潛在優(yōu)勢(shì)。
首先是信息壓縮率的提升。將文本渲染成圖像后,可以用更少的視覺token傳遞更多信息。這是因?yàn)橐粋€(gè)圖像patch可以包含多個(gè)字符的信息,而在傳統(tǒng)文本tokenization中,每個(gè)字符或子詞都需要單獨(dú)的token。在處理大規(guī)模上下文時(shí),這種壓縮可能顯著提升模型效率,降低計(jì)算成本。
其次是信息表達(dá)的豐富性。圖像輸入天然支持加粗、顏色、字體大小、布局等視覺元素,這些格式信息在傳統(tǒng)純文本輸入中要么丟失,要么需要通過額外的標(biāo)記語言(如Markdown)來表示,后者又會(huì)增加token消耗。直接使用圖像可以讓模型更自然地理解文檔的視覺結(jié)構(gòu)和強(qiáng)調(diào)重點(diǎn)。
第三是注意力機(jī)制的優(yōu)化空間。圖像輸入可以使用雙向注意力機(jī)制,而傳統(tǒng)的文本生成任務(wù)通常采用自回歸的因果注意力。雙向注意力能夠讓模型同時(shí)關(guān)注上下文的所有位置,通常能提供更強(qiáng)的理解能力。這種處理方式避免了自回歸文本處理的一些固有限制。
Karpathy特別批評(píng)了tokenizer(分詞器)的復(fù)雜性。他認(rèn)為tokenizer是一個(gè)非端到端的歷史遺留模塊,引入了許多不必要的復(fù)雜性。例如,視覺上相同的字符可能因?yàn)閬碜圆煌琔nicode編碼而被映射到不同的token,導(dǎo)致模型對(duì)看似相同的輸入產(chǎn)生不同的理解。去掉tokenizer直接處理圖像,將使整個(gè)系統(tǒng)更加簡(jiǎn)潔統(tǒng)一。
從技術(shù)實(shí)現(xiàn)角度看,Karpathy的觀點(diǎn)建立在視覺編碼器已經(jīng)相當(dāng)成熟的基礎(chǔ)上。Vision Transformer等架構(gòu)已經(jīng)能夠高效處理圖像輸入,而DeepSeek-OCR等模型證明了視覺到文本的轉(zhuǎn)換可以達(dá)到很高的準(zhǔn)確率。將這種能力推廣到所有文本處理任務(wù),在技術(shù)上具有可行性。
不過Karpathy也指出了一個(gè)不對(duì)稱性:雖然用戶輸入可以是圖像,但模型輸出仍需要保持為文本形式,因?yàn)樯杀普娴膱D像仍然是一個(gè)未完全解決的問題。這意味著即使采用圖像輸入,模型架構(gòu)仍需要支持文本生成,不能完全摒棄文本處理能力。
這一觀點(diǎn)引發(fā)的討論涉及多個(gè)層面。從效率角度看,如果圖像輸入確實(shí)能提高信息密度,在處理長(zhǎng)文檔和大規(guī)模上下文時(shí)將有明顯優(yōu)勢(shì)。從統(tǒng)一性角度看,圖像輸入可以將文檔理解、OCR、多模態(tài)問答等任務(wù)統(tǒng)一到同一框架下,簡(jiǎn)化模型架構(gòu)。
但圖像輸入也面臨挑戰(zhàn)。首先是計(jì)算成本,雖然信息密度更高,但圖像編碼本身的計(jì)算開銷可能抵消部分收益。其次是可編輯性,純文本易于編輯和操作,而圖像形式的"文本"在后續(xù)處理中會(huì)失去這種靈活性。第三是生態(tài)兼容性,現(xiàn)有的大量文本數(shù)據(jù)和工具鏈都基于字符/token表示,完全轉(zhuǎn)向圖像輸入需要重建整個(gè)生態(tài)系統(tǒng)。
從研究方向來看,Karpathy的觀點(diǎn)提示了一個(gè)有趣的可能性:隨著視覺模型能力的提升,傳統(tǒng)的"語言模型"可能演變?yōu)楦ㄓ玫?quot;信息處理模型",其中文本只是信息的一種呈現(xiàn)形式,而非唯一的輸入表示。這種轉(zhuǎn)變可能模糊語言模型和多模態(tài)模型之間的界限。
DeepSeek-OCR論文成為這一討論的契機(jī),說明OCR任務(wù)已經(jīng)從單純的字符識(shí)別演變?yōu)楦顚拥奈臋n理解。如果OCR模型能夠準(zhǔn)確理解各種格式和布局的文本,那么將所有文本任務(wù)都視為"視覺理解"任務(wù)在概念上是合理的。
Karpathy的自嘲——"得控制住不要立刻去開發(fā)只支持圖像輸入的聊天機(jī)器人"——既表達(dá)了對(duì)這一想法的興趣,也暗示了實(shí)際落地的復(fù)雜性。這種激進(jìn)的架構(gòu)轉(zhuǎn)變需要大量實(shí)驗(yàn)驗(yàn)證,證明其在各種任務(wù)上的有效性,同時(shí)解決上述提到的各種實(shí)際挑戰(zhàn)。
從產(chǎn)業(yè)應(yīng)用角度看,即使圖像輸入最終被證明更優(yōu),過渡也會(huì)是漸進(jìn)的。更可能的路徑是混合模式:在需要保留視覺格式信息的場(chǎng)景使用圖像輸入,在需要靈活編輯和組合的場(chǎng)景使用文本輸入。這種混合策略可以兼顧兩種方式的優(yōu)勢(shì)。
總體而言,Karpathy的觀點(diǎn)提出了一個(gè)值得深入探索的研究方向,挑戰(zhàn)了文本token作為語言模型標(biāo)準(zhǔn)輸入的固有假設(shè)。無論這一愿景是否完全實(shí)現(xiàn),它都為思考模型輸入表示的優(yōu)化提供了新的視角,可能催生新一代更高效、更統(tǒng)一的AI架構(gòu)。





京公網(wǎng)安備 11011402013531號(hào)