最近,普林斯頓大學(xué)和加州大學(xué)伯克利分校發(fā)布的一項(xiàng)研究《Machine Bullshit》徹底火了。該研究受哲學(xué)家 Harry Frankfurt 啟發(fā),提出“機(jī)器胡扯”概念,用于描述大模型為達(dá)成目標(biāo)而漠視真相的輸出現(xiàn)象。
大模型擅長一本正經(jīng)地胡說八道,早就不是什么新鮮事,但這項(xiàng)研究得以火到被全網(wǎng)討論的原因在于,人類首次系統(tǒng)定義并量化了大模型的胡扯行為。研究團(tuán)隊(duì)提出了“胡扯指數(shù)(Bullshit Index)”指標(biāo),發(fā)現(xiàn) 經(jīng)過強(qiáng)化學(xué)習(xí)人類反饋(RLHF)訓(xùn)練后,大模型胡扯指數(shù)飆升近一倍,甚至思維鏈(Chain-of-Thought)提示也沒能改善這一現(xiàn)象,復(fù)雜推理反而讓模型更擅于“包裝”誤導(dǎo)性內(nèi)容。
這與多數(shù)人的直覺正相反——復(fù)雜推理意味著大模型更加深思熟慮,減少胡扯行為。然而事實(shí)卻是,隨著推理鏈長度的加深,模型在感知任務(wù)中的視覺對齊能力下降,胡扯更嚴(yán)重。美國 Vectara 公司發(fā)布的評估幻覺率排行榜更是指出,推理大模型與之前開發(fā)的模型相比,幻覺率上升了兩位數(shù)。
當(dāng)大模型們開始陷入“越聰明越胡扯”的惡性循環(huán),不斷通過“編故事”來填補(bǔ)邏輯鏈,讓它不再胡說八道,已經(jīng)成為當(dāng)前所有應(yīng)用大模型的企業(yè)亟待解決的第一題。目前,業(yè)界緩解大模型幻覺的主流策略包括 RAG、聯(lián)網(wǎng)搜索、提示詞邊界限定等,這些解法普遍聚焦在大模型本身。如果幻覺無法“根治”,是否還有大模型之外的其他解法?
在 2025 世界人工智能大會(WAIC)上,螞蟻集團(tuán)旗下螞蟻密算帶來了新的解題思路——高階程序(High-Order Program,HOP)大模型可信應(yīng)用技術(shù)框架,通過智能與工程的深度融合,用工程化方法為大模型注入領(lǐng)域知識、約束規(guī)則和驗(yàn)證流程,從而提高大模型可靠性。
1大模型幻覺只能“緩解”,無法“根治”?
在 AI 時代的輿論場,大模型幻覺是一個高頻詞匯,幾乎每隔一段時間,就會被重新擺上桌面,引發(fā)廣泛討論。
原因在于,幻覺是大模型概率生成機(jī)制的固有缺陷,盡管技術(shù)加速迭代,模型規(guī)模指數(shù)級增長,但幻覺始終無法得到根治,只能通過技術(shù)手段緩解。
隨著大模型落地應(yīng)用加速,由幻覺引發(fā)的可靠性問題,逐漸成為企業(yè)卡在喉嚨里,最痛的那根刺——在企業(yè)級的應(yīng)用中,90% 的準(zhǔn)確率是一條基本線;而在一些復(fù)雜度高的專業(yè)領(lǐng)域,99% 的準(zhǔn)確率才是及格線。
然而現(xiàn)實(shí)卻是,大模型在處理一些常見簡單任務(wù)時,可靠性比人類還差,僅能達(dá)到 70%-85%。可以說,幻覺引發(fā)的可靠性問題已經(jīng)成為制約大模型在企業(yè)級應(yīng)用落地的最大瓶頸。
針對大模型幻覺,目前業(yè)界已經(jīng)探索出多種緩解策略,比如,通過檢索增強(qiáng)生成(RAG)引入外部知識庫,為模型提供實(shí)時的事實(shí)依據(jù);通過聯(lián)網(wǎng)搜索功能幫助模型獲取最新信息;通過提示詞工程劃定模型生成邊界。從應(yīng)用效果來看,這些方法確實(shí)能在一定程度上減少幻覺發(fā)生,但更多還是聚焦在大模型本身。
“我們通過觀測發(fā)現(xiàn),提升大模型可靠性的解法,并不在于大模型自身,而在于大模型的應(yīng)用方式。”螞蟻集團(tuán)副總裁、螞蟻密算董事長韋韜表示,當(dāng)前的大模型應(yīng)用方式,仍然停留在“手工作坊”階段,參考人類提升可靠性的解法,應(yīng)采用工程化和智能化融合的方式來應(yīng)用大模型。“很多人將智能化與工程化視為對立的兩面,認(rèn)為只有大模型能完成的事情才叫做智能化。這種觀念顯然有誤。我們認(rèn)為,智能化與工程化不應(yīng)相互對立,而應(yīng)深度融合。工程化是人類發(fā)展歷程中極為寶貴的沉淀,它通過體系保障各專業(yè)所需的可靠性,本身就是智力核心的產(chǎn)物,不應(yīng)被孤立看待。”
雖然工程化在不同的領(lǐng)域,有著不同的表現(xiàn)形式,但最通用的方法論可以歸納為兩點(diǎn):分解與核驗(yàn)。
分解可參考標(biāo)準(zhǔn)作業(yè)程序(SOP),這一理念最初由科學(xué)管理之父 F·W·Taylor 提出,通過“動作分析”將生產(chǎn)或工作中的操作流程、作業(yè)方法、工具使用、時間安排等要素進(jìn)行系統(tǒng)化、規(guī)范化的設(shè)計(jì),形成一套可重復(fù)、可量化、可優(yōu)化的操作標(biāo)準(zhǔn)。
核驗(yàn)可參考檢查清單,白宮最年輕的健康政策顧問、2010 年《時代周刊》“100 位最具影響力人物” Atul Gawande 在《清單革命》中提到,使用檢查清單,為人們搭建起一張“認(rèn)知防護(hù)網(wǎng)”,它能夠彌補(bǔ)人類與生俱來的認(rèn)知缺陷,如記憶不完整或注意力不集中。
個體容易犯錯,但工程化體系能夠嚴(yán)格控制可靠性。借助分解與核驗(yàn)這些工程化解法,人類在專業(yè)領(lǐng)域中的可靠性顯著提升。比如,手術(shù)清單將術(shù)后感染率從 11% 降至 0,建筑清單將建筑事故率降至 0.02% 以下,現(xiàn)代工程管理體系也能有效支撐登月、探測火星等巨型復(fù)雜任務(wù)。
參考人類提升可靠性的工程化解法,螞蟻密算提出了大模型時代的標(biāo)準(zhǔn)作業(yè)程序——高階程序(HOP),其融合了自然語言和編程語言的優(yōu)勢:邏輯部分用編程語言表達(dá),確保核心流程的精確性、可驗(yàn)證性和工程化可靠性;知識部分用自然語言表達(dá),利用其靈活性進(jìn)行動態(tài)語義匹配和知識推理。既能繼承編程語言的嚴(yán)謹(jǐn)性,又能借助自然語言的表達(dá)能力,使系統(tǒng)能夠處理結(jié)構(gòu)化任務(wù),以及其他復(fù)雜需求。
在 7 月 27 日召開的 WAIC「從通用智力到專業(yè)生產(chǎn)力:高階程序引領(lǐng)的 AI 應(yīng)用新范式」論壇上,螞蟻密算宣布對外開源高階程序大模型可信應(yīng)用技術(shù)框架,探索智能與工程融合的 AI 應(yīng)用新范式。
論壇上,浙江大學(xué)教授、區(qū)塊鏈與數(shù)據(jù)安全全國重點(diǎn)實(shí)驗(yàn)室主任陳純表示,大模型的專業(yè)化應(yīng)用,首當(dāng)其沖的是可靠性問題。盡管當(dāng)前技術(shù) SOTA 已經(jīng)到了 80% 到 90% 的水平,但其可靠性距離醫(yī)療、工業(yè)、金融等專業(yè)場景的要求仍有顯著差距。陳純說,有人將這一問題簡單歸結(jié)為“幻覺”,但我想強(qiáng)調(diào):幻覺是智力的必然代價。若消除所有幻覺,大模型將退化為機(jī)械的檢索工具。因此,可靠性的突破不在于消滅“智力特征”,而在于構(gòu)建工程化保障框架。
螞蟻密算正在探索的高階程序大模型可信應(yīng)用技術(shù)框架,借鑒了人類在工程管理體系中的成功經(jīng)驗(yàn),構(gòu)建一個能夠有效復(fù)用、驗(yàn)證、擴(kuò)展和派生的機(jī)制,使大模型在應(yīng)用過程中即使出現(xiàn)幻覺問題,也能保證大模型達(dá)到專業(yè)領(lǐng)域所需的精確性和可靠性,從而推動大模型在專業(yè)領(lǐng)域中規(guī)模化應(yīng)用。
2如何用高階程序破解大模型在專業(yè)場景的可靠性問題?
正如前文所言,幻覺是大模型概率生成機(jī)制的固有缺陷,高階程序的使命并非消除幻覺,而是確保工程化所需關(guān)鍵步驟的遵從性,并提供可靠的核驗(yàn)保障。
螞蟻密算開源的高階程序大模型可信應(yīng)用技術(shù)框架核心組件,包括 業(yè)務(wù)邏輯的程序化表達(dá)、場景知識圖譜和 受控工具鏈。
其中,業(yè)務(wù)邏輯的程序化表達(dá)指的是對領(lǐng)域積累的最佳實(shí)踐的知識表達(dá)。在過去,行業(yè)最佳實(shí)踐往往存在于專家的大腦中,任務(wù)執(zhí)行依賴人的隨機(jī)應(yīng)變。但這種方式難以規(guī)模化,并且容易因個體差異導(dǎo)致執(zhí)行出現(xiàn)偏差。高階程序的核心能力,就是將業(yè)務(wù)邏輯代碼化,避免自然語言的歧義與模糊性,并將復(fù)雜業(yè)務(wù)邏輯分拆到可核驗(yàn)的顆粒度,以支撐后繼的高效核驗(yàn),同時提供與編程語言類似的大規(guī)模可擴(kuò)展能力。
韋韜表示,業(yè)務(wù)邏輯沉淀的難度最大。世界本身充滿變化,除了標(biāo)準(zhǔn)邏輯,還有各種異常邏輯。人類在處理問題時,這些異常邏輯通常會被行業(yè)專家的知識隱性處理掉了,但在高階程序中,需要顯性化地處理這些問題。
場景知識圖譜指的是場景積累的概念關(guān)系的知識表達(dá)。行業(yè)在構(gòu)建大模型時,最關(guān)注的往往是訓(xùn)練階段的知識圖譜,即通用語料集。但在實(shí)際應(yīng)用中,每個場景的空間概念與通用概念存在微妙差異,這些差異會導(dǎo)致應(yīng)用效果天差地別,僅僅依靠通用語料集顯然難以覆蓋專業(yè)問題。當(dāng)行業(yè)應(yīng)用的可靠性需求達(dá)到 99% 以上時,行業(yè)專家的專業(yè)知識沉淀就不可或缺。
受控工具鏈則負(fù)責(zé)具體的動作執(zhí)行,其最大的挑戰(zhàn)不在于執(zhí)行難度,而是安全性保障。AI 智能體在構(gòu)建工具鏈時具有開放性,存在一定的安全隱患,攻擊者一旦控制大模型,就可以任意調(diào)用相關(guān)工具、讀取敏感信息。而高階程序天然具備可控的程序邏輯融合特性,能很好地控制安全性和執(zhí)行效率。
理念已經(jīng)成熟,但落實(shí)到實(shí)際應(yīng)用中,如何才能讓大模型正確執(zhí)行高階程序?對此,螞蟻密算構(gòu)建了一套高階程序執(zhí)行框架 HopLogic,這套框架能夠調(diào)度大模型來執(zhí)行高階程序,并實(shí)現(xiàn)四個關(guān)鍵功能:
可執(zhí)行:高階程序?qū)⒋竽P妥鳛?CPU,實(shí)現(xiàn)了基于抽象概念和邏輯的執(zhí)行能力,這是傳統(tǒng) CPU 程序難以比擬的。此外,高階程序?qū)⒈拘枰罅咳肆Φ墓ぷ髯詣踊蓑?yàn)與可靠性也變得至關(guān)重要。
可核驗(yàn):高階程序通過復(fù)合核驗(yàn),確保大模型實(shí)現(xiàn)專業(yè)應(yīng)用的 99%+ 可靠性。此外,高階程序具有明確的邏輯語義與足夠細(xì)的操作顆粒度,可核驗(yàn)的潛力上限更高。
可派生:高階程序通過知識概念匹配實(shí)現(xiàn)從專業(yè)知識到場景應(yīng)用的派生適配,將取代大量的初級人工勞動。
可編排:高階程序是自洽的,可以按照業(yè)務(wù)要求編排執(zhí)行派生出的業(yè)務(wù)邏輯程序,以提升總體執(zhí)行效率。
高階程序的行業(yè)價值,已經(jīng)在部分企業(yè)級場景中得到驗(yàn)證。目前,高階程技術(shù)框架已經(jīng)在金融風(fēng)控全鏈路、網(wǎng)絡(luò)入侵檢測、醫(yī)療重復(fù)計(jì)費(fèi)等多行業(yè)場景中初步應(yīng)用,在可靠性和時效性上有顯著提升。
以金融聯(lián)合風(fēng)控為例,在傳統(tǒng)金融風(fēng)控體系下,從數(shù)據(jù)探查、處理到模型構(gòu)建與調(diào)優(yōu)的全鏈路操作,高度依賴人工干預(yù),導(dǎo)致流程冗長、響應(yīng)緩慢,并且容易受人員主觀因素影響,制約了金融風(fēng)控聯(lián)合建模的效率與一致性。在應(yīng)用高階程序技術(shù)框架后,通過將復(fù)雜的標(biāo)準(zhǔn)化作業(yè)程序轉(zhuǎn)化為可執(zhí)行的流程與代碼,實(shí)現(xiàn)風(fēng)控全鏈路的智能化編排與自動化執(zhí)行。相較于傳統(tǒng)建模人員手動進(jìn)行數(shù)據(jù)分析和代碼開發(fā),大模型結(jié)合高階程序能夠在確保高精度的同時縮短建模周期,并顯著減少了重復(fù)性數(shù)據(jù)處理和流程執(zhí)行等繁瑣的基礎(chǔ)工作。
在效率提升之外,高階程序也對金融風(fēng)控模式進(jìn)行了革新。一方面,將專家從基礎(chǔ)事務(wù)中解放,使其專注于風(fēng)險策略等高價值工作;另一方面,通過減少人工干預(yù)強(qiáng)化合規(guī)與安全,結(jié)合密算技術(shù)有效提升了全流程的數(shù)據(jù)保護(hù)水平。
在網(wǎng)絡(luò)安全領(lǐng)域,安全事件研判至關(guān)重要,并且對時效性要求極高,而人工處理往往存在較長的延遲。高階程序在螞蟻內(nèi)部的實(shí)踐效果顯示,網(wǎng)絡(luò)安全研判正確率從 84% 提升至 99%,并且能夠自動化處理,大幅提升處理效率。
在醫(yī)療領(lǐng)域中,重復(fù)計(jì)費(fèi)已經(jīng)成為行業(yè)普遍痛點(diǎn)。醫(yī)療收費(fèi)規(guī)則復(fù)雜,且存在多系統(tǒng)交叉判定場景,傳統(tǒng)規(guī)則引擎往往難以全面覆蓋。同時,醫(yī)療收費(fèi)數(shù)據(jù)涉及患者隱私及醫(yī)院運(yùn)營核心信息,無法交由第三方分析,形成數(shù)據(jù)孤島與風(fēng)控需求的結(jié)構(gòu)性矛盾。螞蟻密算與北京某醫(yī)院合作,運(yùn)用高階程序技術(shù)對近兩萬條收費(fèi)項(xiàng)目進(jìn)行分析,大幅度地提高大模型核驗(yàn)準(zhǔn)確率。
雖然高階程序還處于發(fā)展初期,但這些真實(shí)的企業(yè)級應(yīng)用場景已經(jīng)印證,高階程序并非是停留在理論層面的 AI 探討,而是一條聚焦實(shí)際效能的技術(shù)實(shí)現(xiàn)路徑,或?qū)⒅?AI 行業(yè)應(yīng)用開啟新的范式。
3高階程序引領(lǐng)的范式革新,只是一個開始
大模型幻覺引發(fā)的可靠性問題,是當(dāng)前整個行業(yè)面臨的普遍挑戰(zhàn)。高階程序作為大模型智能應(yīng)用的工程化載體,其可行性框架旨在服務(wù)整個生態(tài)。韋韜表示,螞蟻集團(tuán)將堅(jiān)定推動開源路線,通過開源協(xié)作的方式與產(chǎn)業(yè)各方深度聯(lián)動,共同構(gòu)建可持續(xù)發(fā)展的技術(shù)生態(tài)。
展望未來,高階程序與大模型產(chǎn)業(yè)發(fā)展將呈現(xiàn)三大趨勢:語料集從通用走向場景、數(shù)字產(chǎn)業(yè)成本變革、Agent 生態(tài)興起。
具體來看,當(dāng)前的大模型發(fā)展仍以通用語料和行業(yè)語料為主,但在實(shí)際專業(yè)應(yīng)用中,僅靠這些數(shù)據(jù)難以滿足企業(yè)需求。而場景語料集能支持相關(guān)場景所需的標(biāo)準(zhǔn)作業(yè)程序、專業(yè)術(shù)語以及正確率測試等,其重要性將日益凸顯。
在實(shí)際應(yīng)用中,大模型雖然能夠處理一般性任務(wù),但在復(fù)雜任務(wù)上的準(zhǔn)確率始終飽受詬病,難以實(shí)現(xiàn)有效應(yīng)用。高階程序通過場景適配和工程化控制,能夠顯著提升任務(wù)完成的可靠性,有望引發(fā)數(shù)字產(chǎn)業(yè)成本變革。
過去,行業(yè)專家受人力或機(jī)構(gòu)組織關(guān)系限制,覆蓋范圍有限。高階程序一方面能將行業(yè)專家的核心知識顯性化沉淀,另一方面,當(dāng)正確率達(dá)到行業(yè)要求、完成率不斷提升且成本顯著降低后,行業(yè)應(yīng)用范圍也將發(fā)生變革。未來,或?qū)⑴d起高階程序 Agent 生態(tài)。在專業(yè)領(lǐng)域中,高階程序 Agent 將成為重要組成成分和新物種。此外,高階程序 Agent 天生與密算強(qiáng)結(jié)合,密算能有效保障高階程序處理數(shù)據(jù)的安全性和隱私性。
“當(dāng)前,大模型在專業(yè)應(yīng)用領(lǐng)域仍缺乏真正的殺手級應(yīng)用。我們相信,高階程序的出現(xiàn),會極大加速這一進(jìn)程,屆時,行業(yè)應(yīng)用也將迎來一個新的爆發(fā)階段。”韋韜希望,在未來 3-5 年,大模型驅(qū)動的高階程序可以廣泛應(yīng)用于數(shù)字化的例行任務(wù),提升數(shù)據(jù)和業(yè)務(wù)處理效能,大幅度降低成本,彌補(bǔ)在數(shù)字化領(lǐng)域的生產(chǎn)力短缺。
眼下,對于高階程序技術(shù)來說,還只是一個開始。隨著未來高階程序技術(shù)不斷成熟,一個智能化應(yīng)用的新紀(jì)元,或許正在走來。我們拭目以待。





京公網(wǎng)安備 11011402013531號