
作者 | 辛峰
郵箱 | xf@pingwest.com
這個(gè)夏天,一個(gè)數(shù)據(jù)不僅在AI圈內(nèi)引起了關(guān)注,更牽動(dòng)了千萬中國家庭的心:不到一個(gè)月,超過1000萬份詳盡的高考志愿報(bào)告,由一個(gè)具備深度研究能力的Agent免費(fèi)生成。
這不是一次技術(shù)演示,而是一項(xiàng)直接關(guān)系到未來的高風(fēng)險(xiǎn)服務(wù)。提供這項(xiàng)服務(wù)的,是阿里的夸克。在一次內(nèi)部技術(shù)溝通會(huì)上,夸克算法負(fù)責(zé)人蔣冠軍將志愿報(bào)告定義為“是夸克深度研究技術(shù)的一次重要實(shí)踐” 。
這引出了一個(gè)值得探討的問題,當(dāng)許多AI應(yīng)用還停留在看似萬能但可能不可靠的階段時(shí),夸克是如何在一個(gè)零容錯(cuò)的場景里,實(shí)現(xiàn)大規(guī)模深度落地的?它的實(shí)踐,為我們提供了一個(gè)觀察AI如何從玩具走向工具再進(jìn)化為智能助手的真實(shí)樣本。
用戶具體是如何與這個(gè)Agent互動(dòng)的呢?過程十分簡單,用戶輸入分?jǐn)?shù)等基本信息后,用日常說話的方式告訴Agent自己的想法,比如想去哪個(gè)城市、對什么專業(yè)感興趣。Agent隨后會(huì)生成一份包含完整志愿表的深度報(bào)告。用戶可以反復(fù)修改想法,多次生成報(bào)告,夸克方面提到,有用戶甚至生成了一百多份報(bào)告來輔助決策。

Agent如何成為一個(gè)“靠譜”的決策顧問?
每年高考后,志愿填報(bào)的復(fù)雜性都會(huì)被重新討論。近3000所高校、超過2000個(gè)專業(yè),構(gòu)成了一個(gè)巨大的信息迷宮 。近幾年,隨著“張雪峰”等志愿填報(bào)專家的走紅,也反映了市場的核心痛點(diǎn),考生和家長缺的不僅是信息,更是一個(gè)能幫忙做復(fù)雜決策的可信顧問,這也催生了一個(gè)魚龍混雜的志愿填報(bào)服務(wù)行業(yè)。
AI能成為這個(gè)顧問嗎?蔣冠軍的看法很坦誠,“當(dāng)前這個(gè)階段,AI肯定是替代不了考生自己的決策” 。那么,夸克要做的,或者說AI現(xiàn)階段能做到的是什么?
答案或許不是替代,而是成為一個(gè)靠譜的輔助決策系統(tǒng)。所謂的靠譜,體現(xiàn)在它如何處理現(xiàn)實(shí)世界中那些模糊、甚至矛盾的復(fù)雜需求上。
比如,當(dāng)用戶的理想與現(xiàn)實(shí)沖突時(shí)。一個(gè)常見的需求是“想留在本省的好城市,但分?jǐn)?shù)只夠得上外省的985院校” 。一個(gè)簡單的工具可能會(huì)陷入邏輯死循環(huán),但夸克的Agent會(huì)嘗試像真人顧問一樣權(quán)衡,它可能會(huì)主動(dòng)拓寬選項(xiàng),為你展示“省外985”和“省內(nèi)頂尖211”各自的利弊,將決策權(quán)交還給你 。
更有挑戰(zhàn)性的是當(dāng)用戶的需求本身就自相矛盾。夸克高考算法負(fù)責(zé)人唐亮提到了一個(gè)典型場景,“數(shù)學(xué)成績差,但想報(bào)考計(jì)算機(jī)” 。這背后是學(xué)生對專業(yè)要求的不了解。此時(shí),一個(gè)負(fù)責(zé)任的Agent不應(yīng)盲目執(zhí)行指令,而是會(huì)觸發(fā)一個(gè)需求澄清流程,溫和地提示其中的風(fēng)險(xiǎn),并引導(dǎo)用戶探索更適合的選項(xiàng) 。
處理復(fù)雜場景的能力讓AI從一個(gè)冰冷的執(zhí)行機(jī)器,向一個(gè)能與人商量、值得參考的顧問角色邁進(jìn)了一步。而要實(shí)現(xiàn)這一切,靠的不是單一的模型技巧,而是在后臺,一套笨重但扎實(shí)的系統(tǒng)工程。
“笨功夫”與“精細(xì)活”
“信任”是Agent在嚴(yán)肅場景落地的基石。夸克構(gòu)建信任的方式,可以歸結(jié)為兩種,一種是下笨功夫,另一種是做精細(xì)活。
笨功夫下在了數(shù)據(jù)上。夸克做了幾件臟活累活,他們搜集了8657個(gè)權(quán)威站點(diǎn)進(jìn)行分級,將超過10萬份PDF、Word等非標(biāo)內(nèi)容數(shù)字化,并組織上百人團(tuán)隊(duì)對關(guān)鍵數(shù)據(jù)進(jìn)行人工校驗(yàn),以確保準(zhǔn)確率達(dá)到“4個(gè)9”(99.99%)的水平。
這些工作聽起來沒有算法那么炫酷,但它們共同構(gòu)成了一個(gè)高可信度的知識庫,是模型能做出正確判斷的前提。
而精細(xì)活則體現(xiàn)在模型的調(diào)校上,必須為其注入垂直場景的靈魂 。夸克為此設(shè)計(jì)的訓(xùn)練范式,層層遞進(jìn):整個(gè)過程始于SFT(監(jiān)督微調(diào)),讓模型學(xué)習(xí)上萬條真實(shí)專家的推理邏輯,學(xué)會(huì)像專家那樣去分析問題、組織語言 。
在此基礎(chǔ)上,利用RLVR(可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)),針對有標(biāo)準(zhǔn)答案的事實(shí)性問題進(jìn)行自動(dòng)化校驗(yàn),這就像給模型配備了一個(gè)24小時(shí)的事實(shí)核查員,大幅降低“幻覺” 。
而對于沒有標(biāo)準(zhǔn)答案的開放性問題(如專業(yè)前景),則通過RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)),引入大量真實(shí)專家對Agent生成的方案進(jìn)行打分,讓模型的“品味”和“策略觀”向人類專家看齊。
正是這套笨功夫加精細(xì)活的組合,讓Agent的決策不僅基于概率,更基于經(jīng)過治理的、可信的知識與經(jīng)驗(yàn)。

一次成功的Agent實(shí)踐,與它背后的七年
夸克志愿報(bào)告的成功,是在一個(gè)垂直應(yīng)用場景的勝利。但在更深的層面,它更像一次路演,展示了深度研究技術(shù)落地的一種可能性。
今天的AI行業(yè),并不缺少聰明的產(chǎn)品。許多大模型應(yīng)用能寫詩、繪畫、寫代碼、做復(fù)雜的邏輯推理,但在單個(gè)具體任務(wù)上,卻往往缺乏穩(wěn)定和可信賴的表現(xiàn)。用戶很難將一項(xiàng)嚴(yán)肅、高風(fēng)險(xiǎn)的決策工作完全托付給它們。
夸克的選擇似乎有些逆流而動(dòng)。它沒有去盲目追求一個(gè)無所不能的通用助手,而是像一位手藝人,選中了高考志愿這塊硬骨頭,并投入了長達(dá)七年的時(shí)間去打磨。其核心,是一種被夸克稱為“深度研究”的方法論。
所謂的深度并非僅指技術(shù),更指一種能力。它體現(xiàn)在對場景的深刻理解上,團(tuán)隊(duì)沒有把志愿填報(bào)看作一個(gè)簡單的概率預(yù)測問題,而是將其視為一個(gè)信息搜集、自我認(rèn)知、未來規(guī)劃高度交織的復(fù)雜決策系統(tǒng)。
它也意味著對數(shù)據(jù)的極致治理,團(tuán)隊(duì)選擇了一條更艱難的路——投入上百人力去做數(shù)據(jù)的線下搜集和人工校驗(yàn),以此來構(gòu)建Agent可信度的地基。此種深度最終落實(shí)在對模型的精細(xì)對齊上,基于海量專家數(shù)據(jù)和用戶真實(shí)反饋,夸克團(tuán)隊(duì)不斷對模型進(jìn)行強(qiáng)化學(xué)習(xí),讓它從一個(gè)概率機(jī)器逐漸成長為一個(gè)懂得權(quán)衡、善于溝通的決策伙伴。
“志愿報(bào)告是我們對深度研究技術(shù)的一次重要實(shí)踐,”蔣冠軍的這句話很關(guān)鍵。高考場景,以其極高的復(fù)雜度和零容錯(cuò)的要求,成為了這套深度研究方法論的最佳試煉場。
如今,這場高難度的路演結(jié)束了,夸克也已經(jīng)推出了面向所有人的通用深度研究功能。這并非簡單的功能上新,而是將那套經(jīng)過千萬次高壓測試后被驗(yàn)證有效的方法論,開放給了更廣泛的用戶。它讓普通人處理復(fù)雜信息、進(jìn)行深度分析時(shí),也能擁有一個(gè)專家級的Agent助手。

從解決一個(gè)真問題開始
在關(guān)于AI的討論中,我們聽過太多關(guān)于顛覆和革命的宏大敘事。但夸克的故事提供了一個(gè)更樸素的視角,AI的價(jià)值,或許始于腳踏實(shí)地地解決一個(gè)真實(shí)的、具體的問題。
它不追求成為無所不知的神,而是努力成為一個(gè)在特定領(lǐng)域靠譜的專家。它沒有因?yàn)榧夹g(shù)的復(fù)雜而忽視最根本的用戶需求,也沒有因?yàn)樯虡I(yè)回報(bào)的不確定性而放棄對信息普惠的堅(jiān)持。事實(shí)上,夸克已經(jīng)連續(xù)7年為高考生和家長提供全免費(fèi)、無廣告的高考信息搜索和志愿填報(bào)服務(wù)。
這意味著夸克并非AI浪潮下的投機(jī)者,而是將技術(shù)落地為社會(huì)價(jià)值的長期主義者,也讓今年的Agent應(yīng)用更像是一場厚積薄發(fā)。超過50%的用戶來自三線及以下城市 ,以及深入鄉(xiāng)村的公益行動(dòng),都讓這項(xiàng)技術(shù)多了一份溫度。
或許,未來真正能改變我們生活的AI,不是那個(gè)在云端不斷刷新性能分?jǐn)?shù)的龐然大物,而是一系列像夸克志愿報(bào)告這樣,專注、深入、并真正融入我們工作與生活場景的Agent助手。
夸克的高考故事,可能只是這個(gè)新篇章的開始。





京公網(wǎng)安備 11011402013531號