華爾街徹夜難眠！Gemini 3屠榜金融「最難考試」，AI砸了「金飯碗」？

IP屬地中國(guó)·北京 新智元 時(shí)間：2025-12-15 18:15:59

新智元報(bào)道
編輯：KingHZ
被譽(yù)為「黃金職業(yè)通行證」的人類知識(shí)堡壘，CFA考試悄然陷落。最新的推理模型不僅輕松通過(guò)了CFA三級(jí)考試，還創(chuàng)造了幾乎滿分的成績(jī)。
AI一分鐘，人類十年功！
一覺(jué)醒來(lái)，AI推理模型已橫掃特許金融分析師CFA考試。

要拿下享譽(yù)全球的CFA（特許金融分析師）證書(shū)，對(duì)于人類考生來(lái)說(shuō)，這通常意味著數(shù)年的煎熬和至少1000小時(shí)的苦讀。
但AI這次取得的成績(jī)有點(diǎn)讓人「破防」了：推理模型不僅輕松通過(guò)了三級(jí)考試，還創(chuàng)造了幾乎滿分的成績(jī)。
具體而言，在一級(jí)考試中，Gemini 3.0 Pro創(chuàng)下97.6%的歷史最高紀(jì)錄。
二級(jí)考試中，GPT-5以94.3%的成績(jī)領(lǐng)先。
在三級(jí)考試中，Gemini 2.5 Pro在選擇題部分取得86.4%的最高分，而Gemini 3.0 Pro在問(wèn)答題部分達(dá)到92.0%的優(yōu)異成績(jī)。
那些想去華爾街工作的畢業(yè)生，可能睡不著了。

金融界「最難考試」被AI通關(guān)
特許金融分析師（Chartered Financial Analyst，CFA）認(rèn)證被公認(rèn)為金融領(lǐng)域難度最大的資格認(rèn)證之一。
全部三級(jí)考試，需要逐級(jí)通過(guò)，涵蓋從基礎(chǔ)知識(shí)到應(yīng)用分析、直至復(fù)雜投資組合構(gòu)建的進(jìn)階能力。

在2023年，當(dāng)時(shí)最強(qiáng)的AI模型只能解答部分CFA試題，表現(xiàn)參差不齊。
當(dāng)時(shí)的研究證實(shí)AI能搞定CFA一級(jí)和二級(jí)考試，但當(dāng)時(shí)它們?cè)谌?jí)考試面前卻碰了壁，因?yàn)楦悴欢切?fù)雜的論述題（essay questions）。

鏈接：https://aclanthology.org/2024.emnlp-industry.80/
到了今年7月，AI已經(jīng)能在幾分鐘之內(nèi)通過(guò)最難的CFA考試：

來(lái)自紐約大學(xué)斯特恩商學(xué)院（NYU Stern）與AI財(cái)富管理平臺(tái)GoodFin的研究人員想探究：AI是否已經(jīng)具備了處理「專業(yè)金融決策所需的、高風(fēng)險(xiǎn)的分析推理」能力？
研究團(tuán)隊(duì)對(duì)23個(gè)大語(yǔ)言模型進(jìn)行了「大閱兵」，測(cè)試它們處理CFA三級(jí)模擬試題中選擇題和論述題的能力。
要知道，CFA三級(jí)考試的核心可是最考驗(yàn)功力的投資組合管理和財(cái)富規(guī)劃。

CFA三級(jí)考試主題和權(quán)重
結(jié)果顯示，o4-mini、Gemini 2.5 Pro和Claude Opus等前沿推理模型，在運(yùn)用「思維鏈」（chain-of-thought）提示詞技術(shù)后，均成功通關(guān)。

鏈接：https://arxiv.org/pdf/2507.02954
「我認(rèn)為毫無(wú)疑問(wèn)，這項(xiàng)技術(shù)將在未來(lái)徹底重塑整個(gè)行業(yè)。」GoodFin的創(chuàng)始人兼CEO Anna Joo Fee如是說(shuō)。

本月9日，最新研究表明，當(dāng)前這代推理模型不僅全部通過(guò)了三級(jí)考試，某些科目甚至接近滿分。

預(yù)印本鏈接;https://arxiv.org/abs/2512.08270
標(biāo)題：Reasoning Models Ace the CFA Exams
AI的新成績(jī)讓人破防
來(lái)自哥倫比亞大學(xué)、倫斯勒理工學(xué)院和北卡羅來(lái)納大學(xué)的研究團(tuán)隊(duì)，使用包含980道考題的題庫(kù)對(duì)6款推理模型進(jìn)行測(cè)試。
他們編制了一套涵蓋CFA（特許金融分析師）全部三個(gè)等級(jí)的模擬試題，共計(jì)980道題目。
一級(jí)試題集（Level I Set）：包含三套試卷，總計(jì)540道多選題（Multiple Choice Questions, MCQs），每套180題。
二級(jí)試題集（Level II Set）：包含兩套試卷，總計(jì)176道選擇題（每套88題），每套試卷由22個(gè)「案例題組」（item sets）組成，每個(gè)題組包含4個(gè)問(wèn)題。
三級(jí)試題集（Level III Set）：包含三套試卷，總計(jì)264道題目（每套88題）；每套試卷采用混合形式，包含11個(gè)案例題組（共44道選擇題）和11個(gè)論述型案例分析（constructed-response case studies，共44道論述題/CRQs）。
盡管正式CFA考試中論述題的具體數(shù)量和分值權(quán)重會(huì)有所變化，但這些模擬試題遵循了標(biāo)準(zhǔn)且具有代表性的結(jié)構(gòu)。

（注：案例文本以藍(lán)色標(biāo)注，問(wèn)題以紅色呈現(xiàn)，選項(xiàng)以綠色顯示，所有示例均為示意性內(nèi)容而非真實(shí)考題）
一級(jí)考試選擇題示例：聚焦道德與職業(yè)行為準(zhǔn)則，通過(guò)利益沖突情境考查考生對(duì)合規(guī)判斷的掌握。
二級(jí)考試選擇題：圍繞股權(quán)投資實(shí)務(wù)，測(cè)試對(duì)IPO牽頭行核心職責(zé)的理解與辨析能力。
三級(jí)考試論述題示例：設(shè)定財(cái)務(wù)報(bào)告分析情境，要求結(jié)合通脹環(huán)境變化，判斷并說(shuō)明外幣報(bào)表折算方法的適用性。
三級(jí)考試選擇題示例：涉及私募市場(chǎng)估值，需計(jì)算債券市值，并綜合評(píng)估違約風(fēng)險(xiǎn)與清償順位對(duì)投資價(jià)值的影響。
三級(jí)考試論述題示例：探討資產(chǎn)配置理論，比較兩種資本資產(chǎn)定價(jià)模型（CAPM）的應(yīng)用前提與估計(jì)精度，論證其適用差異。
結(jié)果顯示：Gemini 3.0 Pro、Gemini 2.5 Pro、GPT-5、Grok 4、Claude Opus 4.1和DeepSeek-V3.1均依據(jù)既定標(biāo)準(zhǔn)通過(guò)了所有級(jí)別考核，部分成績(jī)甚至接近滿分。

Gemini與GPT-5雙雄領(lǐng)跑
在一級(jí)考試（基礎(chǔ)多選題）中，Gemini 3.0 Pro以97.6%的驚人準(zhǔn)確率創(chuàng)下歷史新高。GPT-5緊隨其后，斬獲96.1%，Gemini 2.5 Pro也拿到了95.7%的高分。即便是測(cè)試中表現(xiàn)「墊底」的DeepSeek-V3.1，準(zhǔn)確率也高達(dá)90.9%。
來(lái)到側(cè)重應(yīng)用與分析（案例研究）的二級(jí)考試，GPT-5反超奪魁，準(zhǔn)確率達(dá)94.3%。Gemini 3.0 Pro和Gemini 2.5 Pro分別以93.2%和92.6%緊隨其后。
研究人員驚嘆道，這些模型在此階段的表現(xiàn)「近乎完美」。不過(guò)，「道德規(guī)范」（Ethics）板塊依然是AI的軟肋。數(shù)據(jù)顯示，即便最強(qiáng)模型，在二級(jí)考試的道德類題目中也有17%到21%的相對(duì)錯(cuò)誤率。
到了最復(fù)雜的三級(jí)考試（包含選擇題與開(kāi)放式問(wèn)答），Gemini 2.5 Pro在選擇題部分拔得頭籌，準(zhǔn)確率為86.4%。但在更考驗(yàn)生成能力的「論述題」環(huán)節(jié)，Gemini 3.0 Pro展現(xiàn)了統(tǒng)治力，得分率高達(dá)92.0%，相比前代模型的82.8%有了質(zhì)的飛躍。

為了對(duì)開(kāi)放式問(wèn)答環(huán)節(jié)進(jìn)行評(píng)分，研究團(tuán)隊(duì)使用了o4-mini模型來(lái)實(shí)現(xiàn)自動(dòng)化批改。
研究人員坦言，這種做法可能會(huì)引入測(cè)量誤差，并產(chǎn)生某種「篇幅偏見(jiàn)」（verbosity bias），即回答越長(zhǎng)，得分往往越高。因此，這些測(cè)試結(jié)果只能視為基于模型的估算值。
通過(guò)標(biāo)準(zhǔn)沿用了過(guò)往合格標(biāo)準(zhǔn)：
一級(jí)考試要求單科不低于 60%，總分不低于 70%；
二級(jí)考試要求單科不低于 50%，總分不低于 60%；
三級(jí)考試則要求在選擇題和論述題兩部分中，平均得分率至少達(dá)到 63%。
研究人員指出，測(cè)試結(jié)果表明「推理模型的專業(yè)能力已超越初級(jí)至中級(jí)金融分析師的要求，未來(lái)甚至可能達(dá)到資深分析師的水準(zhǔn)」。
如果說(shuō)此前的大語(yǔ)言模型已經(jīng)掌握了一級(jí)和二級(jí)考試中那些「既定的規(guī)范化知識(shí)」（codified knowledge），那么最新一代模型正在習(xí)得三級(jí)考試所必需的復(fù)雜「綜合研判能力」（synthesis skills）。
當(dāng)然，慣常的局限性依然存在。基準(zhǔn)測(cè)試，尤其是選擇題形式，只能作為評(píng)估模型能力和潛在經(jīng)濟(jì)價(jià)值的參考，猶如管中窺豹。
盡管如此，短短兩年間從「不及格」到「近乎滿分」的巨大飛躍，足以凸顯 AI 在專業(yè)領(lǐng)域的進(jìn)化速度之快。
AI通關(guān)CFA了，然后呢？
當(dāng)機(jī)器能輕松考下你引以為傲的證書(shū)，能代寫(xiě)你的報(bào)告，能處理你的數(shù)據(jù)，甚至很快在分析能力上都能把你甩在身后時(shí)，你該怎么辦？
媒體行業(yè)創(chuàng)業(yè)者兼出版人Matthias Bastian認(rèn)為，會(huì)考試 ≠ 能干活：
考場(chǎng)得意，不代表職場(chǎng)如意。通過(guò)考試并不意味著模型能勝任金融分析師的日常瑣碎工作（daily grind），比如與客戶面談、評(píng)估復(fù)雜的市場(chǎng)情緒，以及在信息不全的情況下做出關(guān)鍵決策。
研究還特別提到，模型在「道德倫理」類題目上依然最吃力，因?yàn)檫@類問(wèn)題往往需要深度的情境理解和價(jià)值判斷。畢竟，考試考察的是孤立的知識(shí)點(diǎn)，而非在復(fù)雜多變的現(xiàn)實(shí)世界中靈活運(yùn)用知識(shí)的能力。
此外，研究人員也無(wú)法完全排除「數(shù)據(jù)污染」的可能性。雖然測(cè)試使用的是最新的付費(fèi)受版權(quán)保護(hù)材料，但相關(guān)考題可能早已通過(guò)公共數(shù)據(jù)集中的改寫(xiě)或變體內(nèi)容，滲透進(jìn)了模型的訓(xùn)練數(shù)據(jù)中。這意味著，模型可能僅僅是「背過(guò)」了答案，而非真正通過(guò)邏輯推理得出了結(jié)果。
特許金融分析師、高盛全球投資研究部數(shù)據(jù)戰(zhàn)略團(tuán)隊(duì)負(fù)責(zé)人Ingrid Tierens博士，在AI通過(guò)CFA認(rèn)證考試之際，撰文表示，AI還不能替代分析師。

她認(rèn)為，AI通關(guān)CFA是意料之中的勝利，畢竟在金融領(lǐng)域之外的考試中，AI已經(jīng)拿下了頂級(jí)超級(jí)，比如奧數(shù)競(jìng)賽等。
CFA考試正是AI最擅長(zhǎng)的領(lǐng)域：面對(duì)界定清晰的知識(shí)體系、海量的同質(zhì)化訓(xùn)練數(shù)據(jù)，以及全球統(tǒng)一、歷久不變的標(biāo)準(zhǔn)化考試形式，AI理應(yīng)表現(xiàn)出色。

其次，正如馬克·吐溫那句名言：「歷史不會(huì)重演，但往往驚人地相似。」

AI的進(jìn)步與金融業(yè)的歷史軌跡如出一轍，同時(shí)也提醒我們，這種進(jìn)步往往不是線性的，而是爆發(fā)式的。從紙筆到計(jì)算器，再到電腦、Excel表格、Python編程，金融業(yè)一直在擁抱技術(shù)變革。
在「價(jià)值投資之父」Benjamin Graham身上，這一歷史視角得到了完美體現(xiàn)。

他還是CFA資格認(rèn)證背后的核心推動(dòng)者
早在1963年，當(dāng)計(jì)算機(jī)剛剛踏入投資界之時(shí)，Graham就在《金融分析師期刊》（Financial Analysts Journal）上發(fā)表了題為《金融分析的未來(lái)》的文章，對(duì)行業(yè)前景樂(lè)觀至極。
AI已經(jīng)勢(shì)不可擋，關(guān)鍵在于如何「用好它」：在能創(chuàng)造價(jià)值的環(huán)節(jié)，在合理的安全邊界（guardrails）內(nèi)，充分發(fā)揮AI的威力，這將成為核心優(yōu)勢(shì)。把那些消在繁瑣分析上的時(shí)間省下來(lái)，花更多時(shí)間讓思考更具戰(zhàn)略高度、解決更復(fù)雜的問(wèn)題以及客戶溝通更有深度。
最后，想靠AI「上位」徹底取代投資專家？短期內(nèi)門兒都沒(méi)有。
想要拿下入行的敲門磚，你得證明自己能在瞬息萬(wàn)變的市場(chǎng)中靈活運(yùn)用知識(shí)，能進(jìn)行批判性思考，能創(chuàng)新——這可比死記硬背通過(guò)CFA。
卓越的投資業(yè)績(jī)，往往來(lái)自于捕捉那些被市場(chǎng)忽視的「離群點(diǎn)」和隱秘信息，遠(yuǎn)非考試可覆蓋。
最后，重溫一下Benjamin Graham在1963年那篇文章中的結(jié)語(yǔ)，至今讀來(lái)依然振聾發(fā)聵：
無(wú)論世事如何變遷，有一點(diǎn)我深信不疑：未來(lái)的金融分析之路，將和過(guò)去一樣，通往成功的路徑絕不止一條。
參考資料：
https://the-decoder.com/reasoning-models-now-ace-all-three-cfa-exam-levels/
https://blogs.cfainstitute.org/investor/2025/10/20/ai-can-pass-the-cfa-exam-but-it-cannot-replace-analysts/
https://www.cnbc.com/2025/09/24/ai-cfa-exam-pass-minutes-study.html
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo)，鎖定新智元極速推送！

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

《電腦愛(ài)好者》雜志公眾號(hào)注銷、官網(wǎng)無(wú)法訪問(wèn)，創(chuàng)刊至今已32年

剛說(shuō)淘汰中國(guó)激光雷達(dá)，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機(jī)器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點(diǎn)贊！

長(zhǎng)城歐拉出奇招：“一車多動(dòng)力”打破單點(diǎn)競(jìng)爭(zhēng)

2025年流星雨迎來(lái)謝幕演出小熊座流星雨22日極大

鴻蒙正奔騰！解碼中國(guó)自主操作系統(tǒng)的生態(tài)成熟好用的極限突圍

全站最新

《電腦愛(ài)好者》雜志公眾號(hào)注銷、官網(wǎng)無(wú)法訪問(wèn)，創(chuàng)刊至今已32年

剛說(shuō)淘汰中國(guó)激光雷達(dá)，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機(jī)器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點(diǎn)贊！

長(zhǎng)城歐拉出奇招：“一車多動(dòng)力”打破單點(diǎn)競(jìng)爭(zhēng)

熱門推薦

《電腦愛(ài)好者》雜志公眾號(hào)注銷、官網(wǎng)無(wú)法訪問(wèn)，創(chuàng)刊至今已32年

剛說(shuō)淘汰中國(guó)激光雷達(dá)，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機(jī)器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點(diǎn)贊！

長(zhǎng)城歐拉出奇招：“一車多動(dòng)力”打破單點(diǎn)競(jìng)爭(zhēng)

上饒農(nóng)商行被罰240萬(wàn)，上饒銀行被罰170萬(wàn)

2025年流星雨迎來(lái)謝幕演出小熊座流星雨22日極大

雷軍轉(zhuǎn)發(fā)！小米汽車又獲獎(jiǎng) 再引發(fā)輿論安全追問(wèn)

鴻蒙正奔騰！解碼中國(guó)自主操作系統(tǒng)的生態(tài)成熟好用的極限突圍

我國(guó)成功發(fā)射通信技術(shù)試驗(yàn)衛(wèi)星二十三號(hào)

寶馬3系全球產(chǎn)量突破1800萬(wàn)輛，50年傳奇仍在繼續(xù)

降息，突發(fā)！集體拉升，近8萬(wàn)人爆倉(cāng)！

給AI一雙眼睛：XR眼鏡正在重塑下一代智能終端

摩爾線程技術(shù)路線圖全面公開(kāi)！刷新國(guó)產(chǎn)GPU推理天花板，新架構(gòu)能效飆10倍

中科大造出首個(gè)紫外光譜成像芯片，成本有望直降99%

將RNA的自毀密碼寫(xiě)入塑料：科學(xué)家實(shí)現(xiàn)高分子材料的可編程降解