當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

港科大突破：AI大模型發(fā)掘自主數(shù)學(xué)推理能力

IP屬地中國·北京 科技行者 時(shí)間：2025-12-09 00:17:17

這項(xiàng)令人矚目的研究由香港科技大學(xué)的唐一軒和楊毅團(tuán)隊(duì)完成，發(fā)表于2025年12月的arXiv預(yù)印本服務(wù)器，論文編號為2512.02807v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
過去，要讓AI大語言模型變得更聰明、更貼合人類需求，就像訓(xùn)練一只寵物狗一樣——需要大量的人類反饋來告訴它什么是對的，什么是錯(cuò)的。這個(gè)過程不僅費(fèi)時(shí)費(fèi)力，還會遇到各種問題。人類的評判標(biāo)準(zhǔn)往往主觀且不一致，而且收集足夠的高質(zhì)量標(biāo)注數(shù)據(jù)成本高昂。更關(guān)鍵的是，現(xiàn)有的獎(jiǎng)勵(lì)模型容易被"鉆空子"，就像考試時(shí)學(xué)生可能找到作弊方法一樣。
香港科技大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)非常有趣的現(xiàn)象：AI模型在生成回答時(shí)，其內(nèi)部的"神經(jīng)活動"竟然能夠反映回答質(zhì)量的好壞。這就像是觀察一個(gè)人說話時(shí)的面部表情和肢體語言，就能判斷他說的話是否可信一樣。研究團(tuán)隊(duì)通過一個(gè)叫做"穩(wěn)定秩"的數(shù)學(xué)概念，成功從模型的內(nèi)部狀態(tài)中提取出了質(zhì)量信號，不再需要人類的直接監(jiān)督。
一、什么是"穩(wěn)定秩"——AI內(nèi)部的"數(shù)學(xué)體檢報(bào)告"
穩(wěn)定秩聽起來很復(fù)雜，但實(shí)際上可以用一個(gè)簡單的比喻來理解。當(dāng)AI模型生成一段文字時(shí)，它的內(nèi)部會產(chǎn)生大量的數(shù)字表示，就像一個(gè)人在思考時(shí)大腦中會有各種神經(jīng)元活動一樣。穩(wěn)定秩就是測量這些數(shù)字表示的"分布均勻程度"的指標(biāo)。
設(shè)想你有一個(gè)裝滿彈珠的盒子，每個(gè)彈珠代表AI在思考某個(gè)詞匯時(shí)的"激活強(qiáng)度"。如果所有彈珠都堆積在盒子的一個(gè)角落，這就像AI的思考過程過于單一，缺乏豐富性；如果彈珠均勻分布在整個(gè)盒子里，這表示AI的思考過程涉及了多個(gè)維度，更加全面和深入。穩(wěn)定秩就是衡量這種"分布均勻程度"的數(shù)學(xué)工具。
在數(shù)學(xué)上，穩(wěn)定秩的計(jì)算公式是把所有激活值的平方和除以最大激活值的平方。當(dāng)這個(gè)比值接近1時(shí)，說明只有一個(gè)方向占主導(dǎo)地位，就像所有彈珠都擠在一個(gè)角落；當(dāng)比值較大時(shí)，說明激活強(qiáng)度比較均勻地分布在多個(gè)方向上，就像彈珠均勻分布在整個(gè)盒子里。
研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn)，高質(zhì)量的回答往往對應(yīng)著較高的穩(wěn)定秩值。這背后的原理可以這樣理解：當(dāng)AI生成連貫、準(zhǔn)確且信息豐富的回答時(shí)，它需要協(xié)調(diào)多個(gè)不同的知識領(lǐng)域和語言技能，這種復(fù)雜的協(xié)調(diào)過程會在內(nèi)部表示中體現(xiàn)為多維度的激活模式。相反，當(dāng)AI生成低質(zhì)量回答（比如重復(fù)、胡言亂語或不連貫的內(nèi)容）時(shí)，其內(nèi)部表示往往會"塌縮"到少數(shù)幾個(gè)維度，導(dǎo)致穩(wěn)定秩較低。
二、驗(yàn)證實(shí)驗(yàn)——讓AI自己"判斷作業(yè)質(zhì)量"
為了驗(yàn)證這個(gè)想法是否靠譜，研究團(tuán)隊(duì)設(shè)計(jì)了一系列巧妙的實(shí)驗(yàn)。他們使用了一個(gè)叫做RewardBench的數(shù)據(jù)集，這個(gè)數(shù)據(jù)集包含了近3000對問答，每一對都有一個(gè)好回答和一個(gè)差回答，就像是老師批改作業(yè)時(shí)的標(biāo)準(zhǔn)答案對比。
實(shí)驗(yàn)的設(shè)計(jì)很像讓AI當(dāng)"閱卷老師"。研究團(tuán)隊(duì)讓多個(gè)不同規(guī)模的AI模型（包括Qwen2.5、Qwen3、Llama-3.1、Phi-3.5等）對這些問答對進(jìn)行評判，但不是通過讓AI直接說"這個(gè)回答好還是差"，而是通過計(jì)算每個(gè)回答的穩(wěn)定秩，然后看穩(wěn)定秩高的回答是否真的比穩(wěn)定秩低的回答質(zhì)量更好。
結(jié)果令人驚喜。在Qwen3-8B模型上，僅僅使用穩(wěn)定秩就能達(dá)到84.04%的準(zhǔn)確率，這個(gè)成績甚至超過了一些需要大量訓(xùn)練數(shù)據(jù)的傳統(tǒng)方法。更重要的是，這種方法在小模型上表現(xiàn)尤其出色——在Qwen2.5-1.5B這個(gè)相對較小的模型上，穩(wěn)定秩方法比其他方法高出了10個(gè)百分點(diǎn)以上。
這個(gè)發(fā)現(xiàn)特別有意義，因?yàn)閭鹘y(tǒng)的基于提示的評估方法在小模型上往往表現(xiàn)不佳。小模型缺乏足夠的指令理解能力，很難按照復(fù)雜的評分標(biāo)準(zhǔn)進(jìn)行評判。而穩(wěn)定秩方法不依賴模型的指令理解能力，而是直接從內(nèi)部幾何結(jié)構(gòu)中提取信號，因此對模型規(guī)模的要求更低。
三、實(shí)戰(zhàn)應(yīng)用——"最佳答案篩選器"
研究團(tuán)隊(duì)還測試了穩(wěn)定秩在實(shí)際應(yīng)用中的表現(xiàn)。他們設(shè)計(jì)了一個(gè)"Best-of-N"的場景：讓AI模型對同一個(gè)問題生成多個(gè)不同的回答（比如16個(gè)），然后使用穩(wěn)定秩來選擇其中質(zhì)量最高的一個(gè)，就像是從多份草稿中挑選最佳版本。
在數(shù)學(xué)推理和科學(xué)問題回答方面，這種方法表現(xiàn)得相當(dāng)出色。以Llama-3.2-1B模型為例，使用穩(wěn)定秩篩選后，平均準(zhǔn)確率提升了20.5%。這就像是給學(xué)生提供了一個(gè)"作業(yè)質(zhì)量檢查器"，能夠自動從多次嘗試中挑選出最好的答案。
特別值得注意的是，穩(wěn)定秩篩選的效果遠(yuǎn)遠(yuǎn)超過了隨機(jī)選擇。在某些情況下，隨機(jī)選擇甚至?xí)尳Y(jié)果變差，因?yàn)殡S機(jī)可能會選中質(zhì)量很低的回答。而穩(wěn)定秩篩選則能夠可靠地識別出高質(zhì)量回答，避免了這種風(fēng)險(xiǎn)。
四、核心創(chuàng)新——SR-GRPO訓(xùn)練方法
基于穩(wěn)定秩這個(gè)發(fā)現(xiàn)，研究團(tuán)隊(duì)開發(fā)了一種全新的AI訓(xùn)練方法，叫做"穩(wěn)定秩群體相對策略優(yōu)化"（SR-GRPO）。這個(gè)方法的核心思想是讓AI在學(xué)習(xí)過程中不斷追求更高的穩(wěn)定秩，從而自動提升回答質(zhì)量。
這個(gè)訓(xùn)練過程可以比作培養(yǎng)一個(gè)優(yōu)秀的演講者。傳統(tǒng)方法需要觀眾不斷提供反饋，告訴演講者哪里講得好，哪里需要改進(jìn)。而SR-GRPO方法則是教會演講者通過觀察自己的"內(nèi)在狀態(tài)"（比如思維的清晰度、邏輯的連貫性）來自我評估和改進(jìn)。
具體的訓(xùn)練過程是這樣的：對于每個(gè)訓(xùn)練問題，模型會生成多個(gè)候選回答，然后計(jì)算每個(gè)回答的穩(wěn)定秩。穩(wěn)定秩高的回答會被認(rèn)為是好的，并獲得正向獎(jiǎng)勵(lì)；穩(wěn)定秩低的回答則被認(rèn)為是差的，獲得負(fù)向獎(jiǎng)勵(lì)。通過這種方式，模型逐漸學(xué)會生成具有高穩(wěn)定秩的回答。
關(guān)鍵的技術(shù)細(xì)節(jié)在于，穩(wěn)定秩的計(jì)算是基于一個(gè)"凍結(jié)"的參考模型進(jìn)行的。這就像是有一個(gè)固定的"評判標(biāo)準(zhǔn)尺子"，確保在訓(xùn)練過程中評判標(biāo)準(zhǔn)不會發(fā)生變化。如果使用正在訓(xùn)練的模型本身來計(jì)算穩(wěn)定秩，模型可能會學(xué)會操控自己的內(nèi)部表示來獲得虛高的穩(wěn)定秩分?jǐn)?shù)，而不是真正提升回答質(zhì)量。
五、實(shí)驗(yàn)結(jié)果——數(shù)據(jù)說話
研究團(tuán)隊(duì)在兩個(gè)不同的模型上測試了SR-GRPO的效果：Qwen2.5-1.5B-Instruct和DeepSeek-R1-Distill-Qwen-1.5B。實(shí)驗(yàn)涵蓋了三大類任務(wù)：STEM科學(xué)問題、數(shù)學(xué)推理問題和開放式對話。
在STEM任務(wù)上，SR-GRPO顯示了顯著的改進(jìn)。以Qwen2.5-1.5B模型為例，GPQA（研究生水平的科學(xué)問答）任務(wù)的準(zhǔn)確率從19.0%提升到21.2%，MMLU-redux（大學(xué)水平的多學(xué)科問答）基本保持穩(wěn)定在47.7%。雖然提升幅度看似不大，但在這些高難度的學(xué)術(shù)問題上，每一個(gè)百分點(diǎn)的提升都是很有價(jià)值的。
在數(shù)學(xué)推理方面，改進(jìn)更加明顯。MATH500（競賽級數(shù)學(xué)問題）的準(zhǔn)確率從48.0%躍升到52.4%，提升了4.4個(gè)百分點(diǎn)。更令人驚喜的是，在AMC23（美國數(shù)學(xué)競賽）問題上，準(zhǔn)確率從35.0%大幅提升到37.5%。這些結(jié)果表明，SR-GRPO特別擅長提升需要邏輯推理和結(jié)構(gòu)化思維的任務(wù)性能。
在開放式對話質(zhì)量方面，WildBench評測顯示SR-GRPO也帶來了顯著改善。該評測使用GPT-4o作為評委，對模型生成的對話進(jìn)行評分。Qwen2.5-1.5B的Elo評分從1036.2提升到1062.4，增長了26.2分，這在對話質(zhì)量評測中是一個(gè)相當(dāng)可觀的進(jìn)步。
特別值得強(qiáng)調(diào)的是，SR-GRPO在所有測試中都超越了使用傳統(tǒng)獎(jiǎng)勵(lì)模型的方法。傳統(tǒng)獎(jiǎng)勵(lì)模型方法在某些任務(wù)上甚至出現(xiàn)了性能下降，比如在GPQA任務(wù)上從19.0%降到15.7%，這說明通用的偏好數(shù)據(jù)可能并不適用于專業(yè)化的推理任務(wù)。
六、深入理解——穩(wěn)定秩到底捕捉了什么
為了理解穩(wěn)定秩為什么有效，研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的分析，探索穩(wěn)定秩與各種文本質(zhì)量指標(biāo)之間的關(guān)系。他們發(fā)現(xiàn)穩(wěn)定秩主要捕捉了三個(gè)重要的質(zhì)量維度。
第一個(gè)維度是語義連貫性。研究發(fā)現(xiàn)，穩(wěn)定秩與"進(jìn)展得分"呈正相關(guān)關(guān)系，這個(gè)指標(biāo)衡量的是文章中每個(gè)句子是否在前一個(gè)句子的基礎(chǔ)上有所發(fā)展。同時(shí)，穩(wěn)定秋與"問答對齊一致性"也呈正相關(guān)，這意味著高穩(wěn)定秩的回答能夠始終保持與問題的相關(guān)性。相反，穩(wěn)定秩與"連貫性標(biāo)準(zhǔn)差"呈強(qiáng)負(fù)相關(guān)，這表明穩(wěn)定秩偏向于避免句子間突然的主題跳躍。
第二個(gè)維度是信息密度與簡潔性。出人意料的是，穩(wěn)定秩與文本長度呈負(fù)相關(guān)關(guān)系。token數(shù)量和句子數(shù)量都與穩(wěn)定秩呈負(fù)相關(guān)，這與許多獎(jiǎng)勵(lì)模型傾向于偏愛更長回答的問題形成了鮮明對比。但穩(wěn)定秩同時(shí)與詞匯多樣性和壓縮比呈正相關(guān)，這說明它偏愛信息密度高、用詞精確的回答，而不是冗長重復(fù)的文本。
第三個(gè)維度是推理結(jié)構(gòu)的識別。在對話語標(biāo)記的分析中，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的模式。大多數(shù)話語標(biāo)記（如"此外"、"首先"、"如果"等）與穩(wěn)定秩呈負(fù)相關(guān)，這表明過度依賴明確連接詞的回答可能質(zhì)量較低。然而，"然而"和"因?yàn)?這兩類表示對比和因果關(guān)系的標(biāo)記與穩(wěn)定秩呈正相關(guān)。這說明穩(wěn)定秩能夠識別出真正重要的邏輯轉(zhuǎn)折點(diǎn)，而不是流水賬式的敘述結(jié)構(gòu)。
這些發(fā)現(xiàn)揭示了穩(wěn)定秩作為質(zhì)量指標(biāo)的深層機(jī)制：它偏愛那些在語義上連貫、信息上精煉、邏輯上嚴(yán)密的回答，這恰好符合我們對高質(zhì)量文本的直覺期待。
七、技術(shù)優(yōu)勢——為什么穩(wěn)定秩方法更勝一籌
穩(wěn)定秩方法相比傳統(tǒng)方法有幾個(gè)顯著優(yōu)勢。首先是計(jì)算效率。穩(wěn)定秩的計(jì)算只需要進(jìn)行一次前向傳播并計(jì)算簡單的矩陣范數(shù)，計(jì)算復(fù)雜度只有O(Td)，其中T是序列長度，d是隱藏維度。這個(gè)開銷相比transformer的前向傳播來說幾乎可以忽略不計(jì)。
其次是魯棒性。研究團(tuán)隊(duì)測試了不同輸入長度對性能的影響，發(fā)現(xiàn)即使將輸入截?cái)嗟?12個(gè)token，穩(wěn)定秩的性能也只有輕微下降。這說明穩(wěn)定秩捕捉的是文本的核心語義結(jié)構(gòu)，而不是依賴于表面的長度特征。
第三是格式無關(guān)性。研究團(tuán)隊(duì)測試了六種不同的輸入格式，發(fā)現(xiàn)穩(wěn)定秩的性能在不同格式間的差異不超過3個(gè)百分點(diǎn)。這種魯棒性大大簡化了實(shí)際應(yīng)用中的配置工作。
最重要的是可擴(kuò)展性。由于穩(wěn)定秋不需要任何標(biāo)注數(shù)據(jù)，它可以輕松擴(kuò)展到新的領(lǐng)域和任務(wù)。傳統(tǒng)的獎(jiǎng)勵(lì)模型需要為每個(gè)新領(lǐng)域收集大量偏好數(shù)據(jù)，而穩(wěn)定秩方法則可以直接應(yīng)用到任何文本生成任務(wù)上。
八、對比分析——穩(wěn)定秩vs其他方法
研究團(tuán)隊(duì)還比較了穩(wěn)定秩與其他幾種內(nèi)在維度指標(biāo)的性能。他們測試了條件數(shù)（最大奇異值與最小奇異值的比值）、PCA95%方差（需要多少個(gè)主成分才能解釋95%的方差）以及有效秩（基于奇異值分布熵的度量）。
結(jié)果顯示穩(wěn)定秩在所有類別上都明顯優(yōu)于其他指標(biāo)。在整體準(zhǔn)確率上，穩(wěn)定秩達(dá)到84.04%，而PCA95%方差只有61.91%，有效秩為54.50%，條件數(shù)更是只有36.04%。特別是在困難的數(shù)學(xué)和安全類別上，穩(wěn)定秩的優(yōu)勢更加明顯。
這種優(yōu)勢的原因在于穩(wěn)定秩獨(dú)特的設(shè)計(jì)。條件數(shù)過于敏感于極值，容易受到異常值影響；有效秩的熵權(quán)重和PCA的離散計(jì)數(shù)方法都不太適合捕捉質(zhì)量差異；而穩(wěn)定秩通過Frobenius范數(shù)聚合整個(gè)奇異值譜的信息，既保持了對整體結(jié)構(gòu)的敏感性，又具有良好的魯棒性。
九、局限性與未來展望
盡管穩(wěn)定秩方法表現(xiàn)出色，但研究團(tuán)隊(duì)也誠實(shí)地指出了一些局限性。首先，穩(wěn)定秩與質(zhì)量指標(biāo)的相關(guān)性雖然顯著，但強(qiáng)度中等（相關(guān)系數(shù)在0.2-0.4之間）。這說明穩(wěn)定秩捕捉的是質(zhì)量的一個(gè)重要方面，但并非全部。
其次，穩(wěn)定秩方法在代碼生成任務(wù)上的表現(xiàn)相對較弱。當(dāng)輸入被截?cái)嗟?28個(gè)token時(shí)，代碼類別的準(zhǔn)確率從87.91%驟降到24.80%，這說明代碼的質(zhì)量判斷可能更依賴于完整的程序邏輯結(jié)構(gòu)。
另外，目前的研究主要集中在英文文本上，穩(wěn)定秩在其他語言上的表現(xiàn)還需要進(jìn)一步驗(yàn)證。不同語言的語法結(jié)構(gòu)和表達(dá)習(xí)慣可能會影響穩(wěn)定秩的有效性。
未來的研究方向包括：探索穩(wěn)定秩與其他質(zhì)量信號的組合使用、開發(fā)針對特定領(lǐng)域（如代碼、數(shù)學(xué)、創(chuàng)意寫作）的優(yōu)化版本、以及將穩(wěn)定秩方法擴(kuò)展到多模態(tài)任務(wù)中。
說到底，這項(xiàng)研究為AI大語言模型的訓(xùn)練開辟了一條全新的道路。通過直接從模型內(nèi)部幾何結(jié)構(gòu)中提取質(zhì)量信號，我們不再需要完全依賴昂貴的人工標(biāo)注或容易被操控的外部獎(jiǎng)勵(lì)模型。穩(wěn)定秩就像是AI模型的"內(nèi)在指南針"，能夠幫助它們在生成過程中自主地追求更高的質(zhì)量。
這種方法的價(jià)值不僅在于提升了模型性能，更在于它展示了一種全新的思路：與其試圖從外部告訴AI什么是好的，不如教會它從內(nèi)部感知什么是好的。這種內(nèi)在的質(zhì)量感知能力，可能是未來AI系統(tǒng)走向真正智能的重要一步。雖然目前穩(wěn)定秋方法還有一些局限性，但它已經(jīng)證明了內(nèi)在幾何結(jié)構(gòu)作為質(zhì)量信號的巨大潛力。
隨著這一研究的深入，我們有理由期待未來的AI系統(tǒng)將變得更加自主、高效和可靠。對于普通用戶而言，這意味著更好的AI助手、更準(zhǔn)確的自動生成內(nèi)容以及更少的"AI胡說八道"現(xiàn)象。而對于AI研究界，這項(xiàng)工作提供了一個(gè)全新的研究方向，可能會催生出更多創(chuàng)新的訓(xùn)練方法和評估技術(shù)。
Q&A
Q1：穩(wěn)定秩是什么，為什么能判斷AI回答質(zhì)量？
A：穩(wěn)定秩是一個(gè)數(shù)學(xué)概念，用來測量AI模型內(nèi)部數(shù)字表示的"分布均勻程度"。當(dāng)AI生成高質(zhì)量回答時(shí)，它需要協(xié)調(diào)多個(gè)知識領(lǐng)域，這會在內(nèi)部產(chǎn)生多維度的激活模式，導(dǎo)致穩(wěn)定秋值較高；而低質(zhì)量回答往往對應(yīng)單一或混亂的思維模式，穩(wěn)定秩值較低。
Q2：SR-GRPO訓(xùn)練方法比傳統(tǒng)方法好在哪里？
A：SR-GRPO最大的優(yōu)勢是不需要人工標(biāo)注數(shù)據(jù)，能夠讓AI通過監(jiān)測自身的內(nèi)部狀態(tài)來自動提升質(zhì)量。實(shí)驗(yàn)顯示，在數(shù)學(xué)推理任務(wù)上，SR-GRPO比傳統(tǒng)獎(jiǎng)勵(lì)模型方法提升了10-19個(gè)百分點(diǎn)，而且訓(xùn)練成本更低，適用范圍更廣。
Q3：普通人什么時(shí)候能用到這項(xiàng)技術(shù)？
A：這項(xiàng)技術(shù)主要用于改進(jìn)AI大語言模型的訓(xùn)練過程，普通用戶不會直接接觸到穩(wěn)定秩計(jì)算。但隨著這種方法的應(yīng)用，未來的AI助手、聊天機(jī)器人和自動寫作工具的回答質(zhì)量會變得更好，出現(xiàn)胡言亂語的情況會大幅減少。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會在24小時(shí)內(nèi)處理完畢。

同類資訊

MacOS 26 Bug致顯示器閃爍：官方多次更新問題反而更糟！

千兆寬帶縮水，上網(wǎng)需要不打折扣的體驗(yàn)感

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

AI生成操作系統(tǒng)新突破！上海交大提出文件系統(tǒng)開發(fā)新范式

OPPO Watch X3智能手表入網(wǎng)，預(yù)計(jì)和OPPO Find N6一起發(fā)布

全站最新

MacOS 26 Bug致顯示器閃爍：官方多次更新問題反而更糟！

千兆寬帶縮水，上網(wǎng)需要不打折扣的體驗(yàn)感

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

熱門推薦

MacOS 26 Bug致顯示器閃爍：官方多次更新問題反而更糟！

智聯(lián)招聘康雁：企業(yè)戰(zhàn)略正從“利用AI”轉(zhuǎn)向“通過AI賦能人”

千兆寬帶縮水，上網(wǎng)需要不打折扣的體驗(yàn)感

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

AI生成操作系統(tǒng)新突破！上海交大提出文件系統(tǒng)開發(fā)新范式

OPPO Watch X3智能手表入網(wǎng)，預(yù)計(jì)和OPPO Find N6一起發(fā)布

降息，突傳大消息！突然跳水，超8.8萬人爆倉

機(jī)器人從比硬件轉(zhuǎn)向比大腦，商湯發(fā)布開悟世界模型3.0

上交團(tuán)隊(duì)實(shí)現(xiàn)新一代光計(jì)算芯片突破，開辟算力芯片新路徑

用iPhone級價(jià)格造出個(gè)人超算，清華博士創(chuàng)業(yè)拓展個(gè)人計(jì)算能力邊界

賺了幾倍：玩家僅花60元就淘到一塊GTX 1660S

“完美伴侶”是串代碼，男子因沉迷AI聊天就醫(yī)

特斯拉Model Y用戶手冊更新，將支持查看視頻錄制時(shí)擋位等

步入深水區(qū)，智能金融迎模型迭代等多重挑戰(zhàn)