新玩法！Karpathy周末手搓“大模型智囊團”應用：各大LLM同臺互評，代碼已開源

IP屬地中國·北京 AI寒武紀 時間：2025-11-23 16:08:03

Andrej Karpathy又在周末整活了，為了跟進之前的推文（昨天的文章），他通過Vibe Coding手搓了一個名為 llm-council（大模型議會）的Web應用，目的是為了好玩和獲取更好的答案。多個模型像顧問一樣提供建議，你可以把它理解為個人的“智囊團”
這個應用界面看起來和ChatGPT一模一樣，但背后的運行機制完全不同。你的每一次查詢，都會通過OpenRouter分發(fā)給“委員會”中的多個大模型成員。
以目前的配置為例，成員包括：
? OpenAI/GPT-5.1
? Google/Gemini-3-pro-preview
? Anthropic/Claude-sonnet-4.5
? x-AI/Grok-4
具體的工作流是這樣的：
第一步，查詢被分發(fā)給上述所有模型。
第二步，所有模型都能看到彼此（匿名化處理后）的回復，然后它們會對這些回復進行審閱和排名。
第三步，一位 “大模型主席”（Chairman LLM）會獲取所有上下文信息，并生成最終的回復。
“智囊團”的運行效果
Karpathy表示，在同一個查詢下并排看到多個模型的結(jié)果非常有趣。更逗的是，看它們互相評估和排名的過程。
結(jié)果顯示，模型們通常非常樂意承認其他LLM的回答優(yōu)于自己。這也讓這種方法成為一種頗具意思的模型評估策略
實測案例
在今天用“大模型委員會”閱讀書籍章節(jié)的測試中：

模型們的共識：一致推選 GPT-5.1 為最佳、最有洞察力的模型；同時一致認為 Claude 的表現(xiàn)最差，其他模型介于兩者之間
Karpathy的體感：并不完全認同模型的評判。定性來看，他覺得 GPT-5.1 有點過于啰嗦和鋪陳；Gemini 3 則更加凝練和經(jīng)過處理；而在該領域下，Claude 的回答確實太簡短了
Karpathy認為，“大模型智囊團”的數(shù)據(jù)流設計空間非常廣闊，目前關于LLM集成的構(gòu)建似乎還處于探索不足的階段。
目前，該項目代碼已開源。
項目地址：
https://github.com/karpathy/llm-council

免責聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

上海科普教育創(chuàng)新獎揭曉，首設“前沿科技成果科普獎”

《黃仁勛傳》作者威特：谷歌是對英偉達“AI霸權”的最大威脅

谷歌CEO「劈柴」親自下場分芯片！930億美元填不飽「算力饑荒」

復雜空間推理新SOTA，性能提升55%！中山大學新作SpatialDreamer

央視曝光AI培訓“月入過萬”騙局，專坑老年人

宇樹機器人在王力宏演唱會秀高難度空翻，馬斯克點贊

全站最新

上海科普教育創(chuàng)新獎揭曉，首設“前沿科技成果科普獎”

《黃仁勛傳》作者威特：谷歌是對英偉達“AI霸權”的最大威脅

谷歌CEO「劈柴」親自下場分芯片！930億美元填不飽「算力饑荒」

復雜空間推理新SOTA，性能提升55%！中山大學新作SpatialDreamer

熱門推薦

摩爾線程與圖靈量子達成合作，推動量子經(jīng)典混合技術應用

上海科普教育創(chuàng)新獎揭曉，首設“前沿科技成果科普獎”

《黃仁勛傳》作者威特：谷歌是對英偉達“AI霸權”的最大威脅

效能提升10倍！摩爾線程新一代全功能GPU架構(gòu)“花港”正式發(fā)布

文匯時評｜“AI泔水”成年度熱詞，帶來什么警示

ChatGPT-5.2生成字母掛圖錯誤頻出“人類專家水平”遭質(zhì)疑

谷歌CEO「劈柴」親自下場分芯片！930億美元填不飽「算力饑荒」

復雜空間推理新SOTA，性能提升55%！中山大學新作SpatialDreamer

央視曝光AI培訓“月入過萬”騙局，專坑老年人

利好來了！摩爾線程，重磅發(fā)布！

“星鏈”一衛(wèi)星在太空發(fā)生異常

宇樹機器人在王力宏演唱會秀高難度空翻，馬斯克點贊

智能機器人錦標賽深圳揭榜羅湖50億基金護航顛覆性創(chuàng)新

宇樹機器人為王力宏伴舞，馬斯克贊嘆

AI人才爭奪戰(zhàn)白熱化，谷歌另辟蹊徑“返聘”老員工