![]()
Andrej Karpathy又在周末整活了,為了跟進之前的推文(昨天的文章),他通過Vibe Coding手搓了一個名為 llm-council(大模型議會)的Web應用,目的是為了好玩和獲取更好的答案。多個模型像顧問一樣提供建議,你可以把它理解為個人的“智囊團”
這個應用界面看起來和ChatGPT一模一樣,但背后的運行機制完全不同。你的每一次查詢,都會通過OpenRouter分發(fā)給“委員會”中的多個大模型成員。
以目前的配置為例,成員包括:
? OpenAI/GPT-5.1
? Google/Gemini-3-pro-preview
? Anthropic/Claude-sonnet-4.5
? x-AI/Grok-4
具體的工作流是這樣的:
第一步,查詢被分發(fā)給上述所有模型。
第二步,所有模型都能看到彼此(匿名化處理后)的回復,然后它們會對這些回復進行審閱和排名。
第三步,一位 “大模型主席”(Chairman LLM)會獲取所有上下文信息,并生成最終的回復。
“智囊團”的運行效果
Karpathy表示,在同一個查詢下并排看到多個模型的結(jié)果非常有趣。更逗的是,看它們互相評估和排名的過程。
結(jié)果顯示,模型們通常非常樂意承認其他LLM的回答優(yōu)于自己。這也讓這種方法成為一種頗具意思的模型評估策略
實測案例
在今天用“大模型委員會”閱讀書籍章節(jié)的測試中:
![]()
模型們的共識:一致推選 GPT-5.1 為最佳、最有洞察力的模型;同時一致認為 Claude 的表現(xiàn)最差,其他模型介于兩者之間
Karpathy的體感:并不完全認同模型的評判。定性來看,他覺得 GPT-5.1 有點過于啰嗦和鋪陳;Gemini 3 則更加凝練和經(jīng)過處理;而在該領域下,Claude 的回答確實太簡短了
Karpathy認為,“大模型智囊團”的數(shù)據(jù)流設計空間非常廣闊,目前關于LLM集成的構(gòu)建似乎還處于探索不足的階段。
目前,該項目代碼已開源。
項目地址:
https://github.com/karpathy/llm-council





京公網(wǎng)安備 11011402013531號