智東西10月14日消息,昨夜,前特斯拉人工智能與自動駕駛視覺總監、OpenAI研究員安德烈卡帕西(Andrej Karpathy)開源nanochat,號稱可以只用不到100美元(約合人民幣711.5元)訓練出“簡易版ChatGPT”,一經發布在GitHub上就獲得了5.6k星。

nanochat Github主頁(Github)
與其早期只涵蓋預訓練的nanoGPT不同,nanochat是一個極簡的、從零構建的全棧訓練/推理流程,用最精簡的依賴代碼庫實現了“簡易版ChatGPT”。

安德烈卡帕西(Andrej Karpathy)推文截圖(X)
卡帕西在評論區中回復稱,nanochat的基本架構類似meta的Llama,但有所簡化,并吸收了modded-nanoGPT的一些改進。
他還透露,截至指令微調(SFT)階段,整個訓練耗時3小時51分鐘,總成本為92.4美元(約合人民幣657.4元),“這樣我們甚至還能剩下8美元買個冰淇淋犒勞自己。”他開玩笑道。
值得注意的是,由于目前對強化學習(RL)的支持尚不完善,卡帕西稱他并未將其計入總運行時間。
也就是說,開發者只需啟動云GPU實例,運行單個腳本,只需不到100美元(約合人民幣711.5元),最快4小時,就能訓練出可進行簡單對話、創作故事詩歌、回答基礎問題的“簡易版ChatGPT”。
訓練約12小時,模型即可在評估模型推理能力、知識基礎等基礎能力的CORE指標上超越GPT-2。卡帕西還透露,當投入提升至約1000美元(約合人民幣7114.7元),訓練41.6小時后,模型表現還將顯著提升,能夠解決基礎數學/編程問題并通過選擇題測試。
例如,深度為30的模型訓練24小時(相當于GPT-3 Small 125M的計算量,約為GPT-3的千分之一)后,在多任務的語言理解基準MMLU得分超40分,在簡單常識推理任務ARC-Easy超70分,在數學推理能力基準測試GSM8K中獲得超20分的成績。

nanochat性能表格(Github)
這個有著8304行代碼的項目實現了以下功能:
1、使用新的Rust實現訓練分詞器;
2、在FineWeb數據集上預訓練Transformer LLM,并通過CORE指標多維度評估;
3、使用SmolTalk的用戶-助手對話數據、選擇題數據和工具使用數據進行中期訓練;
4、進行指令微調,在常識選擇題(ARC-E/C、MMLU)、數學(GSM8K)、代碼(Humaneval)等基準上評估聊天模型;
5、可選使用“GRPO”算法在GSM8K數據集上進行強化學習;
6、通過帶KV緩存的引擎實現高效推理,支持簡單預填充/解碼和工具調用(輕量級沙箱中的Python解釋器),可通過CLI或類ChatGPT網頁界面交互;
7、生成單頁Markdown評估報告,以游戲化方式總結全流程。
在原推文的評論區中,卡帕西還給出了一個nanochat與用戶對話的案例。在這個對話中,基礎版nanochat已經實現AI聊天機器人的對話功能,并且可以根據要求撰寫詩歌。

nanochat功能演示(X)
在卡帕西的推文下,網友們發出一致好評,有人稱“非常受到啟發”,甚至說“這個人(指卡帕西)簡直是個傳奇。”

網友評論節選(X)
還有網友已經做出了nanochat的可交互實時代碼圖譜,能夠更加直觀地探索這個代碼庫
結語:nanochat為AI開發成本控制路徑提供參考
nanochat項目的推出,為AI模型開發的成本控制提供了新的參考。該項目證明了,在適當的架構設計和流程優化下,以100美元級別的成本實現基礎對話AI功能具備技術可行性。
雖然當前版本在性能上仍與商用大模型存在差距,但其展現的性價比優勢,為AI技術在更廣泛場景中的應用拓展了可能性。隨著開源社區對該項目的持續優化,這種高效開發模式或將為AI技術普及帶來新的推動力。





京公網安備 11011402013531號