
國產大模型DeepSeek在全球火了,并帶火了一個95后AI“天才少女”羅福莉。
最近,中國頭部量化私募公司幻方量化旗下專注于AI大模型研究開發的Deepseek(深度求索公司),宣布旗下的全新系列模型DeepSeek-V3首個版本上線并同步開源。
DeepSeek-V3是深度求索自研的MoE模型(混合專家大模型),不僅以卓越的性能超越或媲美全球頂級的開源及閉源模型,更重要的是訓練成本極低,被稱為“AI界的拼多多”,以史無前例的性價比被國內外一眾圈內大佬點贊,引發廣泛關注。
與DeepSeek一起進入大家視野的,是95后AI“天才少女”羅福莉。她曾在DeepSeek參與了DeepSeek-V2的研發,是這款模型的關鍵開發者之一。在DeepSeek-V3發布前幾天,有媒體報道稱,小米創始人雷軍已開出千萬年薪,將羅福莉招至麾下,羅福莉將就職于小米AI實驗室,領導大模型團隊。
公開資料顯示,羅福莉本科就讀于北京師范大學計算機專業,碩士畢業于北京大學計算語言學專業。2019年,還在北大讀碩士的她在人工智能領域頂級國際會議ACL上發表8篇論文(其中2篇一作),登上了知乎熱搜。羅福莉用本人知乎賬號回應稱,“這次投稿ACL是我近一年的產出,所以我認為自己是付出了足夠的努力的,當然也可能也有運氣成分加持。”
碩士畢業后,羅福莉先是進入阿里達摩院做人工智能研究,從事預訓練語言模型相關的工作,負責阿里達摩院AliceMind開源項目,主導開發了多語言預訓練模型VECO。2022年,羅福莉加入幻方量化從事深度學習相關策略建模和算法研究,后又跳槽到DeepSeek擔任深度學習研究員,參與研發MoE大模型DeepSeek-V2。
今年5月,在DeepSeek-V2發布以后,羅福莉在知乎上撰文,發表了對于DeepSeek-V2的看法。她表示,“單論DeepSeek-V2模型的中文水平,是真實處在國內外閉源模型的第一梯隊”,“外加1元/百萬輸入Tokens的價格,只有GPT4價格的1/100,性價比之王”。
事實上,羅福莉被重金招入小米,是小米全面發力AI大模型的其中一個動作。
2023年4月,小米正式組建了AI實驗室大模型團隊,并表示將不斷挖掘AI相關的用戶場景,發揮自身技術優勢,并以開放的態度與合作伙伴開拓更多機會。今年11月,小米成立了專門的AI平臺部,小米的元老級技術大牛張鐸為負責人。張鐸本碩畢業于清華計算機系,曾被雷軍公開稱贊是“小米的大神”,送以“鐸神”的稱號。
兵馬未動,糧草先行。除了招募人才以外,最近,媒體報道稱小米正著手搭建自己的GPU萬卡集群,并在過去幾個月里持續提升算力儲備,為大模型研發提供更充分的算力供給。雷軍在公開演講時曾表示,小米做大模型的思路和很多公司不太一樣,選擇主力突破的是輕量化和本地部署。對于小米這樣無論在手機還是造車上都講究“性價比”的公司而言,如何在燒錢的大模型業務中平衡成本,無疑是雷軍考慮的核心問題。而這,或許也是擁有DeepSeek-V2研發背景的羅福莉被雷軍看中的原因。
證券時報記者 周春媚





京公網安備 11011402013531號