1月15日訊(記者 朱俊熹)國產(chǎn)開源大模型再添一員強(qiáng)將。1月15日,大模型獨(dú)角獸MiniMax發(fā)布并開源了MiniMax-01全新系列模型,包含基礎(chǔ)語言大模型和視覺多模態(tài)大模型兩個(gè)模型。
據(jù)MiniMax介紹,其基礎(chǔ)語言大模型MiniMax-Text-01在多數(shù)任務(wù)上,追平了GPT-4o、Claude 3.5 Sonnet這兩個(gè)海外公認(rèn)最先進(jìn)的閉源模型。在評估模型指令遵循能力的IFeval和C-SimpleQA中文評測集中,該基礎(chǔ)語言大模型的得分也超過了另一國產(chǎn)開源模型DeepSeek-V3。
與DeepSeek模型類似,MiniMax的新系列模型也對傳統(tǒng)的Transformer架構(gòu)進(jìn)行了創(chuàng)新。MiniMax稱,在模型中首次大規(guī)模實(shí)現(xiàn)了線性注意力機(jī)制,每8層中有7個(gè)是基于Lightning Attention的線性注意力,有一層是傳統(tǒng)的SoftMax注意力。
通俗來講,如果比喻成要在一群人中找到最重要的那個(gè),傳統(tǒng)注意力需要每個(gè)人跟其他人都單獨(dú)聊一遍,逐一比較所有人的重要性。而線性注意力只用查看每個(gè)人手中的名片,快速統(tǒng)計(jì)出哪些人持有的信息是最重要的。因此,傳統(tǒng)注意力機(jī)制精準(zhǔn)但計(jì)算繁重,適合短輸入或復(fù)雜任務(wù),而線性注意力以其高效更適合超長輸入、需要快速處理的任務(wù)。
MiniMax在技術(shù)報(bào)告中提到,正在研究更高效的模型架構(gòu),希望能夠完全去除SoftMax注意機(jī)制,從而實(shí)現(xiàn)無限長的上下文窗口,而不會增加計(jì)算開銷。
幻方量化旗下AI公司DeepSeek在12月底發(fā)布了V3開源模型,采用的是創(chuàng)新的多頭潛在注意力機(jī)制(MLA)和DeepSeekMoE混合專家架構(gòu)。在節(jié)省內(nèi)存占用和計(jì)算資源的同時(shí),確保資源被高效利用。DeepSeek-V3以極低的訓(xùn)練成本實(shí)現(xiàn)了對齊領(lǐng)軍閉源模型的性能,引發(fā)國內(nèi)外科技社區(qū)熱議。不僅被前OpenAI聯(lián)創(chuàng)Andrej Karpathy贊為“在資源受限的情況下對研究和工程的一次令人印象深刻的展示”,也被OpenAI列作中國AI技術(shù)快速發(fā)展的范例。
圍繞線性注意力機(jī)制,MiniMax對模型的訓(xùn)練和推理系統(tǒng)進(jìn)行了重構(gòu)。其模型包含4560億個(gè)參數(shù),單次推理激活459億個(gè)。能夠高效處理最長400萬token的上下文,是GPT-4o的32倍,Claude 3.5 Sonnet的20倍。在長上下文的測評集上,MiniMax-Text-01的表現(xiàn)顯著領(lǐng)先于其他開閉源模型。

圖片MiniMax官網(wǎng)
MiniMax表示,01系列模型將能夠支持未來一年內(nèi)智能體應(yīng)用的大幅增長需求,因?yàn)橹悄荏w系統(tǒng)越來越需要更長的上下文處理能力和持續(xù)的記憶。“我們相信2025年會是Agent(智能體)高速發(fā)展的一年。”該公司稱,“在這個(gè)模型中,我們走出了第一步,并希望使用這個(gè)架構(gòu)持續(xù)建立復(fù)雜Agent所需的基礎(chǔ)能力。”
智能體正成為國內(nèi)外AI公司競相押注的賽道。OpenAI CEO Sam Altman本月初發(fā)文稱,到2025年,將可能看到第一批AI智能體“加入勞動(dòng)力隊(duì)伍”,并實(shí)質(zhì)性地改變公司的產(chǎn)出。谷歌在推出新一代Gemini 2.0大模型時(shí)也表示,這是為智能體時(shí)代構(gòu)建的。該模型主打支持多模態(tài)輸入和輸出,以構(gòu)建出更接近通用助手愿景的智能體。
MiniMax在闡述為何選擇將模型開源時(shí)提到,一是認(rèn)為這有可能啟發(fā)更多長上下文的研究和應(yīng)用,從而更快促進(jìn)智能體時(shí)代的到來。二是通過開源促使其努力做更多創(chuàng)新,更高質(zhì)量地開展后續(xù)的模型研發(fā)工作。
MiniMax成立于2021年12月,被普遍稱為國內(nèi)“大模型六小龍”之一。旗下?lián)碛蠥I陪伴應(yīng)用星野,以及集成了對話、視頻、音樂功能的海螺AI等代表性產(chǎn)品,在海外市場積累了一定熱度。其最新披露的一輪融資還是在去年3月,由阿里領(lǐng)投的6億美元B輪融資,公司估值達(dá)25億美元。此前騰訊、米哈游、高瓴創(chuàng)投等機(jī)構(gòu)也參投了MiniMax。
六小龍中,各公司的大模型開源進(jìn)度不一。其中,百川智能、智譜AI、零一萬物開源了多款模型,涵蓋大語言模型、多模態(tài)模型等。而月之暗面、階躍星辰僅開源了部分技術(shù),例如月之暗面聯(lián)合清華大學(xué)等機(jī)構(gòu)開源的大模型推理架構(gòu)Mooncake,以及階躍星辰專注提升光學(xué)字符識別(OCR)技術(shù)的GOT-OCR2.0模型。





京公網(wǎng)安備 11011402013531號