繼DeepSeek后，MiniMax也發(fā)布了挑戰(zhàn)傳統(tǒng)Transformer架構(gòu)的國產(chǎn)開源模型

IP屬地中國·北京 編輯：唐云澤藍(lán)鯨財(cái)經(jīng) 時(shí)間：2025-01-15 20:01:34

1月15日訊（記者朱俊熹）國產(chǎn)開源大模型再添一員強(qiáng)將。1月15日，大模型獨(dú)角獸MiniMax發(fā)布并開源了MiniMax-01全新系列模型，包含基礎(chǔ)語言大模型和視覺多模態(tài)大模型兩個(gè)模型。
據(jù)MiniMax介紹，其基礎(chǔ)語言大模型MiniMax-Text-01在多數(shù)任務(wù)上，追平了GPT-4o、Claude 3.5 Sonnet這兩個(gè)海外公認(rèn)最先進(jìn)的閉源模型。在評估模型指令遵循能力的IFeval和C-SimpleQA中文評測集中，該基礎(chǔ)語言大模型的得分也超過了另一國產(chǎn)開源模型DeepSeek-V3。
與DeepSeek模型類似，MiniMax的新系列模型也對傳統(tǒng)的Transformer架構(gòu)進(jìn)行了創(chuàng)新。MiniMax稱，在模型中首次大規(guī)模實(shí)現(xiàn)了線性注意力機(jī)制，每8層中有7個(gè)是基于Lightning Attention的線性注意力，有一層是傳統(tǒng)的SoftMax注意力。
通俗來講，如果比喻成要在一群人中找到最重要的那個(gè)，傳統(tǒng)注意力需要每個(gè)人跟其他人都單獨(dú)聊一遍，逐一比較所有人的重要性。而線性注意力只用查看每個(gè)人手中的名片，快速統(tǒng)計(jì)出哪些人持有的信息是最重要的。因此，傳統(tǒng)注意力機(jī)制精準(zhǔn)但計(jì)算繁重，適合短輸入或復(fù)雜任務(wù)，而線性注意力以其高效更適合超長輸入、需要快速處理的任務(wù)。
MiniMax在技術(shù)報(bào)告中提到，正在研究更高效的模型架構(gòu)，希望能夠完全去除SoftMax注意機(jī)制，從而實(shí)現(xiàn)無限長的上下文窗口，而不會增加計(jì)算開銷。
幻方量化旗下AI公司DeepSeek在12月底發(fā)布了V3開源模型，采用的是創(chuàng)新的多頭潛在注意力機(jī)制（MLA）和DeepSeekMoE混合專家架構(gòu)。在節(jié)省內(nèi)存占用和計(jì)算資源的同時(shí)，確保資源被高效利用。DeepSeek-V3以極低的訓(xùn)練成本實(shí)現(xiàn)了對齊領(lǐng)軍閉源模型的性能，引發(fā)國內(nèi)外科技社區(qū)熱議。不僅被前OpenAI聯(lián)創(chuàng)Andrej Karpathy贊為“在資源受限的情況下對研究和工程的一次令人印象深刻的展示”，也被OpenAI列作中國AI技術(shù)快速發(fā)展的范例。
圍繞線性注意力機(jī)制，MiniMax對模型的訓(xùn)練和推理系統(tǒng)進(jìn)行了重構(gòu)。其模型包含4560億個(gè)參數(shù)，單次推理激活459億個(gè)。能夠高效處理最長400萬token的上下文，是GPT-4o的32倍，Claude 3.5 Sonnet的20倍。在長上下文的測評集上，MiniMax-Text-01的表現(xiàn)顯著領(lǐng)先于其他開閉源模型。
圖片MiniMax官網(wǎng)
MiniMax表示，01系列模型將能夠支持未來一年內(nèi)智能體應(yīng)用的大幅增長需求，因?yàn)橹悄荏w系統(tǒng)越來越需要更長的上下文處理能力和持續(xù)的記憶。“我們相信2025年會是Agent（智能體）高速發(fā)展的一年。”該公司稱，“在這個(gè)模型中，我們走出了第一步，并希望使用這個(gè)架構(gòu)持續(xù)建立復(fù)雜Agent所需的基礎(chǔ)能力。”
智能體正成為國內(nèi)外AI公司競相押注的賽道。OpenAI CEO Sam Altman本月初發(fā)文稱，到2025年，將可能看到第一批AI智能體“加入勞動(dòng)力隊(duì)伍”，并實(shí)質(zhì)性地改變公司的產(chǎn)出。谷歌在推出新一代Gemini 2.0大模型時(shí)也表示，這是為智能體時(shí)代構(gòu)建的。該模型主打支持多模態(tài)輸入和輸出，以構(gòu)建出更接近通用助手愿景的智能體。
MiniMax在闡述為何選擇將模型開源時(shí)提到，一是認(rèn)為這有可能啟發(fā)更多長上下文的研究和應(yīng)用，從而更快促進(jìn)智能體時(shí)代的到來。二是通過開源促使其努力做更多創(chuàng)新，更高質(zhì)量地開展后續(xù)的模型研發(fā)工作。
MiniMax成立于2021年12月，被普遍稱為國內(nèi)“大模型六小龍”之一。旗下?lián)碛蠥I陪伴應(yīng)用星野，以及集成了對話、視頻、音樂功能的海螺AI等代表性產(chǎn)品，在海外市場積累了一定熱度。其最新披露的一輪融資還是在去年3月，由阿里領(lǐng)投的6億美元B輪融資，公司估值達(dá)25億美元。此前騰訊、米哈游、高瓴創(chuàng)投等機(jī)構(gòu)也參投了MiniMax。
六小龍中，各公司的大模型開源進(jìn)度不一。其中，百川智能、智譜AI、零一萬物開源了多款模型，涵蓋大語言模型、多模態(tài)模型等。而月之暗面、階躍星辰僅開源了部分技術(shù)，例如月之暗面聯(lián)合清華大學(xué)等機(jī)構(gòu)開源的大模型推理架構(gòu)Mooncake，以及階躍星辰專注提升光學(xué)字符識別（OCR）技術(shù)的GOT-OCR2.0模型。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會在24小時(shí)內(nèi)處理完畢。

同類資訊

MacOS 26 Bug致顯示器閃爍：官方多次更新問題反而更糟！

千兆寬帶縮水，上網(wǎng)需要不打折扣的體驗(yàn)感

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

AI生成操作系統(tǒng)新突破！上海交大提出文件系統(tǒng)開發(fā)新范式

OPPO Watch X3智能手表入網(wǎng)，預(yù)計(jì)和OPPO Find N6一起發(fā)布

全站最新

MacOS 26 Bug致顯示器閃爍：官方多次更新問題反而更糟！

千兆寬帶縮水，上網(wǎng)需要不打折扣的體驗(yàn)感

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

熱門推薦

MacOS 26 Bug致顯示器閃爍：官方多次更新問題反而更糟！

智聯(lián)招聘康雁：企業(yè)戰(zhàn)略正從“利用AI”轉(zhuǎn)向“通過AI賦能人”

千兆寬帶縮水，上網(wǎng)需要不打折扣的體驗(yàn)感

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

AI生成操作系統(tǒng)新突破！上海交大提出文件系統(tǒng)開發(fā)新范式

OPPO Watch X3智能手表入網(wǎng)，預(yù)計(jì)和OPPO Find N6一起發(fā)布

降息，突傳大消息！突然跳水，超8.8萬人爆倉

機(jī)器人從比硬件轉(zhuǎn)向比大腦，商湯發(fā)布開悟世界模型3.0

上交團(tuán)隊(duì)實(shí)現(xiàn)新一代光計(jì)算芯片突破，開辟算力芯片新路徑

用iPhone級價(jià)格造出個(gè)人超算，清華博士創(chuàng)業(yè)拓展個(gè)人計(jì)算能力邊界

賺了幾倍：玩家僅花60元就淘到一塊GTX 1660S

“完美伴侶”是串代碼，男子因沉迷AI聊天就醫(yī)

特斯拉Model Y用戶手冊更新，將支持查看視頻錄制時(shí)擋位等

步入深水區(qū)，智能金融迎模型迭代等多重挑戰(zhàn)