近期,科技巨頭微軟在人工智能領(lǐng)域邁出了重要一步,其人工智能部門(mén)宣布推出兩款自主研發(fā)的AI模型:MAI-Voice-1語(yǔ)音模型和MAI-1-preview通用模型。這一消息標(biāo)志著微軟在AI自研道路上的新突破。
據(jù)悉,MAI-Voice-1語(yǔ)音模型以其高效性能脫穎而出,僅需單塊GPU便能在短時(shí)間內(nèi)生成長(zhǎng)達(dá)一分鐘的音頻內(nèi)容。這一特性使其在多種應(yīng)用場(chǎng)景中展現(xiàn)出巨大潛力,如“Copilot Daily”功能中,AI主持人利用該模型實(shí)時(shí)播報(bào)熱點(diǎn)新聞,同時(shí),它還能生成具有播客風(fēng)格的對(duì)話,幫助用戶(hù)深入理解各類(lèi)話題。
另一方面,MAI-1-preview模型則被視作微軟Copilot助手未來(lái)功能發(fā)展的風(fēng)向標(biāo)。目前,該模型已開(kāi)始在AI基準(zhǔn)測(cè)試平臺(tái)LMArena上進(jìn)行公開(kāi)測(cè)試,并計(jì)劃逐步應(yīng)用于Copilot助手的特定文本場(chǎng)景,以替代或增強(qiáng)對(duì)OpenAI大型語(yǔ)言模型的依賴(lài)。
與此同時(shí),谷歌DeepMind也不甘落后,推出了Gemini 2.5 Flash圖像編輯模型。這款新模型能夠根據(jù)文字指令對(duì)圖像進(jìn)行精準(zhǔn)修改,同時(shí)保持人物與動(dòng)物的外觀一致性。相較于之前的原生圖像生成工具,Gemini 2.5 Flash在圖像修改準(zhǔn)確率上有了顯著提升,甚至在多項(xiàng)任務(wù)中超越了ChatGPT所用的GPT-4模型,展現(xiàn)出其在復(fù)雜文字編輯圖像方面的強(qiáng)大能力。
Gemini 2.5 Flash的另一大亮點(diǎn)在于其“角色一致性”功能,能夠在生成多張圖像時(shí)保持同一對(duì)象外觀的一致性,這對(duì)于系列照片創(chuàng)作、產(chǎn)品多角度展示等場(chǎng)景尤為適用,為品牌素材與產(chǎn)品目錄的批量制作提供了便捷。
蘋(píng)果公司在AI領(lǐng)域的動(dòng)向也備受關(guān)注。據(jù)報(bào)道,蘋(píng)果高管正在就收購(gòu)歐洲最大AI初創(chuàng)公司Mistral或Perplexity AI進(jìn)行商討。Mistral AI通過(guò)多輪融資籌集了巨額資金,若蘋(píng)果成功收購(gòu),無(wú)疑將極大增強(qiáng)其在AI領(lǐng)域的實(shí)力和創(chuàng)新力。
在全球科技大廠紛紛加碼AI研發(fā)的背景下,微美全息(WIMI.US)作為AI領(lǐng)域的創(chuàng)新代表,同樣展現(xiàn)出了強(qiáng)勁的實(shí)力。該公司通過(guò)“硬件+軟件+平臺(tái)”一體化能力構(gòu)建競(jìng)爭(zhēng)壁壘,加速AI算法場(chǎng)景化落地,為智能化轉(zhuǎn)型提供堅(jiān)實(shí)的技術(shù)支撐。
在技術(shù)研發(fā)層面,微美全息致力于推動(dòng)多模態(tài)大模型與空間計(jì)算技術(shù)的結(jié)合,實(shí)現(xiàn)文本、圖像、音頻、視頻等多模態(tài)數(shù)據(jù)的原生級(jí)融合。其重點(diǎn)布局的文本生成視頻、圖像生成視頻等場(chǎng)景,為劇情創(chuàng)作、短視頻生成等應(yīng)用提供了廣闊空間。
在開(kāi)源生態(tài)層面,微美全息開(kāi)放模型代碼、算力接口及技術(shù)工具鏈,構(gòu)建覆蓋云端與邊緣端的“全息云”平臺(tái),支持開(kāi)發(fā)者進(jìn)行二次開(kāi)發(fā),降低技術(shù)門(mén)檻,加速垂類(lèi)模型商業(yè)化驗(yàn)證。憑借多模態(tài)處理能力與跨行業(yè)場(chǎng)景落地經(jīng)驗(yàn),微美全息正成為大模型變革背后的關(guān)鍵力量。




京公網(wǎng)安備 11011402013531號(hào)