周四,微軟、OpenAI與埃隆·馬斯克旗下的xAI不約而同地發(fā)布了各自最新的AI模型,此舉不僅標(biāo)志著AI賽道的競爭已進(jìn)入白熱化階段,也凸顯了核心技術(shù)正以前所未有的速度向前推進(jìn)。
微軟:自研模型,志在掌控AI命運(yùn)
微軟周四推出了兩款自主研發(fā)的強(qiáng)大AI模型,此舉標(biāo)志著微軟的人工智能部門將不再“藏于幕后”,而是要正式走向臺(tái)前,與OpenAI等行業(yè)巨頭正面競爭,從而在高風(fēng)險(xiǎn)的AI賽道上掌握自己的命運(yùn)。
MAI-Voice-1:一款高效的語音AI模型,能夠在單個(gè)GPU上運(yùn)行,并在不到一秒內(nèi)生成一分鐘的音頻。
· MAI-1-preview:一款文本模型,預(yù)計(jì)將為未來版本的Copilot AI助手提供支持。
這兩款模型在設(shè)計(jì)上都高度注重成本效益。 微軟人工智能部門負(fù)責(zé)人穆斯塔法·蘇萊曼(Mustafa Suleyman)透露,微軟采用了部分來自開源社區(qū)的技術(shù),以MAI-1-preview為例,其訓(xùn)練僅使用了約1.5萬顆英偉達(dá)H-100 GPU,遠(yuǎn)低于xAI的Grok模型所使用的超10萬顆。
“如今,訓(xùn)練模型的藝術(shù)就在于選擇完美的數(shù)據(jù),避免在無效的Token上浪費(fèi)任何計(jì)算力,”蘇萊曼強(qiáng)調(diào)。
盡管AI模型日趨高效,但消費(fèi)者需求和新技術(shù)對(duì)算力的依賴持續(xù)增長,導(dǎo)致AI公司面臨著巨大的成本挑戰(zhàn)。蘇萊曼透露,微軟的AI團(tuán)隊(duì)已在全球多個(gè)頂級(jí)數(shù)據(jù)中心著手開發(fā)下一代模型,這些數(shù)據(jù)中心均配備了英偉達(dá)的下一代芯片GB-200。他描繪了一個(gè)“龐大的五年發(fā)展路線圖”,并表示“每個(gè)季度都在進(jìn)行投資”。
“作為全球最大的公司之一,我們必須具備打造世界最強(qiáng)模型的內(nèi)部專業(yè)能力,”蘇萊曼表示。不過,他也試圖淡化與長期合作伙伴OpenAI的潛在競爭,稱“我們的目標(biāo)是深化合作關(guān)系”。
作為一名AI安全的倡導(dǎo)者,蘇萊曼近期曾撰文警告“看似有意識(shí)的AI”的危險(xiǎn),并表示微軟的目標(biāo)是在“后訓(xùn)練”階段,像雕刻一樣移除讓模型看起來擁有情感和目標(biāo)的特征。“盲目模仿所有人類能力存在實(shí)際風(fēng)險(xiǎn),而現(xiàn)在正是我們主動(dòng)思考這些風(fēng)險(xiǎn)的時(shí)候。”
有分析認(rèn)為,盡管微軟仍處于構(gòu)建強(qiáng)大AI模型的初期階段,但此舉對(duì)于微軟保持長期競爭力至關(guān)重要。其最終目標(biāo),或許是借助Windows和Office的強(qiáng)大分發(fā)渠道,利用自研AI模型和基礎(chǔ)設(shè)施為這些核心產(chǎn)品提供支持。
OpenAI:升級(jí)語音API,定義“下一個(gè)媒介”
同一天,OpenAI也發(fā)布了其迄今為止最先進(jìn)的語音模型gpt-realtime,并宣布其Realtime API在歷經(jīng)數(shù)月公測后已廣泛可用。
“我們認(rèn)為語音是下一個(gè)媒介,”O(jiān)penAI產(chǎn)品負(fù)責(zé)人邁克達(dá)德·賈弗(Miqdad Jaffer)表示,“通過語音來表達(dá),比文本更簡單、更自然。”
據(jù)介紹,OpenAI于2024年10月首次以公測版形式推出了Realtime API,此次更新后,將支持遠(yuǎn)程模型上下文協(xié)議(MCP)服務(wù)器、圖像輸入和電話呼叫。OpenAI方面表示,MCP非常適合語音命令,能讓用戶無縫地通過已連接的應(yīng)用程序執(zhí)行操作。
這些擴(kuò)展功能將使得語音智能體能夠訪問更多工具,并擁有更豐富的上下文來協(xié)助用戶。這不僅簡化了將AI模型與數(shù)據(jù)源連接的過程,并且MCP作為一項(xiàng)開放標(biāo)準(zhǔn),還能在確保連接安全性的同時(shí),優(yōu)先保護(hù)用戶的數(shù)據(jù)和隱私。
新的gpt-realtime模型則在多個(gè)維度上實(shí)現(xiàn)了顯著提升:不僅在智能化、函數(shù)調(diào)用和遵循復(fù)雜指令方面有所改進(jìn),還能在單個(gè)句子中途流暢地切換語言。其演示版本展現(xiàn)了逼真的類人特性,聲音的起伏能夠表達(dá)多種情感,甚至在面對(duì)“越獄嘗試”時(shí)也能冷靜地重新引導(dǎo)對(duì)話。此外,該模型還能分析照片內(nèi)容,并就其觀察與用戶展開討論。
賈弗特別強(qiáng)調(diào)了“遵循指令”能力的重要性,他認(rèn)為“能夠給出一組指令并讓模型穩(wěn)定地執(zhí)行,是構(gòu)建模型的關(guān)鍵”。
此外,OpenAI還新增了兩種專供API用戶的語音Cedar和Marin。從周四開始,新模型和API已向所有開發(fā)者開放。賈弗建議開發(fā)者,“去做對(duì)你的用戶最有益的事情,我們相信語音就是未來。”
xAI:切入編程賽道,主打經(jīng)濟(jì)高效
與此同時(shí),馬斯克旗下的xAI也加入了這場發(fā)布熱潮,推出了一款名為grok-code-fast-1的“快速且經(jīng)濟(jì)”的智能編程模型,正式進(jìn)軍AI編程這一關(guān)鍵領(lǐng)域。
xAI表示,該模型將在有限時(shí)間內(nèi)免費(fèi)提供,首批發(fā)布合作伙伴包括了GitHub Copilot和Windsurf。其“優(yōu)勢(shì)在于以經(jīng)濟(jì)、緊湊的形式提供強(qiáng)勁的性能”,旨在成為處理常見編程任務(wù)的高性價(jià)比選擇。
智能編程領(lǐng)域的競爭正日趨激烈。 微軟的GitHub Copilot已在企業(yè)中廣泛應(yīng)用,其CEO薩提亞·納德拉(Satya Nadella)在4月透露,公司內(nèi)部已有20%至30%的代碼由AI編寫。而OpenAI旗下的編程助手Codex也已于6月向ChatGPT Plus用戶開放。xAI此刻入局,無疑將使這一賽道的競爭格局更趨復(fù)雜。
三雄競逐,創(chuàng)新與競爭并存
微軟、OpenAI和xAI在同一天的模型發(fā)布,共同勾勒出當(dāng)前AI行業(yè)競爭激烈、創(chuàng)新層出不窮的圖景。
微軟正著力于通過自主研發(fā)掌握核心技術(shù),并強(qiáng)調(diào)模型的成本效益和長期戰(zhàn)略部署;OpenAI則持續(xù)深耕其技術(shù)優(yōu)勢(shì),力圖在作為“下一個(gè)媒介”的語音交互上定義行業(yè)標(biāo)準(zhǔn);而xAI則以其“快速且經(jīng)濟(jì)”的智能編程模型,切入AI編程助手這一關(guān)鍵應(yīng)用領(lǐng)域。
這三家公司盡管在具體策略和側(cè)重點(diǎn)上有所不同,但都殊途同歸地致力于推動(dòng)AI技術(shù)的邊界,并將其融入更廣泛的產(chǎn)品和應(yīng)用中。這場“三雄爭霸”不僅加速了技術(shù)迭代,也預(yù)示著人工智能將在未來深刻改變我們的工作和生活方式。(小小)





京公網(wǎng)安備 11011402013531號(hào)