蘋果在AI領(lǐng)域的進(jìn)展似乎并不順利。回顧去年全球開發(fā)者大會(huì)(WWDC)上蘋果承諾的眾多人工智能(AI)功能,如今一年過(guò)去,蘋果在這一領(lǐng)域似乎比去年6月時(shí)更加落后于競(jìng)爭(zhēng)對(duì)手。對(duì)此,有外媒發(fā)文稱,蘋果或許可以借鑒對(duì)手的三大AI功能來(lái)迎頭趕上。

借鑒谷歌的Notebook LM
谷歌的Notebook LM支持自定義指令,并且最近還增加了多語(yǔ)言支持。其音頻概述功能對(duì)于閱讀密集且技術(shù)性強(qiáng)的機(jī)器學(xué)習(xí)論文非常有幫助。
借鑒Anthropic的MCP
去年,Anthropic公司宣布推出模型上下文協(xié)議(MCP):這是一個(gè)開放標(biāo)準(zhǔn),允許大型語(yǔ)言模型(LLM)通過(guò)統(tǒng)一界面安全且無(wú)縫地與外部工具、API和平臺(tái)進(jìn)行交互。
在過(guò)去的幾個(gè)月里,MCP已被OpenAI、Zapier、谷歌DeepMind、Replit、微軟、Block等眾多公司和平臺(tái)采用。它實(shí)際上有可能成為L(zhǎng)LM與平臺(tái)交互的標(biāo)準(zhǔn),就像HTTPS之于網(wǎng)頁(yè),SQL之于數(shù)據(jù)庫(kù)一樣。
考慮到蘋果已有的Siri意圖和Siri捷徑框架,我們更有可能在下個(gè)月看到蘋果宣布自己的類似MCP的協(xié)議,而不是直接采用MCP。無(wú)論如何,用戶都將從這些功能中受益匪淺。例如,用戶可以要求LLM(甚至Siri!)根據(jù)Pages文檔創(chuàng)建一個(gè)完整的Keynote演示文稿。同樣,依賴輔助工具的用戶也將解鎖迄今為止仍像科幻小說(shuō)般的可能性。
借鑒OpenAI的屏幕共享
目前,蘋果提供了視覺(jué)智能功能,允許用戶“點(diǎn)擊并長(zhǎng)按以查看餐廳或企業(yè)的詳細(xì)信息;翻譯、總結(jié)或大聲朗讀文本;識(shí)別植物和動(dòng)物等”。
然而,它仍然缺少一個(gè)關(guān)鍵功能,即ChatGPT用戶自去年以來(lái)一直享有的視頻和屏幕共享功能。雖然將AI應(yīng)用于照片可能有所幫助,但與直接打開相機(jī)或操作手機(jī)并與ChatGPT討論屏幕上的內(nèi)容相比,這已經(jīng)顯得像是過(guò)時(shí)的工作流程。比如,在瀏覽菜單時(shí)向ChatGPT咨詢食物過(guò)敏問(wèn)題,你就會(huì)明白我的意思。

盡管過(guò)去幾年我們聽說(shuō)了很多關(guān)于AI的討論,但事實(shí)上,更廣泛的受眾仍然難以超越在ChatGPT上輸入幾個(gè)無(wú)意義的提示,并弄清楚這如何真正融入他們的生活。讓AI變得有用的關(guān)鍵在于,在用戶已經(jīng)所處的環(huán)境中提供其益處,而不是讓他們?cè)趹?yīng)用程序之間來(lái)回切換。
誠(chéng)然,這些功能中的許多(如果不是全部)可能涉及對(duì)敏感數(shù)據(jù)的服務(wù)器端處理,但這就是這項(xiàng)工作的本質(zhì)。只要用戶知道發(fā)生了什么,他們就能決定是否使用某個(gè)功能。然而,由于隱私挑戰(zhàn)而放棄這些功能的開發(fā),已不再是可行的選項(xiàng)。





京公網(wǎng)安備 11011402013531號(hào)