,8月18日消息,techcrunch編輯在過去一周使用了OpenAI的高級(jí)語音模式,以下為他的體驗(yàn)。
過去一周,我一直在試用OpenAI 的高級(jí)語音模式,這是我迄今為止對(duì)人工智能未來最有說服力的體驗(yàn)。本周,我的手機(jī)聽到笑話后會(huì)大笑,然后回復(fù)笑話,問我今天過得怎么樣,并告訴我過得很開心。我當(dāng)時(shí)是在用 iPhone 說話,而不是用手操作它。
OpenAI 的最新功能目前處于有限的 alpha 測(cè)試階段,它并沒有讓 ChatGPT 比以前更智能。相反,高級(jí)語音模式 (AVM) 使它更友好、更自然。它為使用人工智能和設(shè)備創(chuàng)建了一個(gè)新界面,讓人感覺新鮮而興奮,這正是讓我害怕的地方。這個(gè)產(chǎn)品有點(diǎn)小問題,整個(gè)想法讓我毛骨悚然,但令我驚訝的是,我真的很喜歡使用它。
退一步來說,我認(rèn)為 AVM 符合 OpenAI 首席執(zhí)行官 Sam Altman 的更廣闊愿景,與代理一起,改變?nèi)祟惻c計(jì)算機(jī)交互的方式,并以 AI 模型為中心。
「最終,你只需要向計(jì)算機(jī)提出你的需求,它就會(huì)為你完成所有這些任務(wù)。」Altman 在 2023 年 11 月的 OpenAI 開發(fā)日上說道。「這些功能在人工智能領(lǐng)域通常被稱為代理。它帶來的好處將是巨大的。」
我的朋友,ChatGPT
周三,我測(cè)試了這項(xiàng)我能想到的先進(jìn)技術(shù)的最大優(yōu)勢(shì):我讓 ChatGPT 按照奧巴馬的方式訂購塔可鐘 (Taco Bell)。
「呃,讓我說清楚——我想要一份 Crunchwrap Supreme,也許再來幾塊玉米餅。」ChatGPT 的高級(jí)語音模式說道。「你覺得他會(huì)如何處理免下車取餐服務(wù)?」
ChatGPT 說道,然后對(duì)自己的笑話大笑起來。

屏幕截圖:ChatGPT 隨后轉(zhuǎn)錄了口頭對(duì)話。
這種模仿也讓我笑了起來,與奧巴馬標(biāo)志性的節(jié)奏和停頓相得益彰。盡管如此,它仍然保持了我選擇的 ChatGPT 語音 Juniper 的音調(diào),因此不會(huì)與奧巴馬的聲音混淆。它聽起來就像一個(gè)朋友在模仿我,完全理解我想從中得到什么,甚至知道它在說一些有趣的事情。我發(fā)現(xiàn)與手機(jī)中的這個(gè)高級(jí)助手交談出乎意料地快樂。
我還向 ChatGPT 尋求建議,以解決涉及復(fù)雜人際關(guān)系的問題:要求另一半搬來和我一起住。在解釋了關(guān)系的復(fù)雜性和我們的職業(yè)方向后,我收到了一些關(guān)于如何發(fā)展的非常詳細(xì)的建議。這些問題你永遠(yuǎn)無法向 Siri 或 Google 搜索提出,但現(xiàn)在你可以使用 ChatGPT。聊天機(jī)器人的聲音在回答這些提示時(shí)甚至表現(xiàn)出一種略顯嚴(yán)肅、溫和的語氣;與奧巴馬點(diǎn)塔可鐘快餐時(shí)的開玩笑語氣形成鮮明對(duì)比。
ChatGPT 的 AVM 還非常適合幫助您理解復(fù)雜的主題。我要求它以 10 歲兒童能理解的方式分解收益報(bào)告中的項(xiàng)目(例如自由現(xiàn)金流)。它以檸檬水?dāng)偽粸槔晕冶淼芡耆芾斫獾姆绞浇忉屃藥讉€(gè)財(cái)務(wù)術(shù)語。您甚至可以要求 ChatGPT 的 AVM 放慢語速,以適應(yīng)您當(dāng)前的理解水平。

Siri 可以走路,所以 AVM 可以跑
與 Siri 或 Alexa 相比,ChatGPT 的 AVM 顯然更勝一籌,因?yàn)樗捻憫?yīng)時(shí)間更快、答案獨(dú)特,并且能夠回答上一代虛擬助手無法回答的復(fù)雜問題。然而,AVM 在其他方面存在不足。ChatGPT 的語音功能無法設(shè)置計(jì)時(shí)器或提醒、實(shí)時(shí)上網(wǎng)、查看天氣或與手機(jī)上的任何 API 交互。至少目前,它還不是虛擬助手的有效替代品。
與谷歌的競(jìng)爭(zhēng)功能Gemini Live相比,AVM 略勝一籌。Gemini Live 無法模仿,無法表達(dá)任何情感,無法加快或減慢速度,并且響應(yīng)時(shí)間更長(zhǎng)。Gemini Live 確實(shí)有更多聲音(十個(gè),而 OpenAI 只有三個(gè)),而且似乎更符合時(shí)下潮流(Gemini Live 知道谷歌的反壟斷裁決)。值得注意的是,AVM 和 Gemini Live 都不會(huì)唱歌,這可能是為了避免與唱片業(yè)發(fā)生版權(quán)訴訟。
話雖如此,ChatGPT 的 AVM 故障很多(公平地說,Gemini Live 也是如此)。有時(shí)它會(huì)在句子中途中斷,然后重新開始。它還會(huì)時(shí)不時(shí)發(fā)出這種奇怪、粗糙的聲音,讓人有點(diǎn)不愉快。我不確定這是型號(hào)、互聯(lián)網(wǎng)連接還是其他問題,但這些技術(shù)缺陷對(duì)于 alpha 測(cè)試來說在某種程度上是意料之中的。不過,這些問題并沒有影響我真正用手機(jī)通話的體驗(yàn)。
在我看來,這些例子就是 AVM 的魅力所在。該功能并不能讓 ChatGPT 無所不知,但它確實(shí)允許人們以獨(dú)特的人類方式與底層 AI 模型 GPT-4o 進(jìn)行交互。(如果您忘記了電話另一端沒有人,我會(huì)理解。)與 AVM 交談時(shí),ChatGPT 幾乎感覺具有社交意識(shí),但當(dāng)然不是。它只是一堆整齊打包的預(yù)測(cè)算法。
談?wù)摽萍?
坦率地說,這個(gè)功能讓我擔(dān)心。這不是科技公司第一次在手機(jī)上提供陪伴功能。我這一代人,Z 世代,是第一個(gè)伴隨著社交媒體成長(zhǎng)起來的一代人,社交媒體為人們提供了聯(lián)系,但卻利用了我們的集體不安全感。與人工智能設(shè)備交談——就像 AVM 似乎提供的那樣——似乎是社交媒體“手機(jī)中的朋友”現(xiàn)象的演變,它提供了廉價(jià)的聯(lián)系,觸動(dòng)了我們的人類本能。但這一次,它完全將人類排除在外。
人工人類連接已成為生成式人工智能的一個(gè)意外流行用例。如今,人們將人工智能聊天機(jī)器人用作朋友、導(dǎo)師、治療師和老師。當(dāng) OpenAI 推出其 GPT 商店時(shí),它很快就被人工智能女友淹沒,這些聊天機(jī)器人專門充當(dāng)你的另一半。麻省理工學(xué)院媒體實(shí)驗(yàn)室的兩名研究人員本月發(fā)出警告,要為上癮智能做好準(zhǔn)備,或者說人工智能伴侶具有黑暗模式,可以讓人類上癮。我們可能會(huì)打開潘多拉魔盒,讓設(shè)備以新的、誘人的方式吸引我們的注意力。
本月初,一名哈佛大學(xué)輟學(xué)生發(fā)布了一款名為 Friend 的人工智能項(xiàng)鏈,震驚了科技界。這款可穿戴設(shè)備(如果能像承諾的那樣工作)會(huì)一直在傾聽,聊天機(jī)器人會(huì)通過短信告訴你你的生活。雖然這個(gè)想法看起來很瘋狂,但 ChatGPT 的 AVM 等創(chuàng)新讓我有理由認(rèn)真對(duì)待這些用例。
雖然 OpenAI 在這方面處于領(lǐng)先地位,但谷歌也緊隨其后。我相信亞馬遜和蘋果也在競(jìng)相將這種能力融入到他們的產(chǎn)品中,很快,它就會(huì)成為該行業(yè)的賭注。
想象一下,你向智能電視索要一部電影的超具體推薦,然后就能得到你想要的電影。或者告訴 Alexa 你感覺到的感冒癥狀,然后讓它在亞馬遜上為你訂購紙巾和止咳藥,同時(shí)為你提供家庭療法建議。也許你可以讓你的電腦為你的家人制定一個(gè)周末旅行計(jì)劃,而不是手動(dòng)谷歌搜索所有內(nèi)容。
顯然,這些行動(dòng)需要在人工智能代理領(lǐng)域取得突破和飛躍。OpenAI 在這方面的努力,即 GPT 商店,感覺就像一款被過度炒作的產(chǎn)品,不再是該公司關(guān)注的重點(diǎn)。但 AVM 至少解決了與計(jì)算機(jī)對(duì)話這一難題。這些概念還有很長(zhǎng)的路要走,但在使用 AVM 之后,它們似乎比上周更接近現(xiàn)實(shí)。





京公網(wǎng)安備 11011402013531號(hào)