機器之心報道
機器之心編輯部
OpenAI 剛剛?cè)谫Y,就迫不及待開始證明自己了。今日凌晨,OpenAI 宣布推出類似 Anthropic 的 Artifacts 的應(yīng)用 canvas,并稱「這是一種使用 ChatGPT 寫作和編程的新方式」。
在 Claude 中試過 Artifacts 的朋友都知道,這能極大提升 LLM 輸出結(jié)果的表現(xiàn)力,其支持輸出文本文件、代碼、網(wǎng)頁、SVG 等等。此前風(fēng)靡一時的「漢語新解」便是基于 Claude 的 Artifacts 功能。但讓 ChatGPT 用戶感到遺憾的是,Artifacts 上線三個多月了,OpenAI 一直沒有跟進(jìn),以至于一些開發(fā)者自行開發(fā)發(fā)布了自己的開源版本。
現(xiàn)在,用戶的呼聲終于獲得了響應(yīng),于是紛紛點贊。也有人開玩笑地表示 OpenAI 這是打不過 Claude 便加入。

已有用戶分享了自己使用 canvas 的驚喜成果,比如用戶 @bilawalsidhu 分享自己讓 ChatGPT 使用 ThreeJS 創(chuàng)建超立方體查看器過程:

在 canvas 這個界面,你可以與 ChatGPT 一起完成寫作和編碼項目,而不再局限于簡單的聊天。canvas 是一種新的交互方式,也是 OpenAI 推出 ChatGPT 以來的首個重大視覺界面更新。
canvas 會在單獨的窗口中打開,方便用戶與 ChatGPT 一起協(xié)作完成項目。canvas 的 Beta 版本為用戶提供了一種全新的合作方式:你不僅能夠通過對話進(jìn)行創(chuàng)作,還能與 ChatGPT 成為并肩作戰(zhàn)的伙伴,一起創(chuàng)造和完善。

canvas 由 GPT-4o 支持,在 Beta 期間可以在模型選擇器中手動選擇。不過,現(xiàn)在 Beta 版本只提供給 ChatGPT Plus 與團隊用戶。企業(yè)和教育用戶將在下周獲得訪問權(quán)限。ChatGPT 免費用戶需要等到 canvas 正式發(fā)布后才能使用。

我們先一睹 canvas 有哪些驚艷之處。
與 ChatGPT 更好地協(xié)作和 ChatGPT 聊天對于我們來說已經(jīng)是十分簡便的信息獲取方式,這也包括寫作與編碼。不過當(dāng)你想要及時對寫作內(nèi)容或者編碼內(nèi)容進(jìn)行修改時,對話方式可能就顯得力不從心了。
canvas 的出現(xiàn)就是為了解決這個難題。
在這個新的界面中,你可以通過高亮的方式,告訴 ChatGPT 具體需要關(guān)注什么,讓它更精準(zhǔn)地理解你的用意。這就類似于編輯,你可以在全部上下文中具體地提出反饋和建議。
此外,你的調(diào)整方式也十分便捷,直接編輯代碼或文本都不成問題。你的項目,你做主。canvas 還提供了快捷菜單,可以讓 ChatGPT 幫你調(diào)整文本長度、調(diào)試代碼,或者快速執(zhí)行其他實用操作。如果想要之前的版本,一鍵返回即可恢復(fù)。

寫作快捷操作,圖源:https://openai.com/index/introducing-canvas/
當(dāng) ChatGPT 發(fā)現(xiàn)某個場景中 canvas 能幫上忙時,它會自動打開。你也可以在提示中直接加一句「使用 canvas」,這樣 ChatGPT 就會切換到 canvas 界面,幫助你更方便地處理現(xiàn)有項目。
,時長
00:51
canvas 的編程能力代碼是一個迭代過程,但是在聊天之中,很難跟蹤代碼的改進(jìn)過程。canvas 讓我們可以更輕松地跟蹤和理解 ChatGPT 的修改過程,OpenAI 也承諾「計劃繼續(xù)提升這類編輯過程的透明度」。
canvas 目前提供了以下編程快捷操作:
審閱代碼:ChatGPT 可提供改進(jìn)代碼的行內(nèi)建議;添加日志:插入 print 語句來幫助用戶進(jìn)行調(diào)試和理解代碼;添加注釋:為代碼添加注釋,讓其更容易理解;修復(fù) bug:檢測和重寫有問題的代碼,以修復(fù)錯誤;支持多語言導(dǎo)出:可將用戶的代碼轉(zhuǎn)譯成 Javascript、Typescript、Python、Java、C++、PHP 等語言。,時長
01:00
將模型訓(xùn)練為協(xié)作伙伴OpenAI 的研究團隊對 GPT-4o 進(jìn)行了訓(xùn)練,以使其能夠作為創(chuàng)意合作伙伴進(jìn)行協(xié)作。該模型知道何時打開 canvas,何時進(jìn)行目標(biāo)性編輯,以及何時需要完全重寫。同時,它還能夠理解更廣泛的上下文,從而提供精準(zhǔn)的反饋和建議。
為了支持這一點,研究團隊開發(fā)了以下核心行為:
在寫作和編碼時觸發(fā) canvas生成多樣化的內(nèi)容類型進(jìn)行目標(biāo)性編輯重寫文檔提供 inline 評論OpenAI 通過 20 多項自動化內(nèi)部評估來衡量進(jìn)展,并使用了新穎的合成數(shù)據(jù)生成技術(shù),例如從 OpenAI 的 o1-preview 中提取輸出,來對模型進(jìn)行核心行為的后訓(xùn)練。這種方法能夠快速應(yīng)對寫作質(zhì)量和新的用戶交互需求,從而無需依賴人工生成的數(shù)據(jù)。
對研發(fā)團隊來說,一個關(guān)鍵挑戰(zhàn)是何時觸發(fā) canvas。OpenAI 訓(xùn)練模型在像「寫一篇關(guān)于咖啡豆歷史的博客文章」這樣的提示詞下打開 canvas,同時避免對像「幫我做一道新的晚餐食譜」這樣的一般問答任務(wù)進(jìn)行過度觸發(fā)。
在寫作任務(wù)中,他們優(yōu)先改進(jìn)了「正確觸發(fā)」的情況(以犧牲「正確不觸發(fā)」為代價),達(dá)到了 83%,相較于作為基線的零樣本提示詞式 GPT-4o 有了顯著提升。
值得注意的是,此類基線的質(zhì)量對特定提示詞非常敏感。不同的提示詞可能導(dǎo)致基線在表現(xiàn)不佳的同時,呈現(xiàn)不同的錯誤分布。
例如,在編碼和寫作任務(wù)中會出現(xiàn)「均勻地不準(zhǔn)確」情況,導(dǎo)致不同類型的錯誤分布和表現(xiàn)不佳的形式。在編碼方面,OpenAI 有意讓模型在觸發(fā)方面偏向保守,以避免干擾高級用戶的體驗。之后,OpenAI 也是承諾將繼續(xù)根據(jù)用戶反饋對其進(jìn)行優(yōu)化。

針對寫作和編碼任務(wù),OpenAI 改進(jìn)了準(zhǔn)確觸發(fā) canvas 決策邊界的能力,分別達(dá)到了 83% 和 94%,相較于作為基線的零樣本提示詞式 GPT-4o 有明顯提升。
第二個挑戰(zhàn)在于對模型在觸發(fā) canvas 后的編輯行為進(jìn)行調(diào)優(yōu),特別是決定何時進(jìn)行目標(biāo)性編輯,何時重寫整個內(nèi)容。
OpenAI 訓(xùn)練模型在用戶通過界面明確選擇文本時進(jìn)行目標(biāo)性編輯,否則就更傾向于重寫內(nèi)容。隨著模型的不斷完善,canvas 的編輯行為也在持續(xù)演變。

針對寫作和編碼任務(wù),OpenAI 優(yōu)先優(yōu)化了 canvas 的目標(biāo)編輯功能。帶有 canvas 的 GPT-4o 在性能上比基線的提示詞式 GPT-4o 高出 18%。
最后,訓(xùn)練模型生成高質(zhì)量評論需要經(jīng)過仔細(xì)的迭代。與前兩個可以輕松適應(yīng)自動化評估并輔以詳細(xì)人工審查的案例不同,自動衡量評論的質(zhì)量尤其具有挑戰(zhàn)性。
因此,OpenAI 使用人工評估來衡量評論的質(zhì)量和準(zhǔn)確性。他們所整合的 canvas 模型在準(zhǔn)確性上比使用提示詞指令的零樣本 GPT-4o 高出 30%,在質(zhì)量上高出 16%。
這表明合成訓(xùn)練顯著提升了相較于帶有詳細(xì)指令說明的零樣本提示詞下的響應(yīng)質(zhì)量和行為表現(xiàn)。

canvas 目前仍處于早期測試階段,OpenAI 后續(xù)計劃快速提升其功能。
至于它和 Artifacts 究竟誰更能贏得用戶親睞,就讓我們拭目以待吧,相信剛拿了一大筆投資的 OpenAI 也應(yīng)該不會讓用戶失望。
參考鏈接:
https://openai.com/index/introducing-canvas/
https://twitter.com/OpenAI/status/1841887707020329173
https://techcrunch.com/2024/10/03/openai-launches-new-canvas-chatgpt-interface-tailored-to-writing-and-coding-projects/





京公網(wǎng)安備 11011402013531號