IT之家 11 月 26 日消息,Anthropic 昨日(11 月 25 日)發(fā)布研究報(bào)告,通過分析旗下 AI 模型 Claude 的十萬次真實(shí)對(duì)話,發(fā)現(xiàn)任務(wù)完成時(shí)間平均縮短約 80%。
量化 AI 對(duì)生產(chǎn)力的真實(shí)影響
該研究目的是量化 AI 在真實(shí)工作場景中對(duì)生產(chǎn)力提升的具體效果。研究團(tuán)隊(duì)采用了一種保護(hù)用戶隱私的分析方法,抽樣分析了十萬次來自 Claude.ai 用戶的真實(shí)對(duì)話記錄,通過讓 Claude 估算這些對(duì)話中涉及任務(wù)的完成時(shí)間,研究人員得以對(duì)比有無 AI 協(xié)助下的效率差異。
![]()
本次研究目的是量化 AI 在真實(shí)工作場景中對(duì)生產(chǎn)力提升的具體效果,上圖為相關(guān)研究方法。
根據(jù) Claude 的估算,如果沒有 AI 協(xié)助,用戶處理的這些任務(wù)平均需要 90 分鐘才能完成,而在 Claude 的幫助下,任務(wù)完成時(shí)間平均縮短了約 80%。
這些任務(wù)大多較為復(fù)雜,例如法律咨詢、企業(yè)管理等,平均耗時(shí)接近兩小時(shí);而一些較簡單的任務(wù),如餐飲籌備,耗時(shí)則在 30 分鐘左右。
研究還發(fā)現(xiàn),AI 在不同領(lǐng)域的提效能力存在差異,例如在醫(yī)療輔助任務(wù)中,AI 能將效率提升 90%,但在硬件問題處理上,效率提升則為 56%。
![]()
Claude 估計(jì)的人工完成時(shí)間在不同提示語下表現(xiàn)出高度相關(guān)性。提示語 1 要求 Claude 估計(jì)“具備相應(yīng)技能的員工”完成任務(wù)所需的時(shí)間,提示語 2 則詢問“在相關(guān)領(lǐng)域具備勝任能力的人員”完成任務(wù)所需的時(shí)間。這兩個(gè)提示語的對(duì)數(shù)相關(guān)系數(shù)為 0.89,表明兩者高度一致。
![]()
各項(xiàng)數(shù)據(jù)均源自 Claude 對(duì) SOC 主要群體的時(shí)間估算。不同職業(yè)的人工時(shí)間估算差異顯著 —— 人們使用 Claude 處理管理和法律事務(wù)時(shí),預(yù)計(jì)需要大約 2 小時(shí)才能完成(無需人工輔助),而醫(yī)療保健支持和食品準(zhǔn)備等任務(wù)平均只需半小時(shí)左右。職業(yè)類別的平均時(shí)薪數(shù)據(jù)來自 OEWS 2024。平均任務(wù)成本的計(jì)算方法是:將每個(gè)職業(yè)的時(shí)薪乘以其任務(wù)時(shí)間的中位數(shù),然后根據(jù)每個(gè)任務(wù)在我們樣本中的普遍程度進(jìn)行加權(quán)平均。節(jié)省時(shí)間的計(jì)算公式為: 1 - time_withai / time_without_ai 。
![]()
Claude 估算了九項(xiàng)不同任務(wù)的任務(wù)時(shí)間、該職業(yè)的平均時(shí)薪、隱含任務(wù)成本以及節(jié)省的時(shí)間。任務(wù)時(shí)間的估算方法是讓克勞德預(yù)測專業(yè)人員在沒有人工智能輔助的情況下完成任務(wù)所需的時(shí)間。時(shí)薪數(shù)據(jù)來自 2024 年 5 月的職業(yè)就業(yè)和工資統(tǒng)計(jì)(OEWS)。任務(wù)成本的計(jì)算方法是將任務(wù)時(shí)間乘以時(shí)薪。節(jié)省的時(shí)間的計(jì)算方法是估算人類完成任務(wù)所需的時(shí)間,然后計(jì)算公式為:1 - time_with_ai / time_without_ai 。當(dāng)前 AI 或使美國勞動(dòng)生產(chǎn)率年增速翻倍
研究團(tuán)隊(duì)將這些任務(wù)層面的效率提升數(shù)據(jù)外推至整個(gè)美國經(jīng)濟(jì)。他們使用標(biāo)準(zhǔn)經(jīng)濟(jì)學(xué)模型進(jìn)行測算,結(jié)果表明,如果普及當(dāng)前一代 AI 技術(shù),有望在未來十年內(nèi)推動(dòng)美國勞動(dòng)生產(chǎn)率實(shí)現(xiàn) 1.8% 的年均增長。
這一數(shù)字幾乎是美國自 2019 年以來年均增長率的兩倍,也處于近期同類研究預(yù)測范圍的上限。不過,研究人員強(qiáng)調(diào),這并非對(duì)未來的精準(zhǔn)預(yù)測,因?yàn)樗⑽纯紤] AI 模型的普及速度以及未來技術(shù)進(jìn)步可能帶來的更大影響。
軟件開發(fā)、管理等知識(shí)密集型行業(yè)受益最大
數(shù)據(jù)顯示,AI 帶來的生產(chǎn)力提升主要集中在知識(shí)密集型行業(yè)。其中,軟件開發(fā)人員的貢獻(xiàn)最大,占總生產(chǎn)率增益的 19%。緊隨其后的是運(yùn)營經(jīng)理(約 6%)、市場研究分析師(5%)、客戶服務(wù)代表(4%)和中學(xué)教師(3%)。
相比之下,餐飲、醫(yī)療服務(wù)、建筑和零售等行業(yè)的任務(wù)在數(shù)據(jù)樣本中占比較低,因而從當(dāng)前 AI 應(yīng)用中獲得的直接生產(chǎn)力提升也相對(duì)有限。
AI 加速部分任務(wù),但存在局限性
該研究還指出了一個(gè)重要現(xiàn)象:AI 能夠顯著加速某些特定任務(wù),但對(duì)其他任務(wù)的幫助則相對(duì)有限。例如,AI 可以幫助軟件工程師高效編寫代碼和文檔,但對(duì)于協(xié)調(diào)系統(tǒng)安裝、監(jiān)督工程師等任務(wù)卻作用不大。
這意味著,隨著 AI 普及,那些難以被 AI 加速的“瓶頸”任務(wù),可能會(huì)在整體工作流程中占據(jù)更大比重,從而成為制約生產(chǎn)力進(jìn)一步增長的關(guān)鍵因素。
Anthropic 承認(rèn)該研究存在局限性。首先,Claude 的估算并非完美,且無法核實(shí)用戶在與 AI 對(duì)話之外所花費(fèi)的額外時(shí)間(如驗(yàn)證 AI 生成內(nèi)容的準(zhǔn)確性)。其次,模型假設(shè) AI 被普遍采用,而這在短期內(nèi)難以實(shí)現(xiàn)。
盡管如此,這項(xiàng)研究建立了一套可持續(xù)追蹤 AI 經(jīng)濟(jì)影響的測量框架。隨著 AI 技術(shù)不斷進(jìn)步和應(yīng)用范圍擴(kuò)大,該框架將為我們理解 AI 如何重塑經(jīng)濟(jì)提供一個(gè)動(dòng)態(tài)且寶貴的視角。
IT之家附上參考地址





京公網(wǎng)安備 11011402013531號(hào)