“工作越積極,我被淘汰得越快!”
這聽起來荒誕的現象卻在AI行業如火如荼地上演。
當一種新技術誕生時,往往會帶來新的工作類型。數據標注就是大火AI下的其中一種新職業。
在判定式AI的時代,人工智能中的「人工」主要是數據標注,幫助AI處理數據,進行分類。
到了生成式AI的時代,機器代替了原來的數據標注,但對人工的需求卻沒有減少,反而變成了更高的工作需求——AI訓練師。
數據標注員還是AI訓練師?
很多時候,市場常常將「數據標注員」和「AI訓練師」混為一談,兩者都是伴隨人工智能技術發展起來的一種工作類型。但實際上,負責的卻是AI大模型訓練中不同的階段,且價值相差甚遠。
回到在AI大模型的訓練過程,主要有五個步驟:數據準備、模型設計、預訓練、微調和模型部署。

數據準備便是數據標注員主要負責的環節。而AI訓練師的職責范圍覆蓋更多環節,包含了預訓練、微調和模型部署。除了具體工作內容不同,職位也有所不同。
在數據準備的環節中,數據標注員要完成對數據的處理。例如,在一張圖片中,框出不同的物體并打上機器可以理解的標簽,相當于教機器認識世界。這個過程不僅有圖片,還有語音、文本、視頻等數據。

而AI訓練師則需要結合業務需要來訓練數據、進行算法測試,推進模型的實際落地。另一方面,AI訓練師還需要根據測試結果,反推數據準備環節的標注體系,提出對標注工具的功能建議、協作流程優化等。
總的來說,就是一手調參數,一手抓數據,讓AI生成的內容更準確。于是常常招聘要求AI訓練師需要有一定的IT技術背景。
在一些特定的行業,例如游戲、電商等,還會將AI訓練師的工作稱為“煉丹”——AI訓練師需要不斷地對模型進行調優、測試,大量嘗試的經歷就像煉丹一樣需要精細的操作。
這兩種職業難度的不同,最直觀的還是市場薪資的差距。
AI訓練師的薪資一般起薪在10k以上,而這個數值對于數據標注員來說,降到了4k。在一些非一線城市,數據標注員的起薪甚至降到了2~3k。

值得一提的是,更多的數據標注崗位是以兼職的形式出現,不需要坐班,有電腦就行。
一位招聘人員告訴,兼職的薪資按勞動量來計算。招聘人員給出了一個公式:
薪資計算方式:完成2000框=8 +* 元,完成4000框=16 + *元, 完成5000框=20 +*元。
這種被稱為“計件模式”,基礎工資加階梯式獎勵。當處理的數據超過某個數額時,會賺取更多獎勵。市場上也有不少直接明碼標價的,“拉一個框2毛錢”,多勞多得。
在招聘信息上常見的話術是“項目多,結算快,寶媽、學生黨速來!”“賺錢上不封頂”。嘗試發現,剛上手的工作人員拉一個框需要1分鐘,一天8小時工作,算一天拉500個框,一個月工作25天,才能賺到2500元。
高薪下的出路迷茫
AI的發展影響著政策的變化,此時整個數據服務市場也進入了高速發展期。在2020年,由人社部、工信部等單位共同參與制定的《人工智能訓練師國家職業技能標準(2021年版)》(下文簡稱為《標準》)中,AI訓練師作為一門新興職業被納入了標準職業的范圍。
AI訓練師的職業技能劃分為五個等級。值得注意的是,《標準》將數據標注納入AI訓練師初級工(五級)的職業功能之一。數據標注的工作正式成為AI訓練的“子集”。

截圖來自《人工智能訓練師國家職業技能標準(2021年版)》
根據德勤發布的數據,中國人工智能基礎數據服務的市場規模在2027年有望達到130-160億元。
除了占據先發優勢的互聯網巨頭——阿里眾包、百度智能云數據眾包等,還有不少在這個風口冒出來或是獲得了迅猛增長的明星企業。
例如科創企業海天瑞聲。受到AI浪潮的影響,去年該公司股價漲幅超過70%。還有“AI五小龍”之一的老牌AI公司商湯科技,在2023年財報中表示,“生成式AI收入由2022年的人民幣394.7百萬元增長至2023年的人民幣1,183.7百萬元,增幅達到199.9%”。
據天眼查數據顯示,僅“數據標注”領域,目前我國就有2500余家公司。但與快速擴張的市場規模相比,行業人力資源卻面臨嚴重緊缺。
根據2020年人力資源和社會保障部官網發布的《新職業——人工智能工程技術人員就業景氣現狀分析報告》,我國人工智能人才目前缺口超過500萬,國內的供求比例為1:10,供需比例嚴重失衡。
猛然一看,這個行業缺口大,薪資高,是一片藍海,只要進去就能成為“第一批吃螃蟹的人”。事實上卻勸退了觀望的人,因為職業路徑卻不夠清晰。
不少網友分享AI訓練師的職業發展,無外乎兩種方向:
一是繼續考級,成為技術專家或顧問后,考慮團隊管理;
二是開數據標注公司。有過訓練師的經驗,更了解上游的要求和玩法。如果老家是非一線城市,可以直接回家開個數據標注公司。“用三四線城市的低人力成本,賺全國的錢,降維打擊。”
許多網友詼諧地將數據標注員稱為“拉框的”,而AI訓練師則是“調參俠”。這樣的調侃背后,其實也是對職業未來規劃的擔憂,對未來沒有安全感。
被取代的未來
回到學術界,AI訓練師的工作其實是生成式AI發展中的一種范式,叫做RLHF,Reinforcement Learning from Human Feedback,人類反饋強化學習。
就像是小孩子剛開始咿呀學語的時候,大人不斷指著街道上的車輛告訴小孩,這是“汽車”。隨著大人的教學,小孩子才能逐漸將“汽車”和看到的事物聯系起來。
這種范式就是需要AI訓練師不斷地“鼓勵”AI生成的正確答案,“修正”AI的錯誤答案,從而讓AI生成的內容更加準確。
其實,這就是人工智能中「人工」兩個字的來源。但是從去年9月開始,情況發生了改變。
去年九月,谷歌發布了一篇主題為RLAIF的論文, Reinforcement Learning from AI Feedback AI反饋強化學習。谷歌提出,RLAIF用AI來代替RLHF當中的人類,完成生成反饋的工作,讓大模型不再受制于人類的局限。
在對比分析后,谷歌研究員發現,RLHF和RLAIF訓練后的模型生成的答案傾向性幾乎沒有差別。甚至一些細節上,RLAIF還更勝一籌。
技術的發展速度超過了所有人的想象。OpenAI最新公布關于CriticGPT的論文引起了不少轟動。“Critic”是批評家的意思,這個AI模型的主要功能就是在RLHF訓練中挑錯。名副其實的“用魔法打敗魔法”。

截圖來自OpenAI官網
根據OpenAI內部訓練師的分享,在找bug方面,人類訓練師的成功率是25%,而CriticGPT則達到了驚人的75%!這簡直就是妥妥的斷人財路。
雖然, AI模型“抄近道”、幻覺等問題還是困擾著這些AI巨頭,但網友們看到這些技術之后的第一反應是:下一個被干掉的會不會就是AI訓練師?
“prompt之類的調試,肯定會往標準化的方向走。那么一旦標準化,訓練師自然就沒啥價值了。”大廠資深運營牛同學對說道。
“AI教父”吳恩達也曾表示過,真正的AI不應該是用prompt來調動,而是自然語言。這也就意味著,AI和實際使用的用戶之間應該做到直接溝通,而不需要其它“橋梁”。
牛同學對分享道,在身邊有很多朋友準備考人工智能訓練師的證書,想要轉向AI賽道。但他給出的建議是不要“一股腦兒投入”,按照現在的技術發展速度來看,極有可能“還沒就業,就先失業了”。
這便帶來新的迷思,身處AI領域的從業者,其實安全感并沒有保障,特別是重復類的工作,只有能夠適應市場需求的工作才更有發展潛力,因為“AI訓練可以標準化,但需求是一直在變的。”





京公網安備 11011402013531號