進入2025年的夏季后,AI圈也變得愈發躁動。就在不久前,OpenAI宣布將以64億美元全資收購前蘋果首席設計師喬尼?艾維的AI設備初創公司io后,meta方面也開始行動。近日有消息顯示,meta已同意以148億美元收購人工智能數據標注公司Scale AI的49%股份,這將是該公司有史以來最大規模的外部投資。

meta的這一舉措,被美國AI圈解讀為扎克伯格大刀闊斧重組該公司人工智能業務的一部分。據知情人士透露,扎克伯格近期正在組建被稱為“超級智能組”(Superintelligence Group)的AI實驗室,并將其視為meta的最高優先事項,以在日趨激烈的AI技術競賽中保持市場競爭力。
扎克伯格對meta AI“動刀”,或許源自于他們最新的Llama 4遭遇滑鐵盧。作為meta在4月推出的最新模型,Llama 4在推出時曾號稱"2萬億參數"、"指標精度超越GPT-4",結果在第三方基準測試中直接成了吊車尾,與官方公布的測評成績形成強烈反差,在諸如代碼、長文本等場景悉數翻車。

以至于在扎克伯格的視角下,LIama 4成了“王婆賣瓜,自賣自夸”的典型。其實大模型翻車并不奇怪,可為何LIama 4不及預期會引發meta如此劇烈的反應呢?因為不同于OpenAI、xAI、Anthropic、谷歌,meta的AI路線圖截然不同。該公司的策略是押注開源模型,更關注與學界、而非業界的聯系,試圖通過開源贏得AI開發者和研究者的青睞,再通過這些人來將meta AI的影響力滲透到普通用戶中。
不得不說,meta這番另辟蹊徑的做法是有效果的,此前LIama模型就曾長期被業界視為是“救命稻草”,大量的AI研究、AI創業都是基于LIama而來。可是中國開源模型的崛起速度超過了硅谷的想象,深度求索的DeepSeek、阿里的Qwen都讓meta的Llama不再是唯一可用的開源模型,這就意味著他們在AI賽道中開始掉隊。

其實扎克伯格對于meta現有AI部門不滿是有跡可循的,先是旗艦模型LIama 4 Behemoth延期,緊接著meta方面宣布AI部門重組,拆分為“AI產品”與“AGI基礎”兩大團隊。所以meta如今選擇收購Scale AI也并不讓人感到意外,因為后者作為AI行業首屈一指的數據提供商,能彌補meta在數據上的短板。
meta在訓練AI時遇到了數據荒,這并非天方夜譚。作為全球最大的社交平臺,meta旗下的Facebook、Instagram、Threads擁有數以十億計的用戶,后者天然就是數據的貢獻者。可問題在于,對于目前AI大模型預訓練來說,社交平臺產生的數據屬于低質量數據,不可能直接拿來就用。

去年,谷歌的AI搜索功能AI Overviews(AI概覽)曾輸出“用膠水將芝士固定在披薩上”、“推薦攝入石頭獲取營養”等令人匪夷所思的錯誤,其實就是AI概覽采信了Reddit用戶發的帖子。可問題是Reddit用戶的原帖并不是正經的科普,而是為了搞笑、“整活”。
當用戶查詢如何將芝士和披薩餅胚粘在一起時,AI給出“加點膠水”這樣的回答并不是無厘頭,而是因為在AI的視角下,膠水作為粘合劑確實能讓芝士和披薩餅胚粘在一起。同時AI概覽推薦用戶吃石頭補充營養,也是因為石頭里真的有鈣、鎂、鈉、鉀等人體所需的微量元素。

為了防止這類“有毒”的低質量數據進入AI大模型的數據庫,出現“垃圾進,垃圾出”的效果,就需要數據標注。為了有效利用海量的社交數據,所以meta選擇收購Scale AI并非不能理解。
看到這里,或許有的朋友會問,為什么meta不自己干呢?其實這是因為他們不可能把寶貴的人力資源用于數據標注。
數據標注工作是將各種圖片、文本、視頻等數據集打上標簽,使得其成為二進制、計算機可以理解和識別的信息,并將無法使用的數據清洗出去。數據標注的技術門檻其實相當之低,標出圖片中的行人、車輛、建筑,在一段語音中判斷說話人的語氣就是這個工作的主要場景,基本完成了初級教育的人就能輕松勝任。

而數字標注從業者的工作內容,就是對著電腦屏幕,根據開發者給定的規則來為數據打上各式各樣的標注,與流水線上工人干的活沒什么區別,屬于非常典型的“賽博搬磚”。比如Scale AI的核心競爭力,就是在肯尼亞、菲律賓的24萬數據標注員。以至于有AI創業者調侃,Scale AI與AI的關系僅限于公司名稱。
反觀作為硅谷大廠的meta,據《華爾街日報》2024年的相關報道顯示,他們在2023年支付給員工的工資中位數約為29.6萬美元,是硅谷巨頭中最多的。按照每周40小時的標準工時計算,Mete員工的平均時薪是144美元,所以meta用自家員工來做數據標注工作就屬于暴殄天物。
相信有不少人認為meta花費148億美元買下Scale AI,就好像當年用10億美元收購Instagram一樣,都是既加強自身競爭力,又能遏制競爭對手的妙手。然而許多在AI從業者看來,這一次扎克伯格或是病急亂投醫。
如果是在DeepSeek-R1問世前,meta收購Scale AI還稱得上是一樁不錯的交易,meta也確實能借助Scale AI的廉價勞動力來豐富數據供給,從而訓練更大規模的Llama模型。可DeepSeek-R1已經證明了?需監督微調的預訓練步驟、直接通過強化學習(RL) 訓練,也能讓模型展現出卓越的推理能?。

監督式微調則指的是利用標注數據來調整預訓練大語言模型,使得其適應特定下游任務的過程。如果不需要監督式微調,數據標注也就失去了價值。這也是為什么今年年初DeepSeek-R1爆紅時,Scale AI創始人Alexandr Wang會歇斯底里地攻擊DeepSeek。
其實DeepSeek真正直接打擊的還不是英偉達,而是Scale AI。當然,完全放棄監督式微調、純粹依靠RL也過于極端,業界當下的主流是RL為主、監督式微調為輔,盡量尋找博士水平(PhD-Level)的專家標注出高質量數據。換而言之,除非DeepSeek的路線被證明不能抵達人工智能領域的“圣杯”AGI,否則meta這次花大價錢其實是買了一個注定會沒落的AI獨角獸。

當然,對于擁有720億美元現金和短期等價物的meta而言,花148億美元買一個能馬上緩解AI掉隊危機的Scale AI,也不是什么不可接受的事情。





京公網安備 11011402013531號