![]()
![]()
《AI萬金油:商業(yè)幻想與科技狂潮》,[美]阿爾文德·納拉亞南、[美]薩亞什·卡普爾 著,王勇、王安心 譯,中信出版集團出版
如果你對AI感到困惑,擔(dān)憂它對全球和個人未來的影響,《AI萬金油:商業(yè)幻想與科技狂潮》值得一看。這本書提供了清晰視角,深入剖析AI的運作原理及局限性,幫助你辨識AI何時能帶來真正的價值,何時可能引發(fā)隱患,提醒你警惕企業(yè)炒作,推銷那些既不實用,未來也無前景的AI產(chǎn)品。
這本書在肯定部分AI技術(shù)潛力的同時,深入探討了AI在教育、醫(yī)療、招聘、銀行、保險和刑事司法等領(lǐng)域的實際應(yīng)用所帶來的問題與危害。作者將現(xiàn)階段的AI分為三類,即生成式AI、預(yù)測式AI和內(nèi)容審核AI,詳細解析了不同類型AI的核心區(qū)別、潛力與缺陷。
>>內(nèi)文選讀
預(yù)測未來是許多科學(xué)領(lǐng)域的核心,但在社會科學(xué)中卻并非如此。社會科學(xué)中,主流方法是致力于改善我們對現(xiàn)象原因的理解,而不是專注于預(yù)測。舉例來說,社會學(xué)家的目標通常并不是預(yù)測某個人未來的收入,以實施有針對性的干預(yù)。他們的目標是研究貧困的成因,從而制定更有效的措施來緩解貧困。
隨著可用數(shù)據(jù)量的增加,機器學(xué)習(xí)在社會科學(xué)中的預(yù)測應(yīng)用開始逐步發(fā)展。讓我們來看一個名為“脆弱家庭挑戰(zhàn)”的嘗試,這是一個利用AI和大規(guī)模數(shù)據(jù)來預(yù)測兒童成長情況的著名研究項目。
在2015年,我們在普林斯頓大學(xué)的同事馬修·薩爾加尼克希望研究AI預(yù)測未來的能力。當時,普林斯頓大學(xué)的社會學(xué)教授薩拉·麥克拉納漢正在進行一項長期研究,追蹤了2000年前后出生于美國20多個城市的4000多名兒童的生活。在過去的15年中,薩拉及其團隊分別在孩子出生時,以及在孩子1歲、3歲、5歲和9歲時,對這些孩子及其家庭進行調(diào)查。通過這些調(diào)查,研究團隊從父母、老師以及家庭活動中收集了超過一萬個數(shù)據(jù)點。事實上,很難找到一個未被納入這項研究的社會學(xué)變量。
在2015年,薩拉及其團隊計劃發(fā)布最新一輪調(diào)查數(shù)據(jù),這些數(shù)據(jù)是在孩子們年滿15歲時收集的。馬修希望利用“脆弱家庭挑戰(zhàn)”項目的調(diào)查數(shù)據(jù)來測試AI的預(yù)測能力。他來到薩拉的辦公室討論細節(jié),這場對話成為兩個人合作的起點。
他們向全球的參賽者發(fā)布了部分數(shù)據(jù),即從孩子出生到九歲期間收集的所有數(shù)據(jù)。參賽者被要求利用這些數(shù)據(jù)創(chuàng)建AI模型,預(yù)測孩子在15歲時的表現(xiàn),包括六項具體結(jié)果,如GPA、是否被驅(qū)逐出住所,以及家庭是否面臨物質(zhì)困境。參賽者的排名基于他們的預(yù)測結(jié)果與真實數(shù)據(jù)的接近程度。
由于比賽對公眾開放,吸引了數(shù)百名研究人員參與,不同團隊得以嘗試多樣化的方法。有些團隊使用復(fù)雜的AI模型,而另一些團隊則采用傳統(tǒng)的社會學(xué)統(tǒng)計模型。不論方法如何,所有參賽者都在同樣的條件下競爭,唯一的評判標準是模型對兒童未來結(jié)果的預(yù)測準確性。這場比賽的目標并非挑選“最佳模型”,而是通過集體努力,互相學(xué)習(xí)。實際上,組織者將這一形式稱為“集體協(xié)作”。
最終,共有160個團隊提交了他們的預(yù)測結(jié)果。在這些模型中,一個簡單的基準模型被用作與復(fù)雜AI模型的對照。這個基準模型僅依賴基本的統(tǒng)計技術(shù),包含4個特征,其中3個與孩子的母親相關(guān),一個與孩子九歲時的數(shù)據(jù)相關(guān)。例如,為了預(yù)測孩子15歲的GPA,該模型使用了母親的種族、婚姻狀況、教育水平,以及孩子9歲時的學(xué)業(yè)表現(xiàn)。
令馬修感到驚訝,甚至有些失望的是,沒有任何模型表現(xiàn)得特別出色。即使是表現(xiàn)最好的模型,其預(yù)測能力也僅比隨機猜測略強。而那些復(fù)雜的AI模型與僅包含4個特征的基準模型相比,并未表現(xiàn)出顯著改進。
![]()
圖源:視覺中國
換句話說,盡管擁有數(shù)萬個關(guān)于數(shù)千個家庭的數(shù)據(jù)、160名競賽研究人員以及最先進的AI模型,但在預(yù)測未來方面的表現(xiàn)并未優(yōu)于基于社會學(xué)理論并在幾十年前提出的回歸模型。數(shù)據(jù)表明了過去的GPA、種族和社會階層確實在預(yù)測未來的GPA方面具有一定的作用。然而,這些趨勢早已被社會學(xué)家所理解,因此這并不是什么新發(fā)現(xiàn)。
為何“脆弱家庭挑戰(zhàn)”項目以失敗告終
在學(xué)術(shù)演講中展示“脆弱家庭挑戰(zhàn)”項目的結(jié)果時,計算機科學(xué)家和數(shù)據(jù)科學(xué)家是看到令人失望的結(jié)果時提問最多并提出改進建議最多的。一個最常見的問題是,來自4000個家庭的樣本是否足夠?這些觀眾通常會提到另一場推動深度學(xué)習(xí)革命的比賽,即2012年的ImageNet挑戰(zhàn)。該比賽要求參賽者用AI技術(shù)識別圖片內(nèi)容,數(shù)據(jù)規(guī)模達到120萬張標記圖片。
提高社會預(yù)測精度的一種可能方法正是計算機科學(xué)家在這種情況下提出的暴力干預(yù)策略,即擴大樣本規(guī)模,獲取更多數(shù)據(jù)。這一假設(shè)基于這樣的理念:通過增加數(shù)據(jù)量和提高計算能力,可以顯著提升預(yù)測的準確性,從而實現(xiàn)社會預(yù)測領(lǐng)域的突破。
正因如此,我們不能簡單地將“脆弱家庭挑戰(zhàn)”項目的結(jié)果視為社會預(yù)測能力的根本限制。事實上,我們尚未確定這一假設(shè)是否成立。在理論已經(jīng)成熟的科學(xué)領(lǐng)域,如天文學(xué)中的行星軌道預(yù)測,可預(yù)測性非常高,我們可以精準地預(yù)測行星在未來幾年中的位置。而在另一些情況下,也存在明確的可預(yù)測性限制。例如,熱力學(xué)定律讓我們能夠估算氧氣或氮氣等氣體的整體行為,卻無法預(yù)測單個氣體分子的運動軌跡。
然而,到目前為止,我們還沒有關(guān)于社會問題可預(yù)測性的系統(tǒng)理論。我們既無法很好地預(yù)測未來,也不清楚預(yù)測能力的基本限制究竟在哪里。
科幻作品中常常探索人生結(jié)果的可預(yù)測性。科幻電影《少數(shù)派報告》提出了這樣一個設(shè)定,即通過預(yù)測未來可能發(fā)生的犯罪,可以提前逮捕潛在的罪犯。這些作品的核心矛盾通常集中在宿命論與自由意志的對立上,但它們往往忽略了一個關(guān)鍵且無法消除的誤差來源,那就是偶然事件。
AI在某些任務(wù)中表現(xiàn)良好的一個顯著原因是,任務(wù)本身的不可消除誤差較小。例如,在分類圖像內(nèi)容時,一旦我們擁有一張圖像(如一只貓的圖像),判斷圖中內(nèi)容是相對容易的。在這種情況下,不可消除的誤差很小;人類和現(xiàn)代AI大多數(shù)情況下都能正確分類圖像,偶然性在確定正確答案中幾乎不起作用。
那么,社會預(yù)測中的不可消除誤差究竟有多高?目前,我們對社會科學(xué)的理解和對可預(yù)測性的理論尚未成熟,我們也不能給出明確的答案。然而,我們有理由相信這種誤差較高,部分原因是偶然事件的影響。人們可能會經(jīng)歷完全無法預(yù)測的突發(fā)事件,這些事件對他們的人生軌跡會產(chǎn)生重大影響。沒有任何模型能夠準確預(yù)測某人是否會中彩票,或者是否會遭遇車禍等事件。
![]()
圖源:視覺中國
那么,這些不可預(yù)測事件的發(fā)生頻率有多高呢?或許蝴蝶扇動翅膀確實能夠引發(fā)龍卷風(fēng),但這種情況如果每千年才發(fā)生一次,那可能不值得我們過于擔(dān)心。比起大規(guī)模的突發(fā)事件,更常見的是一些小的初始優(yōu)勢或劣勢,隨著時間的推移逐漸累積,產(chǎn)生深遠影響。例如,年度績效評估中的一個小偏見(如因為你的上司與你意見相左)可能會對你的職業(yè)生涯造成重大影響,讓你比他人晉升得更慢。這些微小的差異往往難以量化,從而增加了預(yù)測中不可消除的誤差。
現(xiàn)在讓我們回到預(yù)測未來結(jié)果所需數(shù)據(jù)量的問題。我們知道,樣本中的噪聲越大,構(gòu)建準確模型所需的樣本規(guī)模就會急劇增加。而社會數(shù)據(jù)集通常充滿噪聲。此外,社會現(xiàn)象的模式并非固定不變。與貓的圖像不同,社會現(xiàn)象會因背景、時間和地點的不同而發(fā)生顯著變化。在一個地方或時間點定義成功的因素,可能對預(yù)測另一個地方或時間的成功完全無效。
這意味著,AI要想準確預(yù)測未來,可能需要大量來自不同社會背景的數(shù)據(jù),而僅僅依賴過去的數(shù)據(jù)是不夠的,就像僅用上一次選舉的民調(diào)數(shù)據(jù)并不足以準確預(yù)測下一次美國總統(tǒng)選舉的結(jié)果一樣。
這引出了一個有趣的可能性,也許收集足夠的數(shù)據(jù)來準確預(yù)測人們的社會結(jié)果不僅不現(xiàn)實,甚至是不可能的。馬修·薩爾加尼克將其稱為“80億問題”,如果我們無法做出準確預(yù)測,是不是因為地球上根本沒有足夠的人口來讓我們學(xué)習(xí)并識別出所有可能存在的模式?
此外,樣本的數(shù)量和樣本所包含的信息同樣重要。在“脆弱家庭挑戰(zhàn)”項目中,每個孩子的數(shù)據(jù)記錄了大約一萬個與社會學(xué)相關(guān)的特征。但即便如此,這些特征仍可能不足以捕捉所有影響結(jié)果的因素,接下來我們將闡述原因。
預(yù)測比賽結(jié)束后,馬修和他的同事們試圖找出這些模型表現(xiàn)不佳的原因。為此,他們決定拜訪那些預(yù)測誤差最大的家庭,探索導(dǎo)致這些偏差的具體原因。在一次采訪中,他們發(fā)現(xiàn)一個原本成績較差的孩子突然在學(xué)校里表現(xiàn)出色。原因是鄰居給予了關(guān)鍵支持,不僅開導(dǎo)孩子、輔導(dǎo)作業(yè),還常給孩子吃藍莓。但在“脆弱家庭挑戰(zhàn)”項目的數(shù)據(jù)中,沒有問及孩子是否從家庭外獲得食物(或更重要的,是否有人幫助輔導(dǎo)作業(yè))。這是不是一個缺失的關(guān)鍵特征?如果數(shù)據(jù)中包括這些信息,是否能更準確地進行預(yù)測,如孩子生活中是否有一個成年人支持?當下的數(shù)據(jù)集中又缺少了多少類似的重要特征呢?
構(gòu)建更全面的數(shù)據(jù)集的一種方式是依靠政府收集的數(shù)據(jù)。例如,荷蘭已經(jīng)編制了關(guān)于個人家庭、鄰居、同學(xué)、家庭成員和同事的詳細數(shù)據(jù)。這一數(shù)據(jù)集規(guī)模龐大,覆蓋全國總計1720萬人。平均而言,每個人與82個人相聯(lián)系,總共記錄了14億個網(wǎng)絡(luò)關(guān)系。這些數(shù)據(jù)顯然比“脆弱家庭挑戰(zhàn)”項目數(shù)據(jù)集更大、更完整,有可能成為預(yù)測社會結(jié)果的實際替代方案。如果這些數(shù)據(jù)確實能夠有效預(yù)測未來感興趣的結(jié)果,那么相關(guān)成果很快就會顯現(xiàn)。目前,包括一場預(yù)測競賽在內(nèi)的多個研究項目正在測試這一假設(shè)。
另一種潛在的數(shù)據(jù)來源是科技公司。如今,人們在谷歌和meta等公司運營的平臺上花費了大量時間。這些公司收集的數(shù)據(jù)是否能夠提供其他途徑無法獲得的獨特洞見呢?
正如許多流行文化對技術(shù)與社會關(guān)系的探討所展現(xiàn)的,我們可以對此進行推測。然而,從根本上說,預(yù)測人們生活結(jié)果的嘗試對科技公司來說,可能面臨聲譽和法律方面的高風(fēng)險,因此并不值得去做。此外,這些公司的商業(yè)目標并不是預(yù)測人們的長期未來,而是理解他們今天會參與哪些內(nèi)容。因此,關(guān)于在線數(shù)據(jù)對長期預(yù)測能力的價值,短期內(nèi)可能不會得到明確答案。
![]()
圖源:視覺中國
一種更宏大(同時也更具反烏托邦色彩)的設(shè)想是收集每個人的廣泛信息,建立一個關(guān)于人類的超級數(shù)據(jù)庫。在這樣的世界中,每個人都會被全天候監(jiān)視,每一個行為都被追蹤記錄。盡管美國國家安全局和大型科技公司已經(jīng)掌握了大量關(guān)于人們的數(shù)據(jù),但這里討論的是更激進的數(shù)據(jù)收集,即追蹤每一句話、每一個動作、每一種行為,甚至可能包括每一個大腦中的電信號。這樣的世界是否會帶來更好的預(yù)測能力?如果是,這么做又是基于什么目的呢?而這種全面追蹤對隱私權(quán)的代價又會有多高?





京公網(wǎng)安備 11011402013531號