![]()
比特幣收益與制造業(yè)和金屬采礦業(yè)的股票收益呈負相關……
特朗普在推特文章中使用“with”這個單詞四天后,中國茶葉分銷商Urban Tea的股價會下跌……
特朗普在推特文章中使用“president”這個單詞與兩天后股價的標準普爾500指數(shù)之間存在0.43的相關性……
看到這些新發(fā)現(xiàn)的“規(guī)律”或“模式”,你震不震撼?驚不驚喜?如你所料,這樣的發(fā)現(xiàn)離不開“大數(shù)據(jù)”和“AI算法”,特別是近年一個非常時髦的方法“數(shù)據(jù)挖掘”。
![]()
《不被信任的科學——大數(shù)據(jù)、人工智能與信息欺騙》,[美]加里·史密斯 著,孫 強 譯,上海科技教育出版社2025年出版
一個經(jīng)濟學家眼中的“數(shù)據(jù)挖掘”
“數(shù)據(jù)挖掘”又被稱為“機器學習”或“知識發(fā)現(xiàn)”——這些名詞在中文語境中都是“好詞”,充滿了高科技和創(chuàng)新意味,肯定不具有任何批判色彩。所謂“數(shù)據(jù)挖掘”,用大白話來說,就是在海量的“大數(shù)據(jù)”中,借助各種“AI算法”,嘗試“發(fā)現(xiàn)”或獲取各種各樣的數(shù)據(jù)關系。
加里·史密斯(Gary Smith)是美國經(jīng)濟學家、統(tǒng)計學家,耶魯大學經(jīng)濟學博士,在波莫納學院當經(jīng)濟學教授。面對如今的“大數(shù)據(jù)”和“AI算法”浪潮,史密斯看來是一個明顯的保守派。2023年他出版了《不被信任的科學——大數(shù)據(jù)、人工智能與信息欺騙》一書,基本論點是:“虛假信息”“數(shù)據(jù)歪曲”“數(shù)據(jù)挖掘”這三件事情,正在極大地損害科學的信譽,使得科學不再被公眾所信任。其中尤以“數(shù)據(jù)挖掘”讓他深惡痛絕,在書中花了很大的篇幅進行抨擊(主要集中在第三部分,即第8—10章)。
史密斯在書中所舉的各種“數(shù)據(jù)挖掘”的例子,看上去當然是非常荒謬的。他將這些“數(shù)據(jù)挖掘”的發(fā)現(xiàn)稱為“愚人金”(一種有著黃金色澤的銅),認為這些數(shù)據(jù)關系不僅很可能是毫無意義的,甚至還會具有欺騙性。但問題在于,“荒謬”和“不荒謬”的界限在哪里呢?或者說,在被“挖掘”出來的各種關系中,如何判斷一種數(shù)據(jù)關系是“荒謬”的,而另一種是“不荒謬”的呢?
史密斯在對“數(shù)據(jù)挖掘”的定義中,似乎也接觸到了這個問題:“在不受理論影響的數(shù)據(jù)中尋找潛在的模式,這被稱為數(shù)據(jù)挖掘,即研究人員在數(shù)據(jù)中深入挖掘,并且無法預知他們會發(fā)現(xiàn)什么。”他又表示:“傳統(tǒng)的數(shù)據(jù)庫查詢需要一定程度的假設,但挖掘大數(shù)據(jù)會揭示出我們甚至不知道要去尋找的關系和模式。”他還引用《連線》雜志上題為“大數(shù)據(jù)與理論家的消亡”的文章說:“算法尋找模式,而假設從數(shù)據(jù)中得出。分析師甚至不必再費心提出假設。”
總而言之,史密斯的意思歸納起來就是:傳統(tǒng)的數(shù)據(jù)處理有理論指導和預期,而“數(shù)據(jù)挖掘”則是信馬由韁,亂挖一氣,希望能挖出點意想不到的東西來(比如本文開頭所舉的那些例子就很典型)。而史密斯在書中毫不猶豫地斷言:“由數(shù)據(jù)挖掘所發(fā)現(xiàn)的大多數(shù)模式都是胡說八道。”
從傳統(tǒng)的數(shù)據(jù)處理到“數(shù)據(jù)挖掘”
史密斯是一個經(jīng)濟學家,我猜想他可能并未接受過理工科的學術訓練。其實“數(shù)據(jù)挖掘”到底是天使還是魔鬼,也未必像史密斯所想象的那樣,因為它和傳統(tǒng)的數(shù)據(jù)處理之間并無不可逾越的鴻溝,很多情況下它就是正常的科學研究手段。
我本科學天體物理專業(yè)出身,曾在中國科學院上海天文臺工作過15年。天文學界有一種工具稱為“星歷表”,就是用現(xiàn)代天體力學方法,計算出太陽系中各大行星、矮行星等天體每隔一段時間(這個間隔稱為“步長”)的天球坐標(黃經(jīng)和黃緯)。用今天的眼光來看,我們完全可以將星歷表看成一種“大數(shù)據(jù)”,我們可以使用適當?shù)挠嬎銠C語言(就是“AI算法”),在其中“挖掘”出各種各樣的結果。例如,我們可以求出牧野之戰(zhàn)那天(公元前1044年1月9日)清晨時木星在天球上的位置,也可以找出其他各種各樣的數(shù)據(jù)關系——如果我們覺得這種關系有意義的話。
換句話說,從正常合理的數(shù)據(jù)分析處理,到史密斯所抨擊的“數(shù)據(jù)挖掘”,中間有著類似“連續(xù)譜”的過度區(qū)域。數(shù)據(jù)處理技術在互聯(lián)網(wǎng)和人工智能出現(xiàn)之前很早就存在了。史密斯所深惡痛絕的,其實應該是當下對“數(shù)據(jù)挖掘”的濫用。
至于“數(shù)據(jù)挖掘”為何會在當下被濫用,那確實與大數(shù)據(jù)和AI有關。我進天文臺工作是20世紀80年代,那時的星歷表還是一種非常厚的紙質(zhì)大書,里面用極小的字密密麻麻印著數(shù)據(jù),如果要在里面“挖掘”,只能用肉眼耐心搜尋數(shù)據(jù),找出數(shù)據(jù)后還要用內(nèi)插法處理過,才能夠使用,在這種情況下,濫用是不可能發(fā)生的。而進入1990年代,我們開始使用NASA噴氣推進實驗室的星歷表數(shù)字光盤,這時采用“AI算法”從星歷表中“挖掘”數(shù)據(jù)已經(jīng)成為可能,不過我們當然從未起過“濫用”的念頭。
這是一幅荒誕的圖景嗎?
僅看《不被信任的科學》這樣的書名,很容易讓人誤以為是“科學知識社會學”(SSK)方面的著作,其實卻并非如此。史密斯雖然沒有從科學哲學的角度去討論問題(也許他不具備這方面的背景),但他對“大數(shù)據(jù)”和“AI算法”各種弊端的強烈批判,至少在客觀效果上還是很有啟發(fā)意義的。
比如書中第一部分討論“虛假信息”,這就是我們通常意義上的所指:給出一些富有“科學”色彩的概念和說法,目的是對公眾進行欺騙。作者舉的例子是當下炙手可熱的區(qū)塊鏈和比特幣。史密斯認為許多人根本不知道區(qū)塊鏈是什么,只覺得它非常“科學”,非常高大上,那和它綁在一起的比特幣必定前程遠大。而他認為“比特幣的內(nèi)在價值為零”,他將比特幣和金融史上的郁金香炒作和南海股票騙局視為同類——注意這是本書作者的看法,他被視為經(jīng)濟學家。不過我們當然不在這里討論比特幣的成敗,如果比特幣真的前程遠大,那就是史密斯舉例不當,但并不影響他對“虛假信息”的批判。
書中第二部分揭露“數(shù)據(jù)歪曲”,這也是中國讀者所熟悉的,指對數(shù)據(jù)進行錯誤解讀,看起來很“科學”,而且“用數(shù)據(jù)說話”,顯得更加“有理有據(jù)”,因而更具欺騙性。史密斯舉的例子還是比特幣——看來他是真的和比特幣有仇了。當然他對“數(shù)據(jù)歪曲”的批判,從學理上說仍然成立。
在本書的最后兩個部分,史密斯發(fā)起了對人工智能和當代某些社會學研究的密集批判。他對人工智能業(yè)界迄今為止所宣稱的各種進展,普遍評價很低。他還舉出了各種他認為是荒誕離奇的“學術研究”例證,比如女性向男性求助時是披著頭發(fā)還是扎著馬尾更容易成功之類(其實這個例子未必荒誕)。
史密斯用一種相對來說比較樸素的思路,指出了一個有點魔幻的現(xiàn)象——科學技術的最新成果(互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等等),正在損害科學技術之前積累起來的聲譽,使得公眾失去對科學的信任:“科學家創(chuàng)造了大數(shù)據(jù)和分析大數(shù)據(jù)的工具,但兩者都為科學家制造了更多讓他們尷尬和損害他們信譽的機會。”





京公網(wǎng)安備 11011402013531號