江曉原：“數(shù)據(jù)挖掘”：天使還是魔鬼？

IP屬地中國·北京 文匯報 時間：2025-12-13 08:13:15

比特幣收益與制造業(yè)和金屬采礦業(yè)的股票收益呈負相關……
特朗普在推特文章中使用“with”這個單詞四天后，中國茶葉分銷商Urban Tea的股價會下跌……
特朗普在推特文章中使用“president”這個單詞與兩天后股價的標準普爾500指數(shù)之間存在0.43的相關性……
看到這些新發(fā)現(xiàn)的“規(guī)律”或“模式”，你震不震撼？驚不驚喜？如你所料，這樣的發(fā)現(xiàn)離不開“大數(shù)據(jù)”和“AI算法”，特別是近年一個非常時髦的方法“數(shù)據(jù)挖掘”。

《不被信任的科學——大數(shù)據(jù)、人工智能與信息欺騙》，[美]加里·史密斯著，孫強譯，上海科技教育出版社2025年出版
一個經(jīng)濟學家眼中的“數(shù)據(jù)挖掘”
“數(shù)據(jù)挖掘”又被稱為“機器學習”或“知識發(fā)現(xiàn)”——這些名詞在中文語境中都是“好詞”，充滿了高科技和創(chuàng)新意味，肯定不具有任何批判色彩。所謂“數(shù)據(jù)挖掘”，用大白話來說，就是在海量的“大數(shù)據(jù)”中，借助各種“AI算法”，嘗試“發(fā)現(xiàn)”或獲取各種各樣的數(shù)據(jù)關系。
加里·史密斯（Gary Smith）是美國經(jīng)濟學家、統(tǒng)計學家，耶魯大學經(jīng)濟學博士，在波莫納學院當經(jīng)濟學教授。面對如今的“大數(shù)據(jù)”和“AI算法”浪潮，史密斯看來是一個明顯的保守派。2023年他出版了《不被信任的科學——大數(shù)據(jù)、人工智能與信息欺騙》一書，基本論點是：“虛假信息”“數(shù)據(jù)歪曲”“數(shù)據(jù)挖掘”這三件事情，正在極大地損害科學的信譽，使得科學不再被公眾所信任。其中尤以“數(shù)據(jù)挖掘”讓他深惡痛絕，在書中花了很大的篇幅進行抨擊（主要集中在第三部分，即第8—10章）。
史密斯在書中所舉的各種“數(shù)據(jù)挖掘”的例子，看上去當然是非常荒謬的。他將這些“數(shù)據(jù)挖掘”的發(fā)現(xiàn)稱為“愚人金”（一種有著黃金色澤的銅），認為這些數(shù)據(jù)關系不僅很可能是毫無意義的，甚至還會具有欺騙性。但問題在于，“荒謬”和“不荒謬”的界限在哪里呢？或者說，在被“挖掘”出來的各種關系中，如何判斷一種數(shù)據(jù)關系是“荒謬”的，而另一種是“不荒謬”的呢？
史密斯在對“數(shù)據(jù)挖掘”的定義中，似乎也接觸到了這個問題：“在不受理論影響的數(shù)據(jù)中尋找潛在的模式，這被稱為數(shù)據(jù)挖掘，即研究人員在數(shù)據(jù)中深入挖掘，并且無法預知他們會發(fā)現(xiàn)什么。”他又表示：“傳統(tǒng)的數(shù)據(jù)庫查詢需要一定程度的假設，但挖掘大數(shù)據(jù)會揭示出我們甚至不知道要去尋找的關系和模式。”他還引用《連線》雜志上題為“大數(shù)據(jù)與理論家的消亡”的文章說：“算法尋找模式，而假設從數(shù)據(jù)中得出。分析師甚至不必再費心提出假設。”
總而言之，史密斯的意思歸納起來就是：傳統(tǒng)的數(shù)據(jù)處理有理論指導和預期，而“數(shù)據(jù)挖掘”則是信馬由韁，亂挖一氣，希望能挖出點意想不到的東西來（比如本文開頭所舉的那些例子就很典型）。而史密斯在書中毫不猶豫地斷言：“由數(shù)據(jù)挖掘所發(fā)現(xiàn)的大多數(shù)模式都是胡說八道。”
從傳統(tǒng)的數(shù)據(jù)處理到“數(shù)據(jù)挖掘”
史密斯是一個經(jīng)濟學家，我猜想他可能并未接受過理工科的學術訓練。其實“數(shù)據(jù)挖掘”到底是天使還是魔鬼，也未必像史密斯所想象的那樣，因為它和傳統(tǒng)的數(shù)據(jù)處理之間并無不可逾越的鴻溝，很多情況下它就是正常的科學研究手段。
我本科學天體物理專業(yè)出身，曾在中國科學院上海天文臺工作過15年。天文學界有一種工具稱為“星歷表”，就是用現(xiàn)代天體力學方法，計算出太陽系中各大行星、矮行星等天體每隔一段時間（這個間隔稱為“步長”）的天球坐標（黃經(jīng)和黃緯）。用今天的眼光來看，我們完全可以將星歷表看成一種“大數(shù)據(jù)”，我們可以使用適當?shù)挠嬎銠C語言（就是“AI算法”），在其中“挖掘”出各種各樣的結果。例如，我們可以求出牧野之戰(zhàn)那天（公元前1044年1月9日）清晨時木星在天球上的位置，也可以找出其他各種各樣的數(shù)據(jù)關系——如果我們覺得這種關系有意義的話。
換句話說，從正常合理的數(shù)據(jù)分析處理，到史密斯所抨擊的“數(shù)據(jù)挖掘”，中間有著類似“連續(xù)譜”的過度區(qū)域。數(shù)據(jù)處理技術在互聯(lián)網(wǎng)和人工智能出現(xiàn)之前很早就存在了。史密斯所深惡痛絕的，其實應該是當下對“數(shù)據(jù)挖掘”的濫用。
至于“數(shù)據(jù)挖掘”為何會在當下被濫用，那確實與大數(shù)據(jù)和AI有關。我進天文臺工作是20世紀80年代，那時的星歷表還是一種非常厚的紙質(zhì)大書，里面用極小的字密密麻麻印著數(shù)據(jù)，如果要在里面“挖掘”，只能用肉眼耐心搜尋數(shù)據(jù)，找出數(shù)據(jù)后還要用內(nèi)插法處理過，才能夠使用，在這種情況下，濫用是不可能發(fā)生的。而進入1990年代，我們開始使用NASA噴氣推進實驗室的星歷表數(shù)字光盤，這時采用“AI算法”從星歷表中“挖掘”數(shù)據(jù)已經(jīng)成為可能，不過我們當然從未起過“濫用”的念頭。
這是一幅荒誕的圖景嗎？
僅看《不被信任的科學》這樣的書名，很容易讓人誤以為是“科學知識社會學”（SSK）方面的著作，其實卻并非如此。史密斯雖然沒有從科學哲學的角度去討論問題（也許他不具備這方面的背景），但他對“大數(shù)據(jù)”和“AI算法”各種弊端的強烈批判，至少在客觀效果上還是很有啟發(fā)意義的。
比如書中第一部分討論“虛假信息”，這就是我們通常意義上的所指：給出一些富有“科學”色彩的概念和說法，目的是對公眾進行欺騙。作者舉的例子是當下炙手可熱的區(qū)塊鏈和比特幣。史密斯認為許多人根本不知道區(qū)塊鏈是什么，只覺得它非常“科學”，非常高大上，那和它綁在一起的比特幣必定前程遠大。而他認為“比特幣的內(nèi)在價值為零”，他將比特幣和金融史上的郁金香炒作和南海股票騙局視為同類——注意這是本書作者的看法，他被視為經(jīng)濟學家。不過我們當然不在這里討論比特幣的成敗，如果比特幣真的前程遠大，那就是史密斯舉例不當，但并不影響他對“虛假信息”的批判。
書中第二部分揭露“數(shù)據(jù)歪曲”，這也是中國讀者所熟悉的，指對數(shù)據(jù)進行錯誤解讀，看起來很“科學”，而且“用數(shù)據(jù)說話”，顯得更加“有理有據(jù)”，因而更具欺騙性。史密斯舉的例子還是比特幣——看來他是真的和比特幣有仇了。當然他對“數(shù)據(jù)歪曲”的批判，從學理上說仍然成立。
在本書的最后兩個部分，史密斯發(fā)起了對人工智能和當代某些社會學研究的密集批判。他對人工智能業(yè)界迄今為止所宣稱的各種進展，普遍評價很低。他還舉出了各種他認為是荒誕離奇的“學術研究”例證，比如女性向男性求助時是披著頭發(fā)還是扎著馬尾更容易成功之類（其實這個例子未必荒誕）。
史密斯用一種相對來說比較樸素的思路，指出了一個有點魔幻的現(xiàn)象——科學技術的最新成果（互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等等），正在損害科學技術之前積累起來的聲譽，使得公眾失去對科學的信任：“科學家創(chuàng)造了大數(shù)據(jù)和分析大數(shù)據(jù)的工具，但兩者都為科學家制造了更多讓他們尷尬和損害他們信譽的機會。”

免責聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

宇樹機器人給王力宏伴舞，表演高難度空翻！馬斯克點贊

都市便民｜網(wǎng)速拖后腿？杭州聯(lián)通免費上門“問診”，三網(wǎng)用戶均可約！

40+臺iPhone 17 Pro Max全程4K記錄，圍觀紅牛車手水上飛車

新城市志｜量子科技賦能，復興島撬動城市大未來

OpenAI估值沖擊8300億美元！奧特曼背水一戰(zhàn)：我們無路可退

宇樹登臺王力宏演唱會獲馬斯克點贊，王興興：“機器人時刻還差一個臨界點”

全站最新

宇樹機器人給王力宏伴舞，表演高難度空翻！馬斯克點贊

都市便民｜網(wǎng)速拖后腿？杭州聯(lián)通免費上門“問診”，三網(wǎng)用戶均可約！

40+臺iPhone 17 Pro Max全程4K記錄，圍觀紅牛車手水上飛車

新城市志｜量子科技賦能，復興島撬動城市大未來

熱門推薦

對話小馬智行王皓俊：Robotaxi正進入1到1000的階段

宇樹機器人給王力宏伴舞，表演高難度空翻！馬斯克點贊

都市便民｜網(wǎng)速拖后腿？杭州聯(lián)通免費上門“問診”，三網(wǎng)用戶均可約！

40+臺iPhone 17 Pro Max全程4K記錄，圍觀紅牛車手水上飛車

新城市志｜量子科技賦能，復興島撬動城市大未來

OpenAI估值沖擊8300億美元！奧特曼背水一戰(zhàn)：我們無路可退

宇樹登臺王力宏演唱會獲馬斯克點贊，王興興：“機器人時刻還差一個臨界點”

79倍效率提升！GPT-5自主攻克分子克隆，AI物理元年正式開啟

哈啰電動車多型號“斷服”讓消費者買單，律師：企業(yè)應負責

上海電信回應羅永浩網(wǎng)速慢投訴

羅永浩被大金空調(diào)售后整破防：清洗需要1.5萬，摳個濾網(wǎng)收283元

字節(jié)跳動全年利潤500億美元？知情人士回應

羅永浩錘子軟件在上海成立分公司

一加Turbo系列電池突破9000mAh 李杰：強得可怕

全球大模型第一股要來了智譜發(fā)布IPO招股書：代碼能力并列全球第一