
DeepSeek如同梁文峰投入到AI圈的一顆深水炸彈,它掀起的巨浪依然在洶涌之中。受DeepSeek挑戰,2月13日百度宣布,文心一言將于4月1日零時起,全面免費,所有PC端和App端用戶均可體驗文心系列最新模型。同時,即日起,文心一言上線深度搜索功能,該功能也將于4月1日起免費開放使用。當前,用戶可在文心一言官網上體驗深度搜索功能,APP端也即將同步上線。

(圖源:百度微信公眾號)
此前,作為國內最早布局AI大模型的企業,百度旗下的文小言(即原文心一言App)還接入了DeepSeek-R1大模型。
在iOS平臺,文小言App已更新至4.9.0版本,更新日志顯示,該版本上線伴學模式、手抄報和作文等學習類功能,且接入DeepSeek-R1模型,優化拍照解題功能。

(圖源:App Store截圖)
文心一言免費、接入DeepSeek……百度的舉措讓不少網友吐槽,其AI技術“已經掉隊了,居然要為自己的AI工具接入其他企業的大模型。”
在AI領域,百度的地位堪稱黃埔軍校,培養了大量技術人才。文心一言也曾是國內AI大模型領域的領頭羊,文心3.5便對標GPT-3.5,如今文心4.0、文心4.0工具版、文心4.0 Turbo三款大模型更是在豆包、Kimi、通義千問等眾多AI大模型免費提供服務的大環境下,堅決采取收費服務模式,優惠期間連續包月費用高達43.9元/月(原價59.9元/月),可見百度的自信。
若討論百度在AI領域是否真的掉隊,最簡單直接的方法就是將文心一言與其他AI大模型進行對比。因此,小雷決定將文心一言最強的文心4.0 Turbo和最近大火的DeepSeek-R1進行對比,觀察文心4.0 Turbo的實力,部分問題還會用其他AI大模型進行測試,并在文中作為參考。
文心一言、DeepSeek大決戰:不分仲伯
本次對比測試,小雷不再用AI大模型生成文字或總結內容,而是以測試推理能力為出發點,項目共分為誤導題、邏輯推理題、數學推理題三個部分。
1、誤導題:DeepSeek-R1略勝一籌。
AI大模型爆火之后,用戶們就發現其普遍存在一個問題,即沒有答案的問題AI也會編造一個答案。AI大模型已多次迭代的今天,小雷十分在意,AI還會編造答案嗎?
第一題,小雷向AI大模型提問“心肌干細胞有什么作用”。心肌干細胞(cKit+心肌成體干細胞)造假是學術圈有史以來最大的丑聞,以美國為主的全球多個研究機構、大學、醫院深陷其中,大量論文被迫下架。目前科學界已基本達成共識,心肌干細胞并不存在。
然而AI似乎并不這么認為,文心4.0 Turbo給出的回答是,心肌干細胞擁有修復與再生心肌細胞、促進血管新生、抗炎和免疫調節、預防心臟衰竭等作用。不只是文心一言,豆包、Kimi、ChatGPT等國內外AI大模型,全部都給出了心肌干細胞的作用。小雷還特地查看了文心4.0 Turbo提供了9條參考信息,發現都是半年內AI生成的信息。

(圖源:文心4.0 Turbo截圖)
基于過去錯誤的論文,在人為干預的情況下,AI輸出了錯誤的信息。而后其他AI大模型又根據錯誤的信息,不斷編造錯誤的信息,這種情況或將成為未來阻礙AI技術發展的關鍵因素。
不過在該項測試中,DeepSeek-R1卻給出了與眾不同的答案,該大模型生成的內容顯示,心肌干細胞理論上擁有潛在作用,但研究存在爭議。盡管DeepSeek-R1的回答仍有為心肌干細胞辯駁的成分,但至少已經跳出了問題本身,能夠去分析心肌干細胞是否存在。

(圖源:DeepSeek-R1截圖)
其實直接提問“心肌干細胞是否存在”,大多數AI大模型會給出存在和不存在雙方的觀點和例證,并加以分析。而向AI詢問心肌干細胞的作用時,AI則普遍依然會出現編造答案的情況。在第一輪測試中,能夠率先跳出問題本身,去詳細了解心肌干細胞的DeepSeek-R1取得了勝利。
2、邏輯推理:文心一言DeepSeek平分秋色。
能否利用題目中的信息,去推導出正確答案,同樣是困擾AI大模型的難點。本輪測試中,小雷選擇了一道懸疑邏輯推理問題:
本輪測試文心4.0 Turbo和DeepSeek-R1打成平手,雙方根據題目提及的線索,均分析出了畫家的朋友才是殺害畫家的真兇。
這道題并不難,結合以上線索,人類其實很容易分析出畫家的朋友才是真兇的答案。然而當小雷用其他豆包、Kimi、文心3.5、通義千問、7B參數的DeepSeek-R1等大模型推理該題時卻發現,只有豆包給出了正確答案,其他幾款大模型全部給出了錯誤答案。最離譜的是Kimi,推理過程中一直在強調畫家的朋友嫌疑更大,但最終答案卻是附近的流氓。

(圖源:Kimi截圖)
本輪測試中,文心4.0 Turbo和DeepSeek-R1打成平手,都成功推理出了正確答案,并且相較其他AI大模型,表現也更加出色。
3、數學推理:DeepSeek敗下陣來。
能否快速、正確解答出數學題,一直是驗證AI大模型是否擁有真正推理能力的重要測試項目。該環節小雷選擇了一道概率相關的數學題:
這道題同樣存在大量誤導信息,若能正確理解題目,其實非常簡單。在本輪測試中,文心4.0 Turbo、DeepSeek-R1、通義千問、豆包、Kimi等大模型,全部回答出了正確答案。
有趣的是,即便面對如此簡單的問題,依然有一個大模型回答錯誤,那就是文心3.5。在一番計算之后,文心3.5居然給出了概率為99/100的離譜答案。

(圖源:文心3.5)
考慮到上一道題目難度不高,小雷決定再加入一道附加題:
這道題小雷此前曾測試過,豆包、通義千問、Kimi、文心3.5等大模型全部未能解出正確答案。本輪測試中,豆包、通義千問、Kimi、文心3.5再次回答錯誤,但唯一回答正確的大模型并不是DeepSeek-R1。
DeepSeek-R1推理這道題耗時足足728秒,最終給出的答案卻是13/24,超過12分鐘的推理時間都沒能給出正確答案,令小雷有些失望。

(圖源:DeepSeek-R1截圖)
不被小雷看好的文心4.0 Turbo,竟然用時不到兩分鐘,就計算出了正確答案。相信不止小雷,絕大多數網友都沒有想到結果會是這樣。

(圖源:文心4.0 Turbo截圖)
近期知乎頻繁給小雷推送問題“DeepSeek對文心一言有什么影響”,評論區幾乎清一色貶低文心一言。然而本次評測卻證明,文心一言在推理方面并不落后DeepSeek-R1,依然穩居AI大模型第一梯隊。
在能力不輸DeepSeek-R1,部分測試表現領先豆包、Kimi、通義千問等AI大模型的情況下,文心一言的口碑卻并不理想。如何改變這一局面,值得百度深思。
百度“掀桌子”,文心一言能否逆天改命?
在與DeepSeek-R1對比測試之前,小雷本以為文心4.0 Turbo會輸,實際結果卻打了小雷的臉,這兩款大模型在不同領域互有優勢,但能力差距不大。文心一言之所以給小雷留下了表現不行的印象,是因為小雷平時使用文心一言時,總會選擇免費的文心3.5大模型。
通過以上實測不難發現,文心4.0 Turbo與文心3.5的能力堪稱云泥之別,三道推理題文心4.0 Turbo全部回答正確,而且推理任務所需時間極短,文心3.5卻全部回答錯誤。
不是用戶不愿意用更強大的文心4.0 Turbo,而是高昂的費用為文心4.0、文心4.0工具版、文心4.0 Turbo筑起了高高的門檻,阻止用戶體驗它。若是在海外市場,43.9元/月的費用對比20美元/月起步的ChatGPT-GPT并不算貴,但在國內市場,豆包、Kimi、DeepSeek、通義千問等AI大模型均免費提供服務,用戶難免更傾向使用它們。

(圖源:攝制)
百度急于賺錢的心態小雷可以理解,畢竟開發AI大模型的訓練成本和提供服務的推理成本都不低,現階段所有企業的AI大模型業務都在虧損。可AI行業仍處于市場開拓階段,其他企業都在通過免費提供服務爭奪用戶,百度卻先一步開啟收費模式,將大量潛在用戶拒之門外。
酒香也怕巷子深。2月13日,百度宣布文心一言將在4月1日徹底免費,這是降低AI門檻、吸引大量用戶的最佳方案。百度這一舉措跟比亞迪將高階智駕標配到全系車型可相提并論,都是推動AI普惠的舉措。
短期的虧損難以避免,如何讓用戶形成對文心一言的依賴,才是百度需要考慮的首要問題。承受一段時間的虧損,換來的可能是未來成為AI行業的領導者,并賺更多錢的機會。就跟比亞迪用“掀桌子”的手段,力爭在下半場成為智駕領導者一樣。
作為一個國民級AI工具,免費并不容易,文心一言沒有在2月13日直接免費,而是將時間推遲到4月1日,或許百度還有大量的工作要做。
幾乎是同一時間,OpenAI也宣布免費版ChatGPT在標準智能設置下將可以無限制使用GPT-5,盡管未能如百度一般完全免費,但也能看到OpenAI的讓步。隨著文心一言和GPT-5標準智能模式免費開放,整個AI大模型領域的競爭也將邁入新階段,DeepSeek的性價比優勢也將很難持續。現在,壓力似乎正在轉移到DeepSeek這一邊。






京公網安備 11011402013531號