![]()
讓人和AI(人工智能)共做一道題,答案相左,聽誰的?一般來說,當然由人把關,但對于智能原生企業來說,他們選擇“聽AI的”。
不久前國務院發布的《關于深入實施“人工智能+”行動的意見》中,“智能原生”首次出現在官方文件中,被定義為“底層架構和運行邏輯基于人工智能”。
![]()
成立于2021年的天鶩科技,就是一家智能原生企業。他們擁有基于全球最大的蛋白質序列數據集進行預訓練的AI蛋白質設計大模型,只要半天時間,該模型就能按照需求挖掘或設計出一批蛋白質,它們中的一些可能從未被人發現過,但天鶩科技的員工會非常認真地將AI挑選的結果放到真實場景中去驗證。多年的經驗給了他們信心,而結果也往往令人驚喜。
智能原生,就是把AI當成企業的核心基因,它們往往能帶來顛覆式變化,而非效率的簡單提升。當AI與真實世界的融合加速,或許未來“聽AI的”會是一種常態。
AI的選擇顛覆教科書
蛋白質由20種天然氨基酸組成,蛋白質數據庫里序列的平均長度,約為361個氨基酸。僅改變其中1個氨基酸,就有6859種可能;改變2個,可能性飆升到2300多萬種;改變3個,更是達到533億種。想找到或設計出一個功能優異的蛋白質無異于大海撈針。過去,科學家一旦撈到了“針”,就會特別珍惜,他們還會將“針”與“針”相互排列組合,以期讓結果更好。
AI則不然,它不僅關注好的,也關注壞的。天鶩科技首席技術官劉灝,就遇到過一個改變他認知的案例。教科書上說,蛋白質內部的相互作用越強,蛋白質的穩定性就越高,所以,面對AI大模型給出的結果,劉灝很意外——AI要他先破壞蛋白質內部作用力再結合。但他還是按照AI的思路做了,因為他剛見證團隊中一位沒有生物學背景的工程師,只是把客戶提供的序列輸入AI大模型,就成功改造出符合要求的酶。最終,AI沒有令人失望,劉灝得到了更穩定的蛋白質,比之前所有做實驗產出的都好。
“這種現象在自然界中也存在,叫做‘上位效應’,比如在爬山時,先走一段下山路再登頂,比直接登頂更快更省力,但如果沒有AI助力,人們根本不知道應該在哪里、怎樣去組合好與壞。”劉灝說。
這樣的案例多了,天鶩科技對AI的信任度越來越高,現在當人和AI產生分歧,天鶩人會選擇“聽AI的”。
AI處理失敗的熟練度優于人類
在另一家智能原生企業晶泰科技,同樣的情況也在上演。晶泰科技內部會定期組織“AI科學家”和人類科學家比賽,在最近幾次AI反應預測能力比拼中,針對某兩種類型的反應預測上,晶泰科技自研的AI垂類模型準確率均超過80%,與人類科學家旗鼓相當;但在對失敗反應預測的識別率上,AI準確率則超過50%,是人類的一倍以上。
![]()
晶泰AI設備。晶泰供圖
人類與AI在成功與失敗反應預測能力上的差別,也許與數據有關。浙江大學化學系研究員、博士生導師洪鑫表示,合成化學理論上可合成的中小分子數量高達10的60次方,這是一個遠超宇宙中恒星數量的天文數字。自古以來,化學家都渴望成功,他們依賴已有的知識地圖和敏銳的直覺,在實踐中不斷調整路線。這句話的潛臺詞是,科學家處理成功的結果都忙不過來,幾乎不可能去關注失敗的結果。
但在晶泰科技的智能實驗室里,機器人一絲不茍記錄下每一個數據,它并不偏愛得到好結果的數據,而是對好壞一視同仁。于是,失敗數據與成功數據一起構建了一個更為完整的數據庫。AI可以通過對“失敗經驗”的挖掘,找到從未被人類注意過的更優解。
晶泰科技聯合創始人、首席執行官馬健注意到了這個現象,他說:“我們會更加關注那些無法完成實驗的‘失敗經驗’與大模型的關系,它們非常重要。”
大模型幻覺或來自數據不夠
今年的Oceanbase開發者大會上,螞蟻集團首席技術官何征宇表示,缺乏足夠的數據將導致AI產生“幻覺”,這種現象在當前的技術環境中愈發明顯。
天鶩科技選擇“聽AI的”,最大底氣就來自于其坐擁包含近90億條序列、數億個功能標簽的全球最大蛋白質數據集,這些序列不僅涵蓋常規生物,還包括從深海、火山口等極端環境中采集到的耐高溫、耐強酸/強堿的蛋白質,幾乎囊括自然界所有的蛋白語料。
在與金賽藥業的合作中,對方希望找到一個耐強堿蛋白質,天鶩科技借助AI大模型,很快就找到數十個結果。經過在真實場景中測試,最后勝出的蛋白質,耐堿性能提高四倍,使用壽命延長一倍。目前,該蛋白質已完成多個批次的5000升放大生產,成為全球首個實現工業化生產的大模型設計蛋白質。
最近爆火的“納米香蕉”圖像模型在圖片的色調、氛圍、畫面布局和視覺重點等方面表現出驚人的圖片一致性,在連續20次編輯操作中,字符一致性準確率保持在95%以上。據谷歌方面介紹,融入豐富的真實世界知識,是其理解能力達到新高度的主要原因——它能夠銘記上一幅作品的內容,同時也深刻理解對話的背景和邏輯。
人形機器人也在渴求更多數據。僅一個倒水的動作,機器人就需要吸收上萬條數據才能學會,而一位數據采集師每天僅能采集約150條數據。在智元機器人合伙人兼具身業務部總裁姚卯青看來,不研究大模型的具身智能公司沒有未來。目前,全球機器人動作數據相較于大語言模型的“核爆點”還差3至4個數量級,智元希望兩年內能采集到1億條。





京公網安備 11011402013531號