亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

為AI數據發愁?張文濤和鄂維南院士團隊推出Data-centric AI系統

IP屬地 中國·北京 編輯:顧青青 機器之心Pro 時間:2025-07-08 20:18:04



1. 基本介紹

近年來,大模型發展主要由大型科技公司主導,其領先的核心在于規模龐大且高質量的數據資源。然而,這些公司通常并不公開其原始數據及數據處理工具,使得學術界在大模型訓練數據的構建與優化方面難以追趕,受制甚深。

盡管近年來開源了大量數據集,學術界在大模型數據準備方面仍面臨諸多挑戰。目前,大模型訓練數據的清洗與構建仍主要依賴各個研究團隊 “閉門造車”,缺乏系統化、高效的工具支持。現有的數據處理工具如 Hadoop 和 Spark 等,支持的操作算子大多偏向傳統方法,尚未有效集成基于最新大語言模型(LLMs)的智能算子,對于構建先進大模型的訓練數據支持有限。

為此,張文濤和鄂維南院士團隊提出了以數據為中心的 AI 系統DataFlow。它系統實現了 100 余個基于規則、本地大模型或大模型 API 的數據治理算子(Operators),并在此基礎上構建 8 條預設數據處理流水線(Pipeline),包括:大規模嘈雜數據(如 PDF 文檔、純文本、低質量問答數據、爬蟲數據等)的清洗、擴增與評估;帶有思維鏈的強推理數據合成;RAG 數據提取與合成等等主流數據治理需求。該系統可供用戶靈活組織現有算子,開發新算子,修改現有流水線,組裝定制化流水線,以滿足多樣的數據治理任務。



目前 DataFlow 全面支持文本模態的數據治理,可供大語言模型(LLM)的預訓練(Pre-training)、有監督微調(Supervised Finetuning)、強化學習微調(Reinforcement Finetuning )使用。經過治理的數據可以有效提升大語言模型在通用領域的推理能力和檢索能力,與醫療、金融、法律等特定領域的性能。此外,多模態版本的 DataFlow 正在如火如荼開發中,會在不久的將來與大家見面。

官方文檔:https://opendcai.github.io/DataFlow-DocGithub 官方倉庫:https://github.com/OpenDCAI/DataFlow

2. 設計理念



DataFlow 框架的數據處理邏輯主要分為算子層(operator) 和流水線層(pipeline)。其次,DataFlow 通過數據管理類(storage)實現讀寫管理,大模型后端類(LLMServing)支持算子調用大模型,進而實現對數據的復雜過濾、擴增和評分。此外,我們還設計了 Agent for DataFlow 模塊。使用大模型 Agent 實現多種智能數據治理功能:(1) 根據用戶描述自動編排算子構成新 Pipeline (2) 根據用戶描述自動編寫新算子 (3) Agent 自動解決數據分析任務。

2.1 框架設計

數據管理:DataFlow 現階段主要支持大模型文本數據處理,為提高易用性,DataFlow 內核使用 pandas 的 Dataframe 數據表作為載體實現讀寫數據。大模型后端:目前 DataFlow 支持兩種后端,包括:

(1)使用 vLLM 或 SGLang 作為本地推理后端,在本地 GPU 部署大模型作為推理服務。支持算子決策。

(2)使用 request 方式向大模型服務商的 API(如 ChatGPT,Deepseek)發起請求,并支持多進程并發請求。

2.2 功能設計

DataFlow 算子是基本數據處理單元,通常基于規則、深度學習模型或大語言模型(LLM)實現處理邏輯。DataFlow Pipeline是對多個 DataFlow 算子的有序編排,旨在完成一個完整的數據處理任務。DataFlow 目前提供了 8 條完整流水線以供參考,用戶可以自定義修改。DataFlow Agent是一個基于多智能體協同的自動化任務處理系統,覆蓋 “任務拆解 → 工具注冊 → 調度執行 → 結果驗證 → 報告生成” 完整流程,致力于復雜任務的智能化管理與執行。

2.3 DataFlow 具體示例:

評估算子示例:我們主要通過 “通用評估算子” 和 “專有評估算子” 進行評估。以通用算子為例,主要包含文本結構、多樣性和復雜性、安全性、流暢性和可理解性、教育價值、內容準確性和有效性等維度。

詳見官方文檔 https://opendcai.github.io/DataFlow-Doc/zh/guide/f50mqhmb/

數據處理流水線示例:我們提供多條推薦使用的數據處理流水線,數據處理及評估結果如下。

(1)通用文本數據處理流水線



主要由去重、改寫和過濾算子等組建,能夠實現刪除冗余字符、提取有效信息的處理效果。

詳見官方文檔 https://opendcai.github.io/DataFlow-Doc/zh/guide/textpipeline/

如下圖實驗結果顯示,清洗后的數據在多個評估維度都有提升。



(2)強推理數據合成流水線



主要包括以下三方面算子,能夠支持數據合成及多維度數據評估。

1. 問題處理:過濾非數學問題、合成新問題、驗證問題正確性、進行難度評分和類別分類。

2. 答案生成與處理:根據問題的標準答案或模型生成的答案進行處理,包括格式過濾、長度過濾和正確性驗證等。

3. 數據去重:對生成的問答數據進行去重,確保數據集的質量。

詳見官方文檔 https://opendcai.github.io/DataFlow-Doc/zh/guide/reasoningpipeline/

如下圖實驗結果顯示,合成數據在多個評估維度都有提升。



(3)Text2SQL 數據合成流水線



主要由以下幾個步驟組成:

1. 數據過濾:篩選無效 SQL 和問題描述不一致的數據;

2. 難度分類:基于 SQL 語法復雜度和執行通過率劃分難度等級;

3. Schema 處理:提取和格式化數據庫 Schema 信息;

4. 知識生成:構建自然語言問題到 SQL 查詢所需的額外知識;

5. 問題優化:標準化問題表述;

6. 提示詞生成:構建用于訓練的高質量問答數據。

詳見官方文檔 https://opendcai.github.io/DataFlow-Doc/zh/guide/text2sqlpipeline/

如下圖實驗結果顯示,處理后數據在多個評估維度上都有提升。



(4)Agentic RAG 數據處理流程



主要由以下算子構成:

1. 片段遴選:選取過濾有意義文本;

2. 構造問答對:基于現有片段中的信息,構建問答對。該問答對需要原文本支持;

3. 問題質量評估:對問答對和原文本的質量進行評估與分類,便于構建 RAG 知識庫;

4. 問題橫向合并:可以合并多個問答對的內容,提高問題復雜性與跨度;

5. 問題縱向合并:將多個問題合并為需要多次檢索的問答對。

詳見官方文檔 https://opendcai.github.io/DataFlow-Doc/zh/guide/agenticrag_pipeline/

如下圖實驗結果顯示,合成數據訓練模型在多個評估維度都有提升。



(5)Agent 自動數據處理流程

Agent 主要由以下六個模塊組成,可以添加算子并且編排已有算子,以實現自動的數據處理流水線。

1. Planning Agent:任務分解,定義任務鏈;

2. Task Dispatcher:分配任務;

3. Execution Agent:生成工具,處理任務;

4. Tool Register:注冊工具;

5. evaluation Agent:調試與驗證;

6. Analysis Agent:總結并生成報告。

詳見官方文檔 https://opendcai.github.io/DataFlow-Doc/zh/guide/agent/agent_for_data/

效果如下:


https://mp.weixin.qq.com/s/ns96fMzDluAmPLnl8GY8ww

3. 使用方式

3.1 基于代碼使用

代碼倉庫

目前 DataFlow 已經部署在 PyPi,可以通過 pip install open-DataFlow 輕松一鍵安裝。DataFlow 借鑒了 PyTorch 的風格的算子組織與調用方式,算子聲明通過__init__函數實現,算子運行通過 run 函數實現。接口簡明清晰,易于上手。



Github 官方倉庫:https://github.com/OpenDCAI/DataFlow

使用文檔

我們還提供了詳細的教程文檔,也歡迎開源社區提出有趣的見解,一起豐富完善文檔內容,讓 DataFlow 更加新手友好,利于上手。



官方文檔:https://opendcai.github.io/DataFlow-Doc

3.2 基于前端使用

無代碼拖拽式 Pipeline 搭建:滿足需要針對業務場景個性化定制 / 微調 pipeline 的需求。



一鍵調用數據準備 Pipeline:提供已跑通的行業 / 特定場景的最佳實踐模版。



Agent 自動化 Pipeline 設計:通過多輪對話理解并分析客戶需求,給出合理的數據過濾、數據合成、pipeline 調整等建議,確認后可一鍵配置。



項目開源

官方文檔:https://opendcai.github.io/DataFlow-DocGithub 官方倉庫:https://github.com/OpenDCAI/DataFlow



張文濤 上海算法創新研究院研究員,北京大學助理教授。主要研究方向為以數據為中心的機器學習、大模型和數據管理。wentao.zhang@pku.edu.cn



鄂維南 中國科學院院士,上海算法創新研究院學術委員會主任,北京大學教授。主要研究方向為機器學習、Data-centric AI, 計算數學、應用數學及 AI4Science。weinan@math.pku.edu.cn

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

色狠狠一区二区三区香蕉| www国产一区| 午夜一级免费视频| 欧洲精品码一区二区三区免费看| 久久久99久久精品女同性| 亚洲欧美日韩国产综合在线| www.色亚洲| 玖玖爱这里只有精品| 亚洲免费一级视频| 亚洲欧美久久久久一区二区三区| 国产精品一久久香蕉国产线看观看 | 久久久久久久久久一区| 欧美一区二区三区四区夜夜大片 | 国产aⅴ综合色| 中文字幕一区二区在线视频 | 国产一区高清视频| 人人爽久久涩噜噜噜网站| 在线日韩精品视频| 欧美成人精品福利| 一本久道久久综合中文字幕 | 好男人www在线视频| 天天干在线播放| 国模无码国产精品视频| 一本色道综合久久欧美日韩精品| 天天操天天爽天天射| 国产精品国产对白熟妇| 日韩欧美三级电影| 国产精品久久久久久免费观看 | 日韩国产在线观看一区| 国产精品国产一区二区三区四区| 草久久免费视频| 国产精品 欧美激情| 香蕉视频免费网站| 日本www.色| av在线播放亚洲| 一区二区三区av| 久久综合精品一区| 99精品人妻少妇一区二区| 欧美性潮喷xxxxx免费视频看| 漂亮人妻被中出中文字幕| 欧美日韩一道本| 天天干天天av| 中文天堂资源在线| 欧美做爰爽爽爽爽爽爽| 国产真实的和子乱拍在线观看| 精品视频久久久久| 欧美精品久久久久性色| 精品深夜av无码一区二区老年| 国产无遮无挡120秒| 伊人365影院| 久久综合色综合| 久久97人妻无码一区二区三区| 日韩黄色a级片| 亚洲国产综合久久| 久久精品偷拍视频| 国产又粗又猛又爽又黄的视频一| 亚洲黄色在线免费观看| 亚洲精品无amm毛片| 天天色棕合合合合合合合| 欧美 日韩 国产 在线| 日本不卡在线视频| kk眼镜猥琐国模调教系列一区二区| 精品人妻无码一区二区色欲产成人 | 91麻豆福利精品推荐| 国产精品久久久久婷婷二区次| 亚洲午夜精品在线| 欧美一区二区人人喊爽| 一区二区三区 在线观看视| 一本大道久久a久久精二百 | 日韩av一级电影| 天堂久久一区二区三区| 国产成人免费视| 国产亚洲综合在线| 亚洲色图视频免费播放| 91国模大尺度私拍在线视频| 国产99在线|中文| 8x8ⅹ国产精品一区二区二区| 国产精品久久不卡| 视频一区视频二区中文| 这里是久久伊人| 国产精品日韩一区二区三区| 久久性爱视频网站| 午夜精品久久久久久久99老熟妇 | 久久久精品一区二区三区| 欧美精品一区二区三区在线看午夜 | 欧美在线|欧美| 欧美激情视频播放| 欧美乱做爰xxxⅹ久久久| 中国女人做爰视频| 欧美第一页浮力影院| 欧美成人午夜精品免费| 真人bbbbbbbbb毛片| av图片在线观看| 香蕉久久一区二区三区| 久久久久高清精品| 欧美性猛交一区二区三区精品| 91国产精品视频在线| 欧美国产日本在线| 日本亚洲精品在线观看| 国产精品扒开腿做爽爽爽视频 | 成人国产精品免费网站| 在线亚洲欧美专区二区| 亚洲最新av网址| 国产日本欧美一区二区三区在线| 亚洲精品白虎| 国产精品成人免费一区久久羞羞| 这里只有久久精品视频| 99久久99精品久久久久久| 日韩欧美国产骚| 久久久久久久成人| 免费在线观看91| wwwwwxxxx日本| 丝袜 亚洲 另类 欧美 重口| 日韩有码一区二区三区| 精品久久久久久久久久ntr影视 | 色婷婷综合中文久久一本| 欧美极品视频一区二区三区| 鬼打鬼之黄金道士1992林正英| 免费观看中文字幕| 久久97人妻无码一区二区三区| 久久日韩精品一区二区五区| 91福利区一区二区三区| 精品一区电影国产| 亚洲精品8mav| www.99re7.com| 亚洲视频在线一区观看| 日本久久亚洲电影| www.夜夜爽| 99在线精品视频免费观看软件| 亚洲一区二区三区三| 国产一区二区久久久| 久久丫精品久久丫| 天天免费综合色| 999国产在线| 久久久久人妻一区精品色| 成人综合激情网| 亚洲夜晚福利在线观看| 成人午夜视频免费观看| 国产一区免费看| 亚洲一区欧美一区| 国产精品久久久久久久久久免费 | 欧美成人在线免费视频| 国产九九九九九| 国产原创中文av| 一本到不卡精品视频在线观看 | 国产精品 欧美激情| 国产精品麻豆一区二区| 98精品国产自产在线观看| 日韩欧美亚洲另类| 久久精品二区亚洲w码| 亚洲第一二三四五区| 黄黄视频在线观看| 一级淫片免费看| 欧美日韩国产系列| 正在播放精油久久| www.五月激情| 日韩黄在线观看| 精品人妻一区二区三区四区在线| 污污网站免费在线观看| 在线播放国产精品| 亚洲欧美自拍另类日韩| 久久99日本精品| 在线播放亚洲激情| 在线免费观看视频黄| 久久午夜av| 亚洲美女av在线| 黄色av网址在线播放| 婷婷开心激情网| 亚洲女人天堂av| 国产又黄又猛又粗又爽的视频| 无码精品视频一区二区三区 | 色窝窝无码一区二区三区成人网站| 欧美成人高清电影在线| 免费观看亚洲视频| 视频一区中文字幕| 欧美另类第一页| 好吊一区二区三区视频| 中文字幕永久在线不卡| 国产女主播一区二区| 91视频在线视频| 日韩精品久久久久久福利| 男女视频一区二区三区| 国产精品一区免费视频| 日韩av电影手机在线观看| 日韩av毛片在线观看| 欧美视频裸体精品| 青青青在线观看视频| 美国av一区二区| 国产精品美腿一区在线看| 天天综合网久久综合网| 一区二区三区黄色| 大地资源高清在线视频观看| 日韩欧美一级精品久久| 无码成人精品区在线观看| 日韩欧美aaa| 日韩欧美理论片| 欧美性高潮床叫视频| 日韩va在线观看| 精品日韩美女的视频高清| 污片在线免费看| 天天综合网 天天综合色| 一本久久a久久精品vr综合| 免费观看在线色综合| 久久精品国产2020观看福利| asian性开放少妇pics| 国产精品久久久久久久午夜片 | 精品福利一区二区三区免费视频| 妺妺窝人体色www在线小说| 国产一区二区h| 丁香五月网久久综合| 免费观看毛片网站| 97久久精品人人澡人人爽缅北| 久久久久久久久久久久久av| 日韩一区二区在线看片| 亚洲精品激情视频| 亚洲午夜精品在线| 欧美 国产 小说 另类| 国产欧美日韩在线看| avove在线观看| 国产欧美一区二区三区鸳鸯浴| 中文字幕日韩精品一区二区| 日本伊人色综合网| 91久色国产| 久草精品在线观看| 国产视频99| 国产盗摄女厕一区二区三区| 免费日韩av电影| 国产91精品露脸国语对白| 成人av网站观看| 精品一二三四在线| 人禽交欧美网站免费| 国产一区二区三区免费看| 日韩国产伦理| 26uuu久久天堂性欧美| 欧美一级欧美一级| 依依成人精品视频| 亚洲色精品三区二区一区| 婷婷夜色潮精品综合在线| 绯色av蜜臀vs少妇| 欧美日韩国产一区二区三区地区| 黄色在线观看av| 亚洲视屏在线播放| 日批视频免费观看| 成人免费在线视频网站| 国产激情一区二区三区四区 | 欧美精品三级日韩久久| 特一级黄色录像| 色噜噜狠狠狠综合曰曰曰88av| 综合久久中文字幕| 国产成人精品av在线| 巨乳诱惑日韩免费av| 国产伦视频一区二区三区| 国产亚洲欧美色| 污污视频网站免费观看| 欧美高清视频一二三区| 日本一级淫片免费放| 国产成人av在线| 国产精品91一区二区| 欧美牲交a欧美牲交| 91精品国产综合久久福利软件| 欧美日韩中文视频| 日本精品va在线观看| 成人精品小蝌蚪| 亚洲一区精品视频在线观看| 欧美一级理论性理论a| 国产又黄又猛又粗又爽| 国产精品自拍视频| 国产日韩欧美精品电影三级在线| 午夜av中文字幕| 在线观看久久av| 日本人妖一区二区| 999精品网站| 亚洲欧美中文在线视频| 亚洲精品国产手机| 国产一区二区片| 欧美一区二区三区白人| 一区二区三区亚洲视频| 亚洲日本japanese丝袜| 欧美日韩1区2区| 97精品久久人人爽人人爽| 亚洲高清123| 欧美xxxxxxxxx| 成人高潮片免费视频| 波多野结衣家庭教师在线播放| 亚洲国产精品va在线看黑人| 久久综合久色欧美综合狠狠| 三级电影在线看| 欧美日韩最好看的视频| 日韩一区二区三区观看| 成人毛片在线播放| 国产精品一区二区在线观看| 国产精品美女久久久久久久网站| 日韩av男人天堂| 狠狠爱一区二区三区| 精品一区二区三区不卡| 五月婷婷狠狠操| 国产亚洲精品久久| 国产不卡视频在线观看| 精品夜夜澡人妻无码av| 国产精品狠色婷| 亚洲成人第一页| 日韩欧美中文视频| 国产精品美女久久| 亚洲影院久久精品| 中文字幕永久在线观看| 国产极品美女高潮无套久久久| 久久亚洲精品一区| 国产精品黄色在线观看| 免费一级特黄特色大片| 欧美日韩成人一区二区三区| 欧美日韩三级一区二区| 日韩黄色一级片| 无码人妻精品一区二区三应用大全 | 国产在线视频欧美一区二区三区| 51午夜精品国产| 国产美女在线观看一区| 久久精品国产亚洲AV成人婷婷| 日韩三级电影| 久久久极品av| 亚洲高清在线视频| 精品国产av一区二区| 中文字幕1区2区| 97超级碰碰| 亚洲成人xxx| 成人动漫av在线| 国产又黄又粗又爽| 日本欧美黄色片| 国产精品国语对白| 欧美精品一区二区蜜臀亚洲| 久久久久久久国产精品影院| 中文字幕一区二区人妻视频| 天天操天天爱天天爽| 91久久久国产精品| 日韩精品一区二区三区老鸭窝 | 日韩精品免费在线视频观看| 欧美国产亚洲另类动漫| www香蕉视频| 亚洲综合中文网| 亚洲午夜精品福利| 欧美性受xxx| 亚洲成人教育av| 亚洲美腿欧美偷拍| 捆绑紧缚一区二区三区视频 | 在线免费av播放| 久久精品国产精品青草色艺| 中文字幕视频一区二区在线有码 | 国产mv久久久| 国产丝袜精品第一页| 亚洲成人av中文| 经典三级在线一区| 国内av在线播放| 少妇一级黄色片| 粉色视频免费看| 欧美日韩精品久久| 日本欧美国产在线| 亚洲二区在线播放视频| 亚洲蜜臀av乱码久久精品| 国产不卡在线播放| 伊人22222| 少妇被躁爽到高潮无码文| 又黄又爽又色的视频| 精品一区二区三区无码视频| 国产综合动作在线观看| 久久精品99久久久久久久久| 久久这里只有精品首页| 日本美女视频一区二区| 国产精品久久婷婷| 国产一级二级毛片| 免费看黄色aaaaaa 片| 性生活免费在线观看| 日韩欧美亚洲日产国产| av成人观看| 国产91精品久| 亚洲网址你懂得| 欧美精品日韩一本| 日韩欧美中文字幕在线播放| 久久日一线二线三线suv| 国产精品1024| 蜜桃免费网站一区二区三区| 亚洲av无码乱码国产精品久久 | 亚洲欧美日本在线| 国产欧美一区二区三区网站| 99综合电影在线视频| 国产精品77777| 久久99精品国产麻豆婷婷洗澡| 日批视频在线播放| 亚洲男人第一天堂| 99热这里只有精品66| 国产成人在线免费观看视频| 中文字幕在线有码| 欧美色图一区二区| 国产精品三区在线观看| 麻豆明星ai换脸视频| 三级黄色录像视频| 91嫩草丨国产丨精品| 顶级黑人搡bbw搡bbbb搡| 女人18毛片毛片毛片毛片区二 | 性欧美18一19内谢| 99re99热| 亚洲熟妇无码av在线播放| 国产成人永久免费视频| 国产亚洲黄色片| 成人观看免费完整观看| 一区二区三区国产免费| 亚洲妇熟xx妇色黄蜜桃| 欧洲熟妇的性久久久久久| 欧美做受高潮6| 欧美日韩在线视频免费播放| 久久精品一区二区三| 中文永久免费观看|