亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

從需求分析到代碼生成,LLM都能干點啥?一文讀懂291個軟工Benchmark!

IP屬地 中國·北京 編輯:顧雨柔 新智元 時間:2025-08-27 00:37:10


新智元報道

編輯:LRST

大語言模型正加速重塑軟件工程領(lǐng)域的各個環(huán)節(jié),從需求分析到代碼生成,再到自動化測試,幾乎無所不能,但衡量這些模型到底「好不好用」、「好在哪里」、「還有哪些短板」,一直缺乏系統(tǒng)、權(quán)威的評估工具。浙江大學、新加坡管理大學、加拿大渥太華大學等機構(gòu)的研究團隊,首次對291個用于評估LLMs在軟件工程任務(wù)中的Benchmark進行了系統(tǒng)綜述,為AI4SE社區(qū)繪制了一份詳盡的「基準地圖」與方法指南。

近年來,ChatGPT、Llama等大語言模型在軟件工程領(lǐng)域的能力突飛猛進,從需求分析、代碼生成到測試與維護幾乎無所不能。但一個核心問題是:我們?nèi)绾慰陀^評估這些模型在不同軟件工程任務(wù)中的表現(xiàn)?

在SE領(lǐng)域,Benchmark既是分數(shù)卡,讓不同模型在同一標準下比拼;也是方向盤,引導技術(shù)改進與未來研究方向。

然而,現(xiàn)有LLM-SE Benchmark存在三大痛點:

零散分布:缺乏覆蓋全流程的軟件工程任務(wù)Benchmark綜述

構(gòu)建方式各異:評估指標、數(shù)據(jù)來源五花八門,難以橫向比較

研究空白:此前從未有系統(tǒng)文獻綜述全面匯總軟件工程相關(guān)的大語言模型Benchmark

這使得開發(fā)者和研究者在選擇評估方法時常陷入「信息孤島」,甚至可能被不全面的評估結(jié)果誤導。

為填補這一空白,來自浙江大學、新加坡管理大學、渥太華大學等機構(gòu)的團隊開展了一項系統(tǒng)文獻綜述,首次全面梳理了291個用于評估大語言模型在軟件工程任務(wù)中的Benchmark,并從任務(wù)覆蓋、語言分布、構(gòu)建方式到未來趨勢進行了深入分析。


論文鏈接:https://arxiv.org/pdf/2505.08903


圖1 綜述框架總覽

研究聚焦三大核心問題:

現(xiàn)有LLM-SE Benchmark有哪些?

它們是如何構(gòu)建的?

它們面臨哪些挑戰(zhàn)與改進機會?

為了確保全面、系統(tǒng),研究人員開展「地毯式搜索」:

數(shù)據(jù)來源:覆蓋IEEE Xplore、ACM DL、ScienceDirect、Springer link等八大數(shù)據(jù)庫;

補充檢索采用前向與后向的「滾雪球」檢索,確保重要Benchmark不遺漏;

嚴格篩選設(shè)置包含與排除標準,剔除與LLM-SE無關(guān)或信息不全的Benchmark;

質(zhì)量評估從描述清晰度、SE相關(guān)性、方法嚴謹性、可復現(xiàn)性、學術(shù)影響五個維度打分;

最終成果匯總291個在2025年6月前發(fā)表的Benchmark,按任務(wù)、語言、構(gòu)建方式等多維度分類分析。

六大任務(wù)全覆蓋

Benchmark演化脈絡(luò)清晰


圖2 Benchmark年份分布

統(tǒng)計顯示,自2022年起B(yǎng)enchmark數(shù)量快速增長,2023和2024年分別新增近70個,增長勢頭迅猛。


圖3 Benchmark語言分布

Python在評估Benchmark中一騎絕塵,主要用于代碼生成與推薦類任務(wù);Java、C++、C語言在質(zhì)量分析與維護任務(wù)中占有重要地位;Go、PHP、Ruby等小眾語言的Benchmark仍然稀缺。


圖4 Benchmark任務(wù)分布

任務(wù)分布(六大類)

需求與設(shè)計(25個):需求獲取、分類、沖突檢測、規(guī)格化與驗證;

編碼輔助(124個):代碼生成、補全、摘要、多語言遷移(占比超40%,最多);

軟件測試(25個):測試生成、GUI測試、斷言生成、自動修復;

AIOps(6個):日志生成與解析;

軟件維護(13個):代碼審查、克隆檢測、代碼重構(gòu);

質(zhì)量管理(111個):缺陷檢測、漏洞識別、修復建議(占比38%)。

其中「編碼輔助」任務(wù)相關(guān)Benchmark數(shù)量最多,占比超過40%,其次是質(zhì)量管理類任務(wù),占比達38%。

現(xiàn)實挑戰(zhàn)

Benchmark還遠遠不夠用!

研究指出,當前Benchmark建設(shè)存在五大瓶頸:

任務(wù)定義模糊、評價不一致缺乏統(tǒng)一標準,難以橫向?qū)Ρ龋?/p>

規(guī)模受限、計算成本高多數(shù)數(shù)據(jù)集規(guī)模偏小,覆蓋不了復雜系統(tǒng);

泛化能力不足Benchmark表現(xiàn)好,真實場景卻「水土不服」;

更新滯后難以及時跟進新技術(shù)與框架;

數(shù)據(jù)隱私限制真實企業(yè)數(shù)據(jù)難以共享,影響高質(zhì)量Benchmark建設(shè)。

未來機會

Benchmark建設(shè)仍是「藍海」

團隊提出了五大改進方向:

多維評估引入準確率、可維護性、效率、安全性、可解釋性等指標;

跨語言、跨任務(wù)統(tǒng)一評估框架,提升通用性;

貼近真實場景引入真實項目數(shù)據(jù),提高落地性;

人類反饋與倫理考量納入有害性檢測、隱私風險等維度;

動態(tài)可擴展平臺支持任務(wù)擴展、新模型接入與持續(xù)測評。

總結(jié)

Benchmark是推動LLM落地的「發(fā)動機」

正如作者所言——當前LLM在軟件工程中的應(yīng)用正處于「黃金發(fā)展期」,但真正能驅(qū)動其走向工業(yè)落地、提升工程可信度的,是那些更真實、更多維、更動態(tài)的Benchmark體系。

這項研究不僅填補了LLM軟件工程評估的綜述空白,也為AI4SE研究者、開發(fā)者和企業(yè)提供了清晰的「下一步方向」。

如果說模型是「馬達」,Benchmark就是「方向盤」。誰能把握住它,誰就能在AI軟件工程的未來之路上走得更遠。

參考資料:

https://arxiv.org/pdf/2505.08903


免責聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

全站最新
国产精品爱久久久久久久| 欧美日韩在线视频免费| 天堂а√在线中文在线| 亚洲成人动漫在线| 免费拍拍拍网站| 五月婷婷狠狠操| 日本55丰满熟妇厨房伦| www在线观看免费视频| 国产精品国产三级国产传播| 日韩av片在线播放| 91精品国自产| 嫩草影院一区二区| 精品一区中文字幕| 二区三区在线视频| 国产一区二区影院| 久久久久久**毛片大全| 亚洲视频免费看| 欧美色区777第一页| 日韩精品一区二区三区在线观看 | 久久久久亚洲视频| 欧美熟妇另类久久久久久不卡 | 卡通动漫亚洲综合| 午夜69成人做爰视频| 国产精品毛片一区视频播| 久久一区视频| 久久精品国产久精国产| 国产色产综合产在线视频| 午夜精品久久久久久久99樱桃| 在线观看日韩国产| 亚洲人成在线观看| 欧美日韩福利在线观看| 亚洲www永久成人夜色| 99r国产精品视频| 男人添女人荫蒂免费视频| 丰满少妇中文字幕| 丰满圆润老女人hd| 免费观看成年人视频| 亚洲国模精品一区| 天堂在线中文视频| 天堂一区二区在线| 日本午夜精品视频在线观看| 亚洲夂夂婷婷色拍ww47| 国产成人激情视频| 亚洲av无码国产精品麻豆天美| 亚洲综合图片网| 另类小说视频一区二区| 一区二区三区视频在线观看| 91国产美女视频| 国产精品扒开腿做爽爽| 不卡av免费在线观看| 日韩欧美一区电影| www在线观看免费| 国产第一页精品| 国产精品久久久久久69| 亚洲欧美日韩免费| 精品视频偷偷看在线观看| jizz18女人| 91丨porny丨蝌蚪视频| 国产精品一区二区电影| 黄色一级片在线免费观看| 日韩欧美国产激情| 在线视频不卡国产| 香港一级纯黄大片| 精品免费视频.| 久久久久久久av| 国产美女精品在线观看| 日韩中文字幕亚洲精品欧美| 精品成人无码一区二区三区| 久久青草久久| 欧美日韩在线视频观看| 98视频在线噜噜噜国产| 欧美二区三区| 美女在线视频一区二区| 在线观看中文字幕av| 国产成人av资源| 欧美一区二区日韩| 99爱精品视频| 一级黄色香蕉视频| 懂色av蜜臀av粉嫩av喷吹| 国产精品免费丝袜| 亚洲欧美变态国产另类| 亚洲已满18点击进入在线看片| 日本r级电影在线观看| 性一交一乱一色一视频麻豆| 欧美激情资源网| 亚洲精品一线二线三线无人区| 91久久久久久| 97公开免费视频| 精品人妻少妇AV无码专区| 国产精品久久久久影院色老大 | 一区二区成人在线| 亚洲天堂影视av| 青青草原亚洲| 国产第一页第二页| 中文字幕高清不卡| 亚洲电影在线观看| 一区二区三区观看| a资源在线观看| 国精品**一区二区三区在线蜜桃 | www.夜夜爽| 久久人人超碰| 日韩高清免费观看| 国产免费xxx| 少妇无套内谢久久久久| 亚洲成人动漫精品| 91传媒免费看| 最新中文字幕av| 久久综合国产精品| 日韩最新在线视频| 黄色网在线视频| 最近国语视频在线观看免费播放| 香蕉成人啪国产精品视频综合网 | 国产无遮挡又黄又爽在线观看| 国产精品久久久久久久久免费丝袜 | 欧美日韩中文字幕日韩欧美| 国产一区视频在线播放| 韩国三级hd中文字幕| 国产拍欧美日韩视频二区| 在线电影欧美日韩一区二区私密| 一区二区精品视频| 国产精品二区一区二区aⅴ| 亚洲成av人影院| 国产一区视频在线| 亚洲成人日韩在线| 欧美激情在线看| 亚洲一区二区三区视频| 精品黑人一区二区三区观看时间| 91老师国产黑色丝袜在线| 日本久久久久久| 91ts人妖另类精品系列| 99国产麻豆精品| 国产精品日韩在线| 久久久精品人妻一区二区三区四 | 轻点好疼好大好爽视频| 黄色片中文字幕| 黄色成人在线播放| 风间由美久久久| 中文字幕免费在线观看视频| 色乱码一区二区三区88| 日韩av免费电影| 无码人妻丰满熟妇区五十路| 五月天激情综合| 好看的日韩精品| 91亚洲精品国偷拍自产在线观看| 精品国产乱码久久| 99色精品视频| 91香蕉视频黄| 国产精品一区二区不卡视频| 亚洲精品男人天堂| 91国产免费看| 大桥未久一区二区三区| 美女诱惑一区二区| 91国产一区在线| 日本熟妇乱子伦xxxx| 91国产免费观看| 91视频免费版污| 国产一区二区在线观看免费| 午夜精品久久久久久久久久久久| 欧美又粗又大又长| 欧美美女激情18p| 日韩精品在线中文字幕| 国产主播一区二区三区| 成人国内精品久久久久一区| 国产亚洲成人精品| 欧美日韩视频在线第一区 | 亚洲国产精品高清| 99热在线播放| 久久精品系列| 国产精品欧美日韩久久| 久草视频在线免费| 色综合久久久久久中文网| www.99re6| 最近免费中文字幕视频2019| 久草这里只有精品视频| 国产免费又粗又猛又爽| 欧美日韩精品一区二区三区蜜桃| 免费一级全黄少妇性色生活片| 97视频com| 人人妻人人澡人人爽精品日本| 99re6在线| 免费精品视频在线| 91视频最新| 91视视频在线观看入口直接观看www| av一区观看| 青青青视频在线播放| 7777精品久久久大香线蕉| wwwww在线观看| 欧美色爱综合网| 久久久久亚洲av无码网站| 亚洲高清免费视频| 免费激情视频在线观看| 亚洲欧美自拍偷拍| 亚洲精品国产精品国自产观看| 美腿丝袜亚洲一区| 成人黄动漫网站免费| 午夜小视频免费| 成人欧美视频在线| 国产精品一品二品| 国产视频在线观看一区| 成人免费视频一区二区| 中文字幕精品在线播放| 日韩美女啊v在线免费观看| 久久久久久久久久久久久国产精品| 国产欧美一区二区三区网站| 国产精品亚洲a| 欧美日韩视频一区二区| 亚洲天堂美女视频| 亚洲精品久久久久中文字幕欢迎你| 日韩人妻一区二区三区| 亚洲天堂av网| 高潮毛片又色又爽免费 | 91九色蝌蚪porny| 亚洲国产中文字幕在线观看| 日本成人精品视频| 久久久久久久久电影| 天堂一区二区在线免费观看| 亚洲精品国产一区| 一区二区三区日韩精品视频| 日韩爱爱小视频| 亚洲第一在线视频| 国产精品国产精品国产| 欧美亚洲另类视频| 精品系列免费在线观看| 妞干网在线视频观看| 7777女厕盗摄久久久| 久久av高潮av无码av喷吹| 国产精品久久久久久久久影视| 国产成人亚洲精品狼色在线 | 日本免费一区视频| 一本久久a久久精品vr综合 | 精品无人区无码乱码毛片国产| 欧美日韩视频不卡| 国产一级一片免费播放放a| 国产精品高潮呻吟久久av黑人| 国产一区二区中文字幕| 男人靠女人免费视频网站| 91久久国产最好的精华液| 国产午夜精品无码一区二区| 成人看片人aa| 91丝袜高跟美女视频| 一区二区三区人妻| 久久精品青青大伊人av| 久久精品国产一区二区三区免费看| 欧美韩国日本在线| 欧美日韩精品一区二区| 美国十次了思思久久精品导航| 久久99久久久| 中文字幕1区2区| 男人亚洲天堂网| 国产精品va在线| 99久久久精品| 欧美日韩在线视频一区二区三区| 视频在线一区二区| 中文字幕精品一区二区三区精品 | 超碰人人人人人人人| www成人免费| 国产成人久久久| 一本色道久久88综合亚洲精品ⅰ | 3d动漫精品啪啪一区二区竹菊 | 99热在线只有精品| 稀缺小u女呦精品呦| 秋霞在线观看一区二区三区| 日韩一区在线看| 亚洲欧洲国产视频| 97激碰免费视频| 国产v综合v亚洲欧| 中文字幕一区二区三区人妻| 2021久久精品国产99国产精品| 95精品视频在线| 久久午夜无码鲁丝片午夜精品| 成人av网站观看| 久久精品夜色噜噜亚洲aⅴ| 欧美日韩国产黄色| 日本一区视频在线观看| 日韩av在线导航| 成人av资源在线观看| 能直接看的av| 日韩免费三级| 中文字幕精品一区二区精品| 天天射天天操天天干| 97超碰国产精品| 欧美极品少妇与黑人| 99久久久精品免费观看国产蜜| 国产破处视频在线观看| 久久av二区| 精品国产乱码久久久久久久久| 91麻豆国产在线| www激情五月| 97超级碰在线看视频免费在线看| 久久蜜桃av一区二区天堂| 亚洲一级片在线播放| 97夜夜澡人人双人人人喊| 在线国产亚洲欧美| 精品人妻伦一区二区三区久久| 免费不卡av在线| 午夜精品久久久久久久白皮肤| 欧美一区三区二区| 理论电影国产精品| 天天色综合天天色| 91传媒视频免费| 日韩国产精品一区| 国产精品久久久久桃色tv| 国产夫妻在线观看| 无码任你躁久久久久久老妇| 久久久久久九九九九| 国产丝袜一区二区三区| 久久99国产精品久久| 国产chinese中国hdxxxx| 亚洲伊人第一页| 日韩欧美国产高清| 96av麻豆蜜桃一区二区| av手机天堂网| 亚洲少妇第一页| 国产精品日本一区二区| 国产亚洲成av人片在线观看桃| 97精品电影院| 国产精品人人人人| 黄色免费网址大全| 国产精品中出一区二区三区| 久久精品国产亚洲7777| 色婷婷av久久久久久久| av不卡免费在线观看| 中文字幕乱伦视频| 久久精品色妇熟妇丰满人妻| 日韩一区二区三区久久| 91精品国产综合久久香蕉| 色综合久久综合| 91免费观看视频在线| 久久久久欧美精品| 无码人妻一区二区三区免费| 91ts人妖另类精品系列| 久久久久国产精品熟女影院| 国产精品青青草| xxx成人少妇69| 欧美性受极品xxxx喷水| 国产麻豆成人精品| 欧美三根一起进三p| 亚洲精品怡红院| 五月婷婷综合色| 久久久久在线观看| 日韩欧美在线一区二区三区| 亚洲欧美激情小说另类| 天堂成人国产精品一区| 久久无码精品丰满人妻| 波多野结衣免费观看| 天天综合狠狠精品| 91日本视频在线| 欧美在线播放视频| 超碰精品一区二区三区乱码| 在线观看免费亚洲| 国产亚洲综合av| 久久精品中文| 国产精品无码一区二区桃花视频| 国产成人无码精品亚洲| 噜噜噜在线视频| 亚洲啊啊啊啊啊| 国产日韩欧美视频| 国产精品高潮呻吟久久av野狼 | 日本黄色录像片| 国产精品视频黄色| 久久久久久九九| 国产精品一区二区三区免费视频| 日韩在线视频中文字幕| 欧美一区二区三区啪啪| 欧美日韩国产精品一区二区三区四区 | 扒开伸进免费视频| 男人天堂网视频| 高清无码一区二区在线观看吞精| 中文字幕色一区二区| 国产精品久久九九| 亚洲一区二区少妇| 91色在线视频| 国产精品福利网| 久久人91精品久久久久久不卡| 综合国产在线视频| 亚洲国产又黄又爽女人高潮的| 色八戒一区二区三区| 性久久久久久久久| 欧美午夜一区二区| 国产精品午夜在线观看| a天堂在线视频| 老司机午夜福利视频| 性感美女一级片| 成人免费高清在线观看| 国产拍欧美日韩视频二区| 亚洲一区二区精品久久av| 国产精品日韩精品欧美在线| 国产98色在线|日韩| 成人性生交大合| 成人久久18免费网站麻豆| 捆绑调教美女网站视频一区| 老司机免费视频一区二区| 媚黑女一区二区| 欧美aaaaa成人免费观看视频| 国模私拍视频在线| 蜜臀av国产精品久久久久 | 国产精品第九页| 伊人中文字幕在线观看| 九九热在线视频播放| 日韩黄色一级视频| 懂色av.com| 99久久精品日本一区二区免费| 亚洲熟妇无码久久精品| 久久精品二区三区| 国产高清久久久| 成人欧美一区二区三区在线播放| 五月天国产精品| 7777精品伊人久久久大香线蕉 | 日韩免费视频播放| 每日在线更新av|