IT之家 11 月 17 日消息,編程 IDE 開發(fā)商 JetBrains 今日發(fā)文,隨著 AI 的興起,現(xiàn)在的一項關(guān)鍵挑戰(zhàn)是如何衡量 AI 輔助工具在現(xiàn)實世界中帶來的效率提升。為了應(yīng)對這一挑戰(zhàn),JetBrains 決定打造 Developer Productivity AI Arena(DPAI Arena),并最終將其獻(xiàn)給 Linux Foundation。
DPAI Arena 宣稱是業(yè)內(nèi)首款開放式、多語言、多框架和多工作流基準(zhǔn)測試平臺,旨在衡量 AI 編碼智能體在現(xiàn)實世界軟件工程任務(wù)中的成效。它圍繞靈活且基于路徑的架構(gòu)構(gòu)建而成,能夠?qū)Ω鞣N工作流(例如,修補、bug 修正、PR 審查、測試生成、靜態(tài)分析等)進(jìn)行公平、可重現(xiàn)的比較。
JetBrains 表示,當(dāng)前的基準(zhǔn)測試所依賴的數(shù)據(jù)集已過時,涵蓋的技術(shù)范圍狹窄,并且過于局限地關(guān)注問題到補丁工作流。隨著 AI 編碼工具的快速發(fā)展,業(yè)界仍然缺乏一個中立且基于標(biāo)準(zhǔn)的框架,用于衡量它們對開發(fā)者工作效率的真正影響。
DPAI Arena 將可衡量的工作效率帶入 AI 輔助軟件開發(fā)領(lǐng)域。Spring Benchmark是該平臺的第一項基準(zhǔn),它帶來了針對未來貢獻(xiàn)的技術(shù)標(biāo)準(zhǔn)。首先,它實現(xiàn)了數(shù)據(jù)集創(chuàng)建準(zhǔn)則,并詳細(xì)說明了支持的評估格式和一般規(guī)則。其次,它為解耦基礎(chǔ)架構(gòu)提供了基礎(chǔ),使任何人都能采用自己的數(shù)據(jù)集(BYOD 方式)并重用基礎(chǔ)架構(gòu)進(jìn)行自己的評估。

JetBrains 官方也在關(guān)注 Spring AI Bench,以擴(kuò)展 DPAI Arena 中的 Java 基準(zhǔn)測試流,并與該項目的核心團(tuán)隊緊密合作以推動 Java 生態(tài)系統(tǒng)中的更多可變性和多路徑基準(zhǔn)測試。
JetBrains 計劃將此項目獻(xiàn)給 Linux Foundation,供其建立多元且包容的技術(shù)指導(dǎo)委員會,以確定平臺的未來發(fā)展方向。





京公網(wǎng)安備 11011402013531號