亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

全球百模爭霸,國產大模型拿下多個冠軍!智源FlagEval全球評測榜單出爐

IP屬地 中國·北京 編輯:陸辰風 新智元 時間:2024-12-20 14:00:14

報道

編輯:編輯部 HYZ

2024年快要結束了,世界大模型究竟孰強孰弱?剛剛,智源研究院發布了下半年大模型綜合評測結果,涵蓋了開源閉源100+模型,橫跨文本、語音、圖像和視頻等多個領域。

2024年12月19日,智源研究院發布并解讀國內外100余個開源和商業閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測結果。

相較于今年5月的模型能力全方位評估,本次智源評測:

擴展、豐富、細化了任務解決能力內涵,新增了數據處理、高級編程和工具調用的相關能力與任務;

首次增加了面向真實金融量化交易場景的應用能力評估,測量大模型的收益優化和性能優化等能力;

首次探索基于模型辯論的對比評估方式,對模型的邏輯推理、觀點理解、語言表達等核心能力進行深入分析。

智源評測發現,2024年下半年大模型發展更聚焦綜合能力提升與實際應用。多模態模型發展迅速,涌現了不少新的廠商與新模型,語言模型發展相對放緩。模型開源生態中,除了持續堅定開源的海內外機構,還出現了新的開源貢獻者。

多種模態評測綜合榜單:覆蓋文本、語音、圖片、視頻理解與生成

語言模型,針對一般中文場景的開放式問答或者生成任務,模型能力已趨于飽和穩定,但是復雜場景任務的表現,國內頭部語言模型仍然與國際一流水平存在顯著差距。

在語言模型客觀評測中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字節跳動Doubao-pro-32k-preview位居第三、第四,meta Llama-3.3-70B-Instruct排名前五。

文生圖多模態模型,今年上半年參評的模型普遍無法生成正確的中文文字,但此次參評的頭部模型已經具備中文文字生成能力,但整體普遍存在復雜場景人物變形的情況,針對常識或知識性推理任務,小于3的數量關系任務表現有所提升,大于3的數量關系依然無法處理,涉及中國文化和古詩詞理解的場景對于模型而言是不小的挑戰。

評測結果顯示,騰訊Hunyuan Image位列第一,字節跳動Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可圖次之。

文生視頻多模態模型,畫質進一步提升,動態性更強,鏡頭語言更豐富,專場更流暢,但普遍存在大幅度動作變形,無法理解物理規律,物體消失、閃現、穿模的情況。

評測結果顯示,快手可靈1.5(高品質)、字節跳動即夢 P2.0 pro、愛詩科技PixVerse V3、MiniMax海螺AI、Pika 1.5位列前五。

語音語言模型,得益于文本大模型的進步,能力提升巨大,覆蓋面更全,但在具體任務上與專家模型還存在一定差距,整體而言,性能好、通用能力強的開源語音語言模型偏少。

專項評測結果顯示,阿里巴巴Qwen2-Audio位居第一,香港中文大學&微軟WavLLM、清華大學&字節跳動Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均進入前五。

四大專項評測榜單:多維度探索模型能力邊界與應用潛能

本次評測,智源研究院再次聯合與海淀區教師進修學校新編了K12全學段、多學科試卷,進一步考察大模型與人類學生的能力差異,其中,答案不唯一的主觀題依然由海淀教師親自評卷。

得益于多模態能力的帶動發展,模型本次K12學科測驗綜合得分相較于半年前提升了12.86%,但是仍與海淀學生平均水平存在差距;在英語和歷史文科試題的表現上,已有模型超越了人類考生的平均分;模型普遍存在「文強理弱」的偏科情況。

Flageval大模型角斗場,是智源研究院今年9月推出的面向用戶開放的模型對戰評測服務,以反映用戶對模型的偏好。

目前,Flageval覆蓋國內外約50款大模型,支持語言問答、多模態圖文理解、文生圖、文生視頻四大任務的自定義在線或離線盲測。

此次評測,共有29個語言模型、16個圖文問答多模態模型、7個文生圖模型、14個文生視頻模型參評。

評測發現,用戶對模型的響應時間有更高要求,對模型輸出的內容傾向于更結構化、標準化的格式。

作為模型對戰評測服務Flageval大模型角斗場的延展,今年10月智源研究院推出了模型辯論平臺Flageval Debate,對模型的邏輯推理、觀點理解以及語言表達等核心能力進行深入評估,以甄別語言模型的能力差異。

本次評測發現,大模型普遍缺乏辯論框架意識,不具備對辯題以整體邏輯進行綜合闡述;大模型在辯論中依然存在「幻覺問題」,論據經不起推敲;大模型更擅長反駁,各個模型表現突出的辯論維度趨同,在不同的辯題中,模型表現差距顯著。

此次評測,智源研究院探索了基于實際應用場景的全新方法,通過評測模型的量化代碼實現能力,探索模型在金融量化交易領域的潛在應用能力和商業價值。

評測發現,大模型已經具備生成有回撤收益的策略代碼的能力,能開發量化交易典型場景里的代碼;在知識問答方面,模型整體差異較小,整體分數偏高,但在實際代碼生成任務上,模型差異較大,整體能力偏弱;頭部模型能力已接近初級量化交易員的水平。

金融量化交易評測結果顯示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest位列前三。

智源評測體系Flageval再迭代:覆蓋全球800+開閉源模型

本次評測依托智源研究院自2023年6月上線的大模型評測平臺Flageval,經過數次迭代,目前已覆蓋全球800多個開閉源模型,包含20多種任務,90多個評測數據集,超200萬條評測題目。

在評測方法與工具上,智源研究院聯合全國10余家高校和機構合作共建,探索基于AI的輔助評測模型FlagJudge和靈活全面的多模態評測框架FlagevalMM,并構建面向大模型新能力的有挑戰的評測集,包括與北京大學共建的HalluDial幻覺評測集、與北師大共建的CMMU多模態評測集、多語言跨模態評測集MG18、復雜代碼評測集TACO以及長視頻理解評測MLVU等,其中與北京大學共建的HalluDial是目前全球規模最大的對話場景下的幻覺評測集,有18000多個輪次對話,和14萬多個回答。

為規避數據集泄露風險以及數據集飽和度問題,本次評測吸納了近期發布的數據集并持續動態更新評測數據,替換了98%的題目,并提升了題目的難度。

智源研究院副院長兼總工程師林詠華在評測發布會上表示,Flageval評測體系一直堅守科學、權威、公正、開放的準則,通過技術方法平臺持續創新,打造丈量模型能力的標尺,為大模型技術生態發展提供洞察。

2025年,Flageval評測體系的發展將進一步探索動態評測與多任務能力評估體系,以評測為標尺感知大模型的發展趨勢。

參考資料:

https://mp.weixin.qq.com/s/jIwMZuIu_QNjjTJhe2GOkA

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

亚洲制服丝袜在线| 免费又黄又爽又色的视频| 欧美激情图片区| 国产91综合一区在线观看| 精品视频无码一区二区三区| 日韩你懂的电影在线观看| 草草视频在线播放| 免费国产成人av| 日韩中文字幕在线免费观看| 成人福利视频在线看| 午夜一区二区三区免费| 成人黄色片在线| 精品久久久久久久久久久久| 一级片aaaa| 毛片一区二区三区四区| 欧美黑人视频一区| 亚洲欧美一区二区视频| 成人av网站在线播放| 欧美成人三级在线视频| 欧美日韩成人在线播放| 亚洲免费观看高清完整版在线观看熊| www.在线欧美| 欧美另类视频在线| 精品国产乱码久久久久久久久| 久久精品免费看| 综合五月激情网| 亚洲色图38p| 欧美中日韩一区二区三区| 伊人青青综合网站| 亚洲第一久久影院| 一级做a爰片久久毛片美女图片| 成人午夜av影视| 日韩人妻无码一区二区三区99| 热久久精品免费视频| 国产精品人人做人人爽| 精品欧美乱码久久久久久| 国产精品美女久久久久久久久 | 911国产网站尤物在线观看| 欧美一区二区国产| 国产精品色呦呦| 亚洲摸摸操操av| 天堂中文在线看| 日韩女优在线观看| 少妇性l交大片7724com| 一区二区三区视频在线播放| 国产精品露脸自拍| 色黄久久久久久| 欧美一区二区三区公司| 亚洲大片精品永久免费| 久久精品一区蜜桃臀影院| 日韩av一区二区在线影视| 91精品国产综合久久久蜜臀九色| av无码av天天av天天爽| 一区二区三区免费播放| 欧美大黑帍在线播放| 欧美日韩免费观看一区| 91中文字幕在线| 国产精品啪视频| 欧美大香线蕉线伊人久久国产精品| 日本福利视频在线观看| 国产日韩欧美成人| 一区二区三欧美| 在线电影欧美成精品| 欧美性感美女h网站在线观看免费 欧美性xxxx在线播放 | 欧美综合激情| 成人精品福利视频| 日韩免费观看视频| 九九热最新视频//这里只有精品| 亚洲天堂影视av| 亚洲电影在线观看| 欧美一区二区福利在线| 欧美一区二区视频免费观看| 欧美性xxxxhd| 午夜电影一区二区三区| 亚洲色图20p| 久久精品人人做| 久久蜜桃香蕉精品一区二区三区| 成人午夜视频免费看| 国产精品亚洲成人| 国产高清亚洲一区| 国产大片一区二区| 国产精品久久国产精麻豆99网站| aaa国产一区| 91在线码无精品| 久久久久久毛片| 久久久久亚洲综合| 中文精品99久久国产香蕉| 欧美日韩三级一区二区| 亚洲电影在线免费观看| 亚洲欧美另类在线| 亚洲女厕所小便bbb| 一区二区三区中文字幕精品精品 | 91原创国产| 日韩av电影免费观看高清完整版| 熟妇人妻一区二区三区四区 | 欧美激情国内自拍| 国产伦精品一区二区免费| 欧美国产在线视频| 欧美日韩亚洲视频一区| 欧洲亚洲国产日韩| 日韩欧美电影一二三| 日韩精品视频中文在线观看| 一个色综合网站| 欧美日本高清视频在线观看| 亚洲成色777777在线观看影院| 国产一区二区三区网站| 性色av香蕉一区二区| 国产成人av一区二区三区| 性生活免费观看视频| 国产精品嫩草影院一区二区| 日韩视频在线观看视频| 91国自产精品中文字幕亚洲| 欧美中文在线视频| 91最新在线免费观看| 91九色在线视频| 国产又爽又黄的激情精品视频| 国自在线精品视频| 亚洲精品国产综合久久| 综合欧美国产视频二区| 精品国产一区二区三区在线观看 | av最新在线观看| 蜜桃久久精品成人无码av| 日韩视频在线观看免费视频| 疯狂试爱三2浴室激情视频| 久久精品一级片| 国产精品久久久久久久免费看| 亚洲熟妇无码av| 免费毛片在线播放免费| 精品国产免费观看| www黄色在线观看| 成人黄色一级视频| 亚洲女人****多毛耸耸8| 欧美精品久久天天躁| 日韩三级成人av网| 91av一区二区三区| 久久av综合网| 亚洲熟女乱综合一区二区| 精品亚洲永久免费| 久久精品1区| 国产美女无遮挡永久免费| 日本伊人午夜精品| 亚洲图片激情小说| 91精品国产麻豆| 色一区av在线| 成人中文字幕+乱码+中文字幕| 日韩av一区二区三区在线| 男人操女人逼免费视频| 香蕉久久久久久久| 亚洲黄色精品视频| 亚洲欧洲日产国产综合网| 精品国产凹凸成av人网站| 久久99久久99精品中文字幕 | 无码精品人妻一区二区三区影院| 久久久综合网站| 欧美日韩国产激情| 久久久人成影片一区二区三区| 久久99久久精品国产| 绯色av蜜臀vs少妇| 黄色av网站免费| 国产欧美日韩综合| 欧美一区二区三区四区在线观看| 国产成人精彩在线视频九色| 亚洲欧美日本国产有色| 26uuu成人| 日本高清www| 亚洲精品国产精| 亚洲国产成人91porn| 国产午夜精品视频| 欧美精品v日韩精品v国产精品| 色网站在线视频| 天天爱天天做天天爽| 国产精品视频一二| 久久精品99久久香蕉国产色戒| 免费看成人片| 国产精品一二三区在线观看| 奇米色一区二区| 欧美又粗又大又爽| 91日韩在线播放| 中日韩精品一区二区三区| 日韩福利视频导航| 日韩一级黄色片| 欧美激情一区二区三区高清视频| 国产免费一区二区视频| 欧美性猛交bbbbb精品| 国产精品国产馆在线真实露脸| 日韩在线不卡视频| gogogo免费高清日本写真| 日本少妇做爰全过程毛片| 91免费观看国产| 国产午夜一区二区| 欧美做暖暖视频| 香蕉影院在线观看| 欧美成人高清视频| 四虎永久在线精品免费网址| 久久久久一区二区| 婷婷丁香花五月天| 《视频一区视频二区| 欧美亚洲视频一区二区| 一女被多男玩喷潮视频| 国产黄色av网站| 日韩欧美亚洲国产另类| 激情六月天婷婷| 国产免费黄色片| 91精品综合久久久久久| 欧美专区一二三| av黄色在线播放| 亚洲国产视频一区二区| 国产精品18毛片一区二区| 国产伦精一区二区三区| 欧美精品videos| 少妇无码av无码专区在线观看| 精品人妻一区二区三区日产乱码 | 欧美综合亚洲图片综合区| 亚洲最大的网站| 精品91久久久| 狠狠操狠狠色综合网| 久久精品人人做人人爽电影| 国产无遮挡又黄又爽又色视频| 亚洲成va人在线观看| 色之综合天天综合色天天棕色| 日日夜夜综合网| 91精品国产色综合久久不卡蜜臀 | 怡红院男人的天堂| 在线观看91视频| 日韩精品一区二区在线视频| 国产美女www爽爽爽视频| 亚洲女人被黑人巨大进入al| 被黑人猛躁10次高潮视频| 成人福利视频网站| 国产美女搞久久| 国产精品乱子伦| 亚洲黄色在线观看| 91亚洲一线产区二线产区| 亚洲精品中文在线| 日韩视频在线播放| 男男视频亚洲欧美| 国产精品欧美激情| 顶臀精品视频www| 福利视频一区二区| 久久香蕉视频网站| 理论电影国产精品| 午夜免费在线观看精品视频| 波多野结衣a v在线| 精品久久久久人成| www.国产在线视频| 国产亚洲欧美一级| 伊人久久大香线蕉成人综合网| 老司机午夜精品99久久| 久久综合伊人77777| 国产视频三区四区| 欧美色图第一页| 国内自拍视频一区| 久久综合色之久久综合| 国产精品国产三级国产专区53| 日日欢夜夜爽一区| 国产91免费视频| 黄频网站在线观看| 成人福利视频网| 天堂一区二区在线| 欧美专区在线视频| 亚洲视频一区在线播放| 亚洲亚裔videos黑人hd| 国产美女永久免费无遮挡| 亚洲精品电影网| 91导航在线观看| 国产成人亚洲精品狼色在线| 国产色视频一区| 日韩精品一级中文字幕精品视频免费观看 | 激情懂色av一区av二区av| 午夜av中文字幕| 欧美日韩免费高清一区色橹橹| 亚洲精品永久视频| 欧美高清dvd| 在线免费观看视频| 亚洲欧美国产精品专区久久| 91精品少妇一区二区三区蜜桃臀| 国产一区二区三区四区福利| 国产熟妇一区二区三区四区| 琪琪亚洲精品午夜在线| 亚洲av无码一区二区三区人 | 日本熟妇人妻中出| 欧美性猛交xxxx免费看久久久| 亚洲精品国产成人av在线| 精品视频一区在线视频| 国产精品一区二区三区精品| 午夜视频www| 最新av网址在线观看| 亚洲国产日日夜夜| 大地资源二中文在线影视观看 | 亚洲欧美综合自拍| 国产成人精品午夜| 国产精品羞羞答答xxdd| 亚洲精品影院| 亚洲一区二区三区中文字幕在线| 午夜激情影院在线观看| 精品国产一区二区国模嫣然| 在线视频你懂得| 亚洲永久在线观看| 国产视频不卡一区| 手机免费看av片| 久久久久国产精品www| 污视频在线免费观看| 国产日产欧美一区二区| 欧美午夜电影一区| 日韩成人免费在线视频| 精品国产中文字幕| 一区二区三区日韩欧美| 摸摸摸bbb毛毛毛片| 国产成人在线一区| 成人少妇影院yyyy| 两女双腿交缠激烈磨豆腐| 亚洲美女激情视频| 国产又粗又猛又爽又黄的| 久久亚洲高清| 色婷婷综合久久久中文字幕| 日韩激情在线播放| 91入口在线观看| 亚洲国产精品精华液网站| 唐朝av高清盛宴| 91精品视频在线看| 亚洲香肠在线观看| 国偷自拍第113页| 视频一区二区三区免费观看| 欧美日韩国产区一| 日本精品999| 青青在线视频免费| 在线日韩精品视频| 国产麻豆午夜三级精品| 99久久99精品| 久久久久国产精品免费网站| 亚洲国产精品精华液2区45| 五月激情四射婷婷| 精品不卡在线| 日韩三级免费观看| 国产精品久久久久久久久久久久久久久久久久 | 337p亚洲精品色噜噜| 日本人妻丰满熟妇久久久久久| 永久免费的av网站| 国产精品国产三级国产aⅴ9色| 五月激情六月综合| 中文天堂在线视频| 亚洲一级片网站| 国产精品中文在线| 亚洲成人午夜电影| 免费无遮挡无码永久在线观看视频| 国产自摸综合网| 91精品国产色综合久久| 国产高清不卡一区二区| 日韩激情综合网| 中文字幕乱码免费| 欧美成人精品在线播放| 亚洲免费观看高清完整版在线观看 | 亚洲欧美小视频| 日本精品一区二区三区视频| 中文字幕av一区二区三区谷原希美| 久久久青草青青国产亚洲免观| 国产精品夜夜夜爽阿娇| 久久久国内精品| 日韩av成人在线| 色婷婷av一区二区三区gif| 日日摸夜夜添夜夜添亚洲女人| 亚洲精品乱码久久久久久蜜桃欧美| 精品乱色一区二区中文字幕| 亚洲日韩欧美视频| 国产精品欧美久久久久无广告| 亚洲综合免费视频| 黄色污在线观看| 亚洲最新在线| 久国内精品在线| 偷窥国产亚洲免费视频| 欧美a一区二区| 91n在线视频| 久久久久久久久久久久久久国产| 69堂成人精品视频免费| y97精品国产97久久久久久| 中文字幕亚洲电影| 日本女优在线视频一区二区| 丁香激情五月少妇| 三上悠亚在线一区二区| 成人免费视频97| 最近2019中文字幕大全第二页| 亚洲成人av电影在线| 久久精品国产亚洲a| 欧美成人一区二区三区四区| 日本一区二区三区在线免费观看| 国产 国语对白 露脸| 亚洲一区美女视频在线观看免费| 久久综合电影一区| 岛国av在线不卡| 久久久欧美精品sm网站| 日本黄色大片视频| 日本一本在线观看| 高清国产在线观看| 国产精品又粗又长| 日韩区国产区| 国产欧美日韩91| 久久久精品国产网站| 日韩国产中文字幕| 欧洲一区二区av| 国产精品国产三级国产aⅴ入口| 久久精品国产网站| 91国产免费视频| 91香蕉一区二区三区在线观看| 熟妇人妻久久中文字幕| 日本美女视频一区| 国产高清www| 中文字幕久久一区| 精品乱色一区二区中文字幕| 91中文字幕在线| 国产精品久久久久久网站|