亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

智源發(fā)布FlagEval“百模”評測結(jié)果 丈量模型生態(tài)變局

IP屬地 中國·北京 編輯:顧雨柔 砍柴網(wǎng) 時間:2024-12-19 17:45:12

2024年12月19日,智源研究院發(fā)布并解讀國內(nèi)外100余個開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測結(jié)果。

相較于今年5月的模型能力全方位評估,本次智源評測擴展、豐富、細化了任務(wù)解決能力內(nèi)涵,新增了數(shù)據(jù)處理、高級編程和工具調(diào)用的相關(guān)能力與任務(wù);首次增加了面向真實金融量化交易場景的應(yīng)用能力評估,測量大模型的收益優(yōu)化和性能優(yōu)化等能力;首次探索基于模型辯論的對比評估方式,對模型的邏輯推理、觀點理解、語言表達等核心能力進行深入分析。

智源評測發(fā)現(xiàn),2024年下半年大模型發(fā)展更聚焦綜合能力提升與實際應(yīng)用。多模態(tài)模型發(fā)展迅速,涌現(xiàn)了不少新的廠商與新模型,語言模型發(fā)展相對放緩。模型開源生態(tài)中,除了持續(xù)堅定開源的海內(nèi)外機構(gòu),還出現(xiàn)了新的開源貢獻者。

多種模態(tài)評測綜合榜單 覆蓋文本、語音、圖片、視頻理解與生成

語言模型,針對一般中文場景的開放式問答或者生成任務(wù),模型能力已趨于飽和穩(wěn)定,但是復(fù)雜場景任務(wù)的表現(xiàn),國內(nèi)頭部語言模型仍然與國際一流水平存在顯著差距。

語言模型主觀評測重點考察模型中文能力,結(jié)果顯示字節(jié)跳動Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在語言模型客觀評測中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字節(jié)跳動Doubao-pro-32k-preview位居第三、第四,meta Llama-3.3-70B-Instruct排名前五。

視覺語言多模態(tài)模型,雖然開源模型架構(gòu)趨同(語言塔+視覺塔),但表現(xiàn)不一,其中較好的開源模型在圖文理解任務(wù)上正在縮小與頭部閉源模型的能力差距,而長尾視覺知識與文字識別以及復(fù)雜圖文數(shù)據(jù)分析能力仍有提升空間。評測結(jié)果顯示,OpenAI GPT-4o-2024-11-20與字節(jié)跳動Doubao-Pro-Vision-32k-241028先后領(lǐng)先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro緊隨其后。

文生圖多模態(tài)模型,今年上半年參評的模型普遍無法生成正確的中文文字,但此次參評的頭部模型已經(jīng)具備中文文字生成能力,但整體普遍存在復(fù)雜場景人物變形的情況,針對常識或知識性推理任務(wù),小于3的數(shù)量關(guān)系任務(wù)表現(xiàn)有所提升,大于3的數(shù)量關(guān)系依然無法處理,涉及中國文化和古詩詞理解的場景對于模型而言是不小的挑戰(zhàn)。評測結(jié)果顯示,騰訊Hunyuan Image位列第一,字節(jié)跳動Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可圖次之。

文生視頻多模態(tài)模型,畫質(zhì)進一步提升,動態(tài)性更強,鏡頭語言更豐富,專場更流暢,但普遍存在大幅度動作變形,無法理解物理規(guī)律,物體消失、閃現(xiàn)、穿模的情況。評測結(jié)果顯示,快手可靈1.5(高品質(zhì))、字節(jié)跳動即夢 P2.0 pro、愛詩科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

語音語言模型,得益于文本大模型的進步,能力提升巨大,覆蓋面更全,但在具體任務(wù)上與專家模型還存在一定差距,整體而言,性能好、通用能力強的開源語音語言模型偏少。專項評測結(jié)果顯示,阿里巴巴Qwen2-Audio位居第一,香港中文大學(xué)&微軟WavLLM、清華大學(xué)&字節(jié)跳動Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均進入前五。

四大專項評測榜單 多維度探索模型能力邊界與應(yīng)用潛能

本次評測,智源研究院再次聯(lián)合與海淀區(qū)教師進修學(xué)校新編了K12全學(xué)段、多學(xué)科試卷,進一步考察大模型與人類學(xué)生的能力差異,其中,答案不唯一的主觀題依然由海淀教師親自評卷。得益于多模態(tài)能力的帶動發(fā)展,模型本次K12學(xué)科測驗綜合得分相較于半年前提升了12.86%,但是仍與海淀學(xué)生平均水平存在差距;在英語和歷史文科試題的表現(xiàn)上,已有模型超越了人類考生的平均分;模型普遍存在“文強理弱”的偏科情況。

Flageval大模型角斗場,是智源研究院今年9月推出的面向用戶開放的模型對戰(zhàn)評測服務(wù),以反映用戶對模型的偏好。目前,F(xiàn)lageval覆蓋國內(nèi)外約50款大模型,支持語言問答、多模態(tài)圖文理解、文生圖、文生視頻四大任務(wù)的自定義在線或離線盲測。此次評測,共有29個語言模型、16個圖文問答多模態(tài)模型、7個文生圖模型、14個文生視頻模型參評。評測發(fā)現(xiàn),用戶對模型的響應(yīng)時間有更高要求,對模型輸出的內(nèi)容傾向于更結(jié)構(gòu)化、標準化的格式。

作為模型對戰(zhàn)評測服務(wù)Flageval大模型角斗場的延展,今年10月智源研究院推出了模型辯論平臺Flageval Debate,對模型的邏輯推理、觀點理解以及語言表達等核心能力進行深入評估,以甄別語言模型的能力差異。本次評測發(fā)現(xiàn),大模型普遍缺乏辯論框架意識,不具備對辯題以整體邏輯進行綜合闡述;大模型在辯論中依然存在“幻覺問題”,論據(jù)經(jīng)不起推敲;大模型更擅長反駁,各個模型表現(xiàn)突出的辯論維度趨同,在不同的辯題中,模型表現(xiàn)差距顯著。Flageval Debate評測結(jié)果表明,Anthropic Claude-3-5-sonnet-20241022、零一萬物Yi-Lighting、OpenAI o1-preview-2024-09-12為前三名。

此次評測,智源研究院探索了基于實際應(yīng)用場景的全新方法,通過評測模型的量化代碼實現(xiàn)能力,探索模型在金融量化交易領(lǐng)域的潛在應(yīng)用能力和商業(yè)價值。評測發(fā)現(xiàn),大模型已經(jīng)具備生成有回撤收益的策略代碼的能力,能開發(fā)量化交易典型場景里的代碼;在知識問答方面,模型整體差異較小,整體分數(shù)偏高,但在實際代碼生成任務(wù)上,模型差異較大,整體能力偏弱;頭部模型能力已接近初級量化交易員的水平。金融量化交易評測結(jié)果顯示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest位列前三。

智源評測體系Flageval再迭代 覆蓋全球800+開閉源模型

本次評測依托智源研究院自2023年6月上線的大模型評測平臺Flageval,經(jīng)過數(shù)次迭代,目前已覆蓋全球800多個開閉源模型,包含20多種任務(wù),90多個評測數(shù)據(jù)集,超200萬條評測題目。

在評測方法與工具上,智源研究院聯(lián)合全國10余家高校和機構(gòu)合作共建,探索基于AI的輔助評測模型 FlagJudge和靈活全面的多模態(tài)評測框架FlagevalMM,并構(gòu)建面向大模型新能力的有挑戰(zhàn)的評測集,包括與北京大學(xué)共建的HalluDial幻覺評測集、與北師大共建的CMMU多模態(tài)評測集、多語言跨模態(tài)評測集MG18、復(fù)雜代碼評測集TACO以及長視頻理解評測MLVU等,其中與北京大學(xué)共建的HalluDial是目前全球規(guī)模最大的對話場景下的幻覺評測集,有18000多個輪次對話,和14萬多個回答。

為規(guī)避數(shù)據(jù)集泄露風(fēng)險以及數(shù)據(jù)集飽和度問題,本次評測吸納了近期發(fā)布的數(shù)據(jù)集并持續(xù)動態(tài)更新評測數(shù)據(jù),替換了98%的題目,并提升了題目的難度。

智源研究院副院長兼總工程師林詠華在評測發(fā)布會上表示,F(xiàn)lageval評測體系一直堅守科學(xué)、權(quán)威、公正、開放的準則,通過技術(shù)方法平臺持續(xù)創(chuàng)新,打造丈量模型能力的標尺,為大模型技術(shù)生態(tài)發(fā)展提供洞察。2025年,F(xiàn)lageval評測體系的發(fā)展將進一步探索動態(tài)評測與多任務(wù)能力評估體系,以評測為標尺感知大模型的發(fā)展趨勢。

免責(zé)聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

全站最新
日本高清免费不卡视频| 91免费视频黄| 日本丰满少妇做爰爽爽| 欧美精品一区二区久久久| 爱情岛论坛vip永久入口| 久久综合av免费| 亚洲精品免费在线视频| av一级在线观看| 亚洲国产成人91精品| www.51色.com| 亚洲丝袜自拍清纯另类| 一区二区三区欧美成人| 蜜桃av一区二区| 国产97在线视频| 日本少妇激情视频| 亚洲日本aⅴ片在线观看香蕉| 中文字幕成人在线视频| 激情深爱一区二区| 成人免费网站在线看| 亚洲精品一区二区二区| 中文字幕国产亚洲2019| 国产精品久久国产精麻豆96堂| 91国产丝袜在线播放| 无码aⅴ精品一区二区三区浪潮| 91美女在线观看| 美女三级99| 老司机精品视频在线| 国产精品视频在线观看| 一级特黄aa大片| 欧美大片网站在线观看 | xxxxxx黄色| 亚洲午夜免费电影| 国产成人精品视频免费看| 成人中文字幕合集| 欧美日韩另类丝袜其他| 狠狠色伊人亚洲综合成人| 亚洲最大av在线| 特级丰满少妇一级aaaa爱毛片| 欧美在线影院在线视频| 一区二区小视频| 欧美黄色www| 国产无遮挡又黄又爽又色视频| 久久精品国产免费观看| 福利一区二区三区四区| 伊人亚洲福利一区二区三区| 欧美视频www| 亚洲欧洲国产精品| mm131丰满少妇人体欣赏图| 在线观看欧美精品| 国产精品久久久久久亚洲av| 色婷婷av一区二区三区gif | 亚洲一级黄色av| 免费在线观看一级片| 国产亚洲精品久久久久久牛牛| 999精品在线视频| 亚洲精品在线91| 免费在线一级片| 欧美成年人在线观看| 欧美黄色一级大片| 国产69精品久久久久久| 亚洲精品久久久久avwww潮水| 国产精品一区专区欧美日韩| 黄色一级a毛片| 成人免费视频网站入口| 国产精品一区二区在线播放| 日韩黄色影视| 中文字幕va一区二区三区| 日韩精品xxxx| 欧美视频不卡中文| 国产美女视频免费观看下载软件| 欧美在线免费观看视频| 国产ts丝袜人妖系列视频 | 日韩1区2区3区| 国产日韩精品久久| www.欧美亚洲| 免费成人在线视频网站| 午夜国产不卡在线观看视频| 青青草视频网站| 日韩精品日韩在线观看| 影音先锋亚洲天堂| 国产精品91在线| 成人爽a毛片一区二区| 国产精品尤物福利片在线观看| 麻豆精品视频在线观看免费| 男女啪啪的视频| 亚洲国产日产av| 久久久午夜精品福利内容| 欧美精品一区在线观看| av网站中文字幕| 国产在线观看精品一区二区三区| www.亚洲在线| 91小视频在线播放| 亚洲欧美日韩国产精品| 国产成人三级一区二区在线观看一| 国产精品免费区二区三区观看| 91首页免费视频| 日本不卡一区在线| 日韩精品视频免费| 97人人爽人人爽人人爽| 国产91精品一区二区绿帽| 久久综合九色欧美综合狠狠| 亚洲综合激情视频| 精品一区二区电影| 精品国产伦一区二区三区| yellow视频在线观看一区二区 | 久久免费小视频| 日韩av片免费在线观看| 日韩中文字幕不卡| 欧美精品一区二区三区三州| 在线播放欧美女士性生活| 亚欧视频在线观看| wwwxx欧美| 亚洲精品国产精品乱码不99| 亚洲午夜久久久久久久久红桃| 精品国产在天天线2019| 一级特黄aaa大片在线观看| 日本成人看片网址| 亚洲免费在线观看视频| 91激情视频在线观看| 久久久精品影院| 天天干天天爱天天操| 亚洲精品蜜桃久久久久久| 91精品国产综合久久久久久久| 日韩av在线播| 鲁丝一区鲁丝二区鲁丝三区| 精品久久久久久亚洲精品| 国产在线欧美在线| 国产欧美精品一区二区三区| 亚洲最大成人网4388xx| 欧美xxxx×黑人性爽| 久久久久久久久久久91| 成人97人人超碰人人99| av无码一区二区三区| 91高清视频免费观看| 99热99精品| 成人影视免费观看| 国产精品黄视频| 中文字幕一区二区三区不卡| 又色又爽的视频| 91精品视频一区| 国产清纯美女被跳蛋高潮一区二区久久w| 国产精品久久久久久在线观看| 91禁国产网站| 国产精品三级电影| 日韩欧美中文字幕视频| 国产三区精品| 欧美日韩午夜在线| 成人久久久精品国产乱码一区二区| 欧美成人三级在线视频| 国产午夜一区二区| 国产xxx精品视频大全| 中文字幕日韩久久| 国产91|九色| 中文字幕一区二区三区色视频| 午夜写真片福利电影网| 日本精品一区二区| 精品国产91洋老外米糕| 麻豆精品国产91久久久久久| 91av免费观看| 国产精品久久久久77777| 国产亚洲欧美日韩日本| 欧美成人一区二区三区高清| 欧美日韩一区在线播放| 精品成人在线观看| 激情综合色综合久久综合| 特级西西人体wwwww| 7777精品久久久大香线蕉小说 | 欧美日韩精品免费观看视频 | 亚洲色图一区二区三区| 西西44rtwww国产精品| 日韩欧美视频免费在线观看| 在线看欧美日韩| ww久久中文字幕| 国产三级aaa| αv一区二区三区| 日韩欧美一区中文| 狠狠色狠狠色综合| 美国精品一区二区| 亚洲精品久久区二区三区蜜桃臀| 日韩精品在线播放| 成人av网站在线观看免费| 玖玖爱这里只有精品| 日本丰满少妇黄大片在线观看| 亚洲精品国产电影| 99re成人精品视频| 美女爽到高潮91| 国产成人精品999| 欧美性xxxxxxx| 国产精品嫩草影院久久久| 日韩国产在线一区| 亚洲怡红院在线观看| 麻豆视频观看网址久久| 欧美日韩一卡二卡| 久久久综合av| 粉嫩av免费一区二区三区| 日本在线观看一区二区| 韩国日本在线视频| 久久久久人妻一区精品色| 精品乱子伦一区二区| 天天操天天干天天插| 国产精品自拍电影| 亚洲产国偷v产偷v自拍涩爱| 亚洲一级在线观看| 欧美亚洲在线播放| 日韩视频在线观看视频| wwwwww日本| 久久99精品久久久久久久久久久久| 亚洲精品国产suv一区| 国产欧美久久久精品免费| 亚洲午夜在线视频| 国产亚洲a∨片在线观看| 97国产在线播放| 国产高清精品久久久久| 国产精品福利无圣光在线一区| 国产人妻精品一区二区三区不卡| 国产欧美日韩另类一区| 亚洲国产另类 国产精品国产免费| 国产二区不卡| 男人日女人逼逼| 久久久久国产精品无码免费看| 国产做受高潮漫动| 久久影院视频免费| 欧美日韩精品欧美日韩精品一综合| 日韩免费性生活视频播放| 日韩少妇与小伙激情| 欧美人成在线观看| 国产一区二区在线视频观看| 国产精品卡一卡二卡三| 欧洲视频一区二区| 成人深夜直播免费观看| 77777少妇光屁股久久一区| 黄色a级片免费| 日韩在线播放中文字幕| 欧美性videos高清精品| 精品国产一区二区三区四区vr| 日韩不卡高清视频| 亚洲欧美三级在线| 亚洲色图 在线视频| wwwwww日本| 蜜桃视频第一区免费观看| 欧美午夜宅男影院| 91黄色免费网站| 国产成人av在线播放| 污污视频网站免费观看| 日韩乱码人妻无码中文字幕| 日韩一区二区视频在线| 免费成人在线观看| 51精品久久久久久久蜜臀| 激情伊人五月天| 深爱五月激情五月| 亚洲色图.com| 91精品在线看| 久久r这里只有精品| 免费视频一区二区| 国产精品久久久一区麻豆最新章节| 欧美激情亚洲激情| 香港日本韩国三级网站| 色婷婷av一区二区三区之e本道| 一区二区三区视频在线观看| 欧美黑人巨大xxx极品| 在线观看成人av电影| 日韩av男人天堂| 日韩在线欧美在线| 午夜剧场免费在线观看| 日韩精品一区二区三区中文精品| 日本二区三区视频| 在线观看91av| 中文字幕在线播放视频| 综合中文字幕亚洲| 日韩欧美精品网站| 2019亚洲男人天堂| 99久久99久久精品免费看小说.| 国产精品盗摄一区二区三区| 久久久久国产精品免费网站| 韩国日本在线视频| 国产在线观看黄色| 国产精品网站在线播放| 欧美在线播放一区| av中文字幕免费在线观看| 欧美日韩国产大片| 久久久亚洲精品无码| 日韩中文欧美在线| 婷婷亚洲久悠悠色悠在线播放| 欧美激情a∨在线视频播放| 91视频免费入口| 中文字幕av不卡| 国产成人亚洲欧美| 国产又大又黑又粗免费视频| 一本到高清视频免费精品| 成人羞羞视频免费| 无码人妻久久一区二区三区| 色老综合老女人久久久| 自拍偷拍亚洲色图欧美| 国内精品伊人久久久久av影院 | 国产精品美女久久久久久久久久久 | 性高潮久久久久久| 久久精品人人做人人爽97| 欧美激情专区| 成人免费视频caoporn| 亚洲精品日韩在线观看| 成人看片黄a免费看在线| 国产999精品| 91视频青青草| 91国在线观看| 9久久婷婷国产综合精品性色| 91丝袜国产在线播放| 国产青春久久久国产毛片| www.黄色一片| 亚洲欧美日本韩国| 国产精品久久久久久av福利软件 | 青娱乐在线免费视频| 欧美日韩一区 二区 三区 久久精品| 午夜免费看视频| 欧美日韩中文字幕精品| 无码播放一区二区三区| 成人中文字幕合集| 色综合电影网| 26uuu精品一区二区三区四区在线 26uuu精品一区二区在线观看 | 秋霞av一区二区三区| 热re91久久精品国99热蜜臀| 国产一级在线免费观看| 91国产视频在线观看| 日本香蕉视频在线观看| 国产精品福利一区| 99精品999| 亚洲综合自拍偷拍| 色噜噜狠狠一区二区三区果冻| 在线观看国产三级| 欧美伊人精品成人久久综合97| 亚洲成人精品电影在线观看| 天天综合网久久综合网| 欧美色偷偷大香| 免费看黄在线看| 亚洲欧美在线aaa| 国产日韩一区二区在线| 在线亚洲欧美专区二区| 国产成人在线综合| 国产精品66部| 在线国产99| 一本一道波多野结衣一区二区| 91丨porny丨对白| 久久亚洲综合国产精品99麻豆精品福利 | 99视频免费播放| 国产精品三级av在线播放| 久久精品影视大全| 亚洲卡通动漫在线| 妞干网在线播放| 亚洲综合免费观看高清完整版 | 国产成人99久久亚洲综合精品| 国产精品一区二区免费| 久久se精品一区精品二区| 精品欧美一区二区三区久久久| 国产九九视频一区二区三区| 已婚少妇美妙人妻系列| 欧美www视频| 午夜剧场高清版免费观看| 亚洲美女视频一区| 日本va中文字幕| 在线观看一区不卡| 久久久久久欧美精品se一二三四| 孩xxxx性bbbb欧美| 国产精品资源网| 久久久久天天天天| 1024国产精品| 一本色道久久88| 78m国产成人精品视频| 亚洲婷婷在线视频| 国内精品国产成人国产三级| 国产视频一视频二| 中文日韩电影网站| aaa欧美色吧激情视频| 日本少妇毛茸茸| 欧美成人在线免费视频| 国产一区二区调教| 不卡的在线视频| 欧美日韩五月天| 亚洲天堂一二三| 国产98在线|日韩| 亚洲欧美韩国综合色| 四川一级毛毛片| 欧美与欧洲交xxxx免费观看| 成人一区二区三区视频| 在线国产精品网| 午夜欧美一区二区三区在线播放 | 奇米影视第四色777| 国产欧美日韩精品在线观看 | 久久综合狠狠综合久久激情| 疯狂试爱三2浴室激情视频| 国内成人精品一区| 国产女人18水真多18精品一级做| 久久香蕉精品视频| 欧美主播一区二区三区美女 久久精品人 | 91麻豆免费视频网站| 国内不卡一区二区三区| 色综合av在线| 国产情侣自拍小视频| 日韩精品综合在线| 国产亚洲精品久久久久动| 蜜臀久久99精品久久久| 亚洲小视频网站| 亚洲va电影大全| 欧美性猛交xxxx富婆弯腰| 影音先锋亚洲天堂| 日韩aⅴ视频一区二区三区| 欧美日韩黄色一区二区| 亚洲精品久久久久久久久久| 日日干夜夜操s8| 国产精品成人aaaaa网站| 国产精品久久久久7777按摩| 国产精品自偷自拍|