亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

7B模型“情商”比肩GPT-4o,騰訊突破開放域RL難題,得分直翻5倍

IP屬地 中國·北京 編輯:顧青青 量子位 時間:2025-07-18 18:27:29

騰訊混元AI數(shù)字人團隊 投稿
量子位 | 公眾號 QbitAI

在沒有標準答案的開放式對話中,RL該怎么做?

多輪對話是大模型最典型的開放任務(wù):高頻、多輪、強情境依賴,且“好回復(fù)”因人而異。

然而,當用RL去優(yōu)化大模型在真實交互中的“情商”時,RLVR一度陷入“三大困境”:

環(huán)境困境真實對話是多輪、動態(tài)且高度個性化的。如何構(gòu)建一個既真實、多樣,又可供模型自由探索(rollout)的交互環(huán)境?獎勵困境“高情商”沒有標準答案。如何將用戶主觀滿意度轉(zhuǎn)化為穩(wěn)定、可優(yōu)化的長期獎勵?訓(xùn)練困境如何在LLM上實現(xiàn)穩(wěn)定、高效的多輪在線RL訓(xùn)練?

騰訊混元數(shù)字人團隊提出的RLVER(Reinforcement Learning with Verifiable Emotion Rewawards)框架指出了一個方向:

讓一個穩(wěn)定、高質(zhì)量的用戶模擬器,同時扮演“交互環(huán)境”和“獎勵來源”的雙重角色,成功將RLVR引入多輪對話,為大模型在開放域RL上訓(xùn)練提供了有效、可擴展的新解法。

經(jīng)過RLVER訓(xùn)練的Qwen2.5-7B模型,在情感對話基準Sentient-Benchmark上的得分從13.3躍升至79.2,表現(xiàn)與GPT-4o、Gemini 2.5 Pro等頂級商用模型相當。



模型現(xiàn)已開源,鏈接可見文末。

RLVER:為“情商”這一開放問題,構(gòu)建有效的RL閉環(huán)

傳統(tǒng)對話優(yōu)化,要么依賴靜態(tài)數(shù)據(jù),要么依賴昂貴的人工標注。

而RLVER提出了一種新路徑:以“環(huán)境+獎勵”一體化的用戶模擬器為核心,巧妙地解決了上述三大挑戰(zhàn)。



模擬器即環(huán)境:創(chuàng)造一個“活”的對話世界

RLVER團隊認識到,真正的“高情商”是千人千面的,因此,RLVER構(gòu)建的用戶模擬器不只是一個簡單的對話機器人。

它擁有多樣的用戶畫像和用戶交互場景(不同的用戶性格、對話背景、潛在需求),能模擬出海量真實、多變的用戶。

每個用戶獨立、動態(tài)地和模型交互,根據(jù)模型的回復(fù)實時更新自身的情緒狀態(tài),并給出個性化的回復(fù)。

這為模型提供了一個可以無限探索、充滿真實感和多樣性的在線學(xué)習(xí)環(huán)境,同時避免reward hacking。

模擬器即獎勵:一個可信的“用戶感受評分系統(tǒng)”

“情商”的評價,本質(zhì)是用戶主觀體驗,但這種主觀體驗要如何變成穩(wěn)定、可優(yōu)化的獎勵?

RLVER基于SAGE框架,通過顯式、可復(fù)現(xiàn)的推理過程,模擬用戶在每一輪對話后的情緒變化。

對話結(jié)束后,累積的“心情總分”便成為獎勵信號,直接驅(qū)動PPO/GRPO算法優(yōu)化模型。

這一設(shè)計擺脫了“黑盒打分器”,將“用戶滿意度”顯式建模成邏輯可控的獎勵函數(shù),使訓(xùn)練過程更加穩(wěn)定、透明、可信。

全局獎勵優(yōu)化:從單輪反饋到“全局情緒軌跡”優(yōu)化

不同于逐句反饋的方式,RLVER關(guān)注整個對話的情緒變化趨勢,僅以最終“情緒總分”作為獎勵,引導(dǎo)模型優(yōu)化長周期策略。

只有真正理解用戶意圖、維持用戶情緒長期走高,模型才能獲得更高的總獎勵。這鼓勵模型跳出局部最優(yōu),學(xué)會更具延展性和策略性的社交對話行為。

核心成果:7B模型比肩“巨頭旗艦”



經(jīng)過RLVER訓(xùn)練的Qwen2.5-7B模型,在情感對話基準Sentient-Benchmark上的得分從13.3躍升至79.2,表現(xiàn)與GPT-4o、Gemini 2.5 Pro等頂級商用模型相當。

更重要的是,模型在數(shù)學(xué)、代碼等通用能力上幾乎沒有衰退,成功避免了“災(zāi)難性遺忘”。



此外,RLVER對模型行為風(fēng)格的影響也非常顯著:模型從“解題型風(fēng)格”遷移到“情緒型風(fēng)格”,思路不再是“問題怎么解決”,而是“我能理解你的感受”。

深度洞察:從思考到行動

在RLVER的訓(xùn)練實踐過程中,研究團隊還得到了一些充滿啟發(fā)性的發(fā)現(xiàn)。

洞察一:“思考式”v.s.“反應(yīng)式”模型——通往“共情”的兩種路徑



RLVER引入了顯式的think-then-say提示模板,要求模型在每輪回復(fù)前先進行情緒分析、策略推理,再生成最終回應(yīng)。通過對比帶/不帶“思考”的模型,研究團隊觀察到兩條通向“共情”的截然不同路徑:

“思考式模型”:走向“深度理解”

顯式思考鏈促使模型在生成前進行推理,顯著提升兩項核心能力:

問題洞察力:識別用戶情緒背后的真實動因與潛在需求;共情表達與驗證:精準捕捉并反饋深層情緒,讓用戶“感到被理解”。

這類模型更像是“靈魂知己”:擅長安靜傾聽、準確回應(yīng),用語言建立深層情感連接。

“反應(yīng)式模型”:走向“快速行動”

相比之下,未引導(dǎo)思考的模型直接生成回應(yīng),盡管在洞察和共情維度上略遜一籌,卻自發(fā)發(fā)展出“行動導(dǎo)向”的補償策略:

快速判斷用戶困境,提供具體、可執(zhí)行的建議,或個性化行動邀請;以“實用性”彌補情感理解上的不足,形成“行動派伙伴”的角色定位。

這一對比揭示了在開放復(fù)雜任務(wù)下RL訓(xùn)練的有趣現(xiàn)象:模型在能力受限時,會自發(fā)尋找策略性的“補償路徑”,而RLVER提供的多樣化、多策略兼容的訓(xùn)練環(huán)境,正是促成這種多樣行為演化的關(guān)鍵土壤。

洞察二:PPO vs. GRPO——穩(wěn)定增長還是能力突破?



在優(yōu)化算法上,RLVER團隊也得出了實用結(jié)論:

GRPO:傾向于帶來更穩(wěn)定、均衡的能力增長。PPO:則更能將模型在特定維度(如共情深度、核心洞察)的能力推向更高上限。

這引出一個有趣的策略思考:對于“情商”這類多維度的復(fù)雜能力,當模型各方面都達到“合格線”后,是繼續(xù)做“六邊形戰(zhàn)士”,還是集中打造一兩個“殺手锏”維度的長板?

在文章的實驗結(jié)果中,后者帶來了更優(yōu)的綜合表現(xiàn)。

洞察三:環(huán)境和獎勵的風(fēng)格影響——嚴師未必出高徒

在RLVER框架中,用戶模擬器同時扮演“訓(xùn)練環(huán)境”與“獎勵模型”的雙重角色。因此,它的風(fēng)格——即“用戶接受度”與反饋方式——對模型學(xué)習(xí)路徑具有直接影響。

一個自然的追問是:要求更嚴格的用戶,會訓(xùn)練出更強的模型嗎?

實驗給出的答案是:并非越難越好。

RLVER團隊構(gòu)建了兩類用戶模擬器:

Vanilla版:情緒外露、反饋積極,接受度較高;Challenging版:情緒內(nèi)斂、反饋克制,對回應(yīng)質(zhì)量要求極高。

在相同初始模型下分別進行訓(xùn)練與測試后,RLVER團隊發(fā)現(xiàn):



太難的環(huán)境,不利于模型早期成長

雖然Challenging模擬器在設(shè)計上更真實,但它反饋含蓄、容錯率低,使得模型在訓(xùn)練早期難以試錯探索多樣策略,也難以獲得正向激勵。這會導(dǎo)致RL訓(xùn)練陷入“無反饋→無學(xué)習(xí)→崩潰”的惡性循環(huán)。

相反,Vanilla模擬器的反饋機制相對包容和積極,更利于模型在訓(xùn)練初期的策略探索與能力積累,形成穩(wěn)定的共情表達習(xí)慣。

策略啟示:在強化學(xué)習(xí)優(yōu)化開放任務(wù)(如“情商”)時,訓(xùn)練環(huán)境不應(yīng)一味“設(shè)難”,而應(yīng)強調(diào)“成長曲線”設(shè)計?!皣缼煶龈咄健钡那疤?,是學(xué)生已經(jīng)能聽懂教誨。

而在能力尚淺的早期,溫和、可學(xué)的“陪練型用戶”反而更能助力模型成長為真正的共情者



帶思考的模型,更“抗打擊”

一個附加的有趣發(fā)現(xiàn)是:在Challenging環(huán)境下,帶有顯式“思考結(jié)構(gòu)”的模型顯著更魯棒:

雖然整體分數(shù)有所下降,但仍保持在可用水平;而不帶思考結(jié)構(gòu)的模型則幾乎完全崩潰,得分低至19.8。

這表明,顯式推理能力能夠緩沖稀疏獎勵帶來的訓(xùn)練不穩(wěn)定性。即使缺乏清晰反饋,模型也可以借助“內(nèi)在分析”挖掘用戶需求信號,從而保持一定的適應(yīng)性。

前期工作:AI也能當情感大師?騰訊發(fā)布最新AI社交智能榜單,最新版GPT-4o拿下第一
論文地址:https://arxiv.org/abs/2507.03112
項目代碼:https://github.com/Tencent/digitalhuman/tree/main/RLVER
開源模型:https://huggingface.co/RLVER

免責(zé)聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

全站最新
国产精品久久一区| 国产经典欧美精品| 色丁香婷婷综合久久| 日韩激情av在线| 久久最新视频| 青春草免费视频| 欧美老熟妇乱大交xxxxx| 18禁免费无码无遮挡不卡网站| av一区二区三区免费| 亚洲精品电影在线| 日韩网站在线看片你懂的| 亚洲福利在线看| 亚洲一二三四区| 91片黄在线观看| 精品无码一区二区三区的天堂| 五月天六月丁香| 日本人69视频| 国产三级精品三级观看| 天堂成人国产精品一区| 亚洲欧洲日韩一区二区三区| 精品国产999| 欧美性猛交xxxx| 成人在线观看高清| 最近中文字幕在线mv视频在线| 右手影院亚洲欧美| 精品少妇人妻av一区二区| 亚洲国产精品美女| 国产调教视频一区| 日本中文字幕在线观看视频| 久久亚洲精品石原莉奈 | 欧美精品一区二区不卡 | 日韩av不卡在线观看| 免费看国产精品一二区视频| 精品视频在线免费| 男人天堂网在线视频| 亚洲视频在线观看一区二区三区| 欧美成人免费全部| 国产欧美一区二区在线| 日韩经典在线观看| 无码人妻精品一区二区蜜桃百度| 一区二区欧美激情| 久久综合色天天久久综合图片| 亚洲欧美精品久久| 亚洲第一导航| 亚洲色图偷窥自拍| 久久这里都是精品| 日本一级淫片免费放| 欧洲金发美女大战黑人| 久久视频在线免费观看| 国产精品久久久久影院| 一区二区三区麻豆| 午夜宅男在线视频| 成人午夜在线影院| 91麻豆精品国产自产在线观看一区 | 黄色av一级片| 成人小视频在线看| 国产精品www色诱视频| 色综合天天综合给合国产| 午夜小视频在线播放| 国产精品边吃奶边做爽| 美脚丝袜一区二区三区在线观看| 亚洲国内高清视频| 久久婷婷国产综合精品青草| 国产精品男女视频| 黄色国产小视频| 国产精品视频在线观看| 欧美日韩精品综合在线| 国产精品一卡二卡| 国产第一页第二页| 日韩a在线播放| 国产日韩综合一区二区性色av| 欧美日韩www| 大美女一区二区三区| 国产五月天婷婷| 18禁男女爽爽爽午夜网站免费| 国产成人精品午夜| 日韩一区和二区| 成人激情免费电影网址| 国语对白永久免费| 日日夜夜精品视频免费观看| 国产主播一区二区三区四区| 亚洲深夜福利网站| 一区二区三区免费观看| 久久精品一本| 人与动物性xxxx| 免费无遮挡无码永久视频| 国产精品国产三级国产专播精品人 | 久久亚洲a v| 国产91久久婷婷一区二区| 91精品国产91久久综合桃花 | 在线播放国产精品二区一二区四区| 国产精品18久久久久| 久草手机在线视频| 99riav国产精品视频| 污视频在线免费观看一区二区三区| 另类美女黄大片| 在线看国产一区| 粉嫩在线一区二区三区视频| 中文字幕视频在线播放| 极品粉嫩小仙女高潮喷水久久| av磁力番号网| 国产精品69久久久久| 亚洲国产天堂久久综合网| 亚洲少妇30p| 麻豆久久久久久久| 中文字幕一区二区人妻电影| 人妻换人妻a片爽麻豆| 五月天综合婷婷| 国产精品中文字幕在线| 国产一区二区三区在线视频 | 亚洲深夜福利在线| 高跟丝袜一区二区三区| 成人免费va视频| 一区二区www| 亚洲波多野结衣| 久久久久久综合网| 久久久久久久免费视频| 亚洲伊人一本大道中文字幕| 超碰97人人做人人爱少妇| 在线播放亚洲一区| 国产精品国产三级国产aⅴ中文| 韩国av免费在线| 国产一级一级片| a天堂视频在线观看| 91网站在线观看免费| caoporen国产精品| 国内精品久久久久影院优| 精品国产3级a| 欧美性xxxxhd| 国产日韩欧美亚洲| 九九九久久久精品| 国产日韩欧美视频在线观看| 精品午夜福利在线观看| 久久精品无码一区二区三区毛片| 天天做天天躁天天躁| 精品999在线观看| 人体精品一二三区| 中文字幕在线观看日韩| 在线观看av一区二区| 中文字幕av在线一区二区三区| 久久99日本精品| 国产xxxx在线观看| 日韩精品手机在线| 国产免费嫩草影院| 亚洲一区二区三区黄色| 色综合av综合无码综合网站| 老司机av福利| 精品久久久久久中文字幕动漫| 日本久久久久久久久| 久久久99免费视频| 亚洲精品自拍偷拍| 欧美一区二区三区免费| 欧美日韩国产麻豆| 国产精品免费aⅴ片在线观看| 国产99久久久国产精品| 蜜桃av一区二区在线观看 | 国产精品女上位| 成人中文字幕电影| 日韩在线一二三区| 国产 欧美 自拍| 中文字幕在线播放不卡| 日韩三级小视频| 免费黄色激情视频| 中文字幕国产综合| 国产原创剧情av| 超碰在线免费av| 免费黄色一级网站| 久久艹国产精品| 亚洲一二三区精品| 欧美久久久久久久| 国产精品久久久久久久久久久久冷 | 国产精品一区二区久久久| 国产91精品久久久久久久| 精品少妇v888av| 久久精品视频导航| 日韩中文字幕国产| 一区二区日韩精品| 尤物九九久久国产精品的特点 | 亚洲一区自拍偷拍| 国产精品偷伦一区二区| 欧美精品在线一区二区| 91成人在线观看喷潮| 欧美日韩亚洲网| 精品国产户外野外| 亚洲成a人片在线不卡一二三区| 成人欧美一区二区三区白人 | 国产免费一区二区三区| 91嫩草免费看| 69174成人网| av日韩免费电影| caoporn国产精品免费公开| 97在线中文字幕| 国产精品成人一区二区三区| 国产精品对白一区二区三区| 国产伦精品一区二区三区高清版 | 欧美成人h版在线观看| 日韩视频精品在线| 欧美成人精品影院| 久久免费福利视频| 97成人精品视频在线观看| 欧美亚洲成人网| 欧美一区二区三区……| 国产精品久久久久7777婷婷| 成人欧美一区二区三区在线| 成人欧美一区二区| 欧美日韩精品一区| 影音先锋在线亚洲| 日韩精品视频在线观看视频 | 国产精品人成电影| 成人精品一区二区三区电影黑人| 国产精品视频白浆免费视频| 亚洲自拍另类欧美丝袜| 精品日韩欧美| 日韩中文一区| 黄色一级片国产| 成年人免费在线播放| 99中文字幕在线| 91av在线免费| 欧美成人精品欧美一级私黄| 久久国产视频精品| www.热久久| 日韩精品福利网| 成人一区二区在线观看| 国产精品嫩草久久久久| 亚洲成av人片| 欧美丰满少妇xxxxx高潮对白| 亚洲成人999| 理论片在线不卡免费观看| 日韩av男人的天堂| 国产欧美日韩伦理| 日本不卡一区二区三区四区| 国产精品99久久免费黑人人妻| 欧美熟妇另类久久久久久多毛| 欧美bbbbb性bbbbb视频| 精品无码免费视频| wwwav网站| 国产麻豆视频一区二区| 国产精品天天摸av网| 欧美丝袜一区二区三区| 亚洲精品一区二区三区福利| 久久久精品久久| 国产日韩欧美成人| 亚洲第一导航| 中文字幕在线观看第三页| 法国伦理少妇愉情| 成年人午夜视频| 精品乱子伦一区二区| 国产精品一区二区三区99| 国产精品美女视频| 欧美性色欧美a在线播放| 亚洲人成网站色ww在线| 日本亚洲欧美三级| 美女被啪啪一区二区| 日本精品久久久久中文字幕| 国产男女猛烈无遮挡a片漫画| 国产无遮挡免费视频| 六月婷婷综合网| 91香蕉视频污在线| 欧美性猛交xxxx富婆| 亚洲男人天堂2019| 国产福利视频一区| 亚洲高清视频一区| caoporm在线视频| 午夜爽爽爽男女免费观看| 国产精品伦一区二区三区| 国产精品综合二区| 亚洲视频精选在线| 日韩一区二区在线看| 久久久久久国产精品| 精品国产第一页| 看欧美ab黄色大片视频免费| 99久久99久久精品免费看小说. | 午夜精品一区二区三区av| 国产伦视频一区二区三区| 能在线观看的av| 美国一级黄色录像| 日本波多野结衣在线| 亚洲国产精品黑人久久久| 欧美老年两性高潮| 国语自产在线不卡| 视频一区视频二区视频| 久久久久亚洲av无码麻豆| 日韩av一二三区| 麻豆精品一区二区综合av| 亚洲一区二区在线观看视频| 亚洲免费视频观看| 97se国产在线视频| 亚洲高清在线免费观看| a在线视频播放观看免费观看| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的| 久久先锋资源网| 日韩欧美在线不卡| 国产不卡视频在线| 久久久久久www| 日韩在线视频免费看| 人妻视频一区二区三区| 国产精品国产三级国产aⅴ中文| 亚洲精品www| 91影视免费在线观看| 欧美日韩精品在线一区二区 | 激情综合色综合久久| 一本大道av一区二区在线播放| 久久高清视频免费| 亚洲欧美国产一区二区| 中文成人无字幕乱码精品区| 国产乱淫a∨片免费观看| 国产婷婷色一区二区三区四区| 精品福利一区二区三区 | 免费涩涩18网站入口| 国产大片aaa| 国产精品1区二区.| 欧美日本高清视频在线观看| 国产91在线高潮白浆在线观看| 亚洲精品久久久久久久蜜桃臀| 老司机成人免费视频| 老司机免费视频一区二区三区| 日韩欧美在线网址 | 欧美精品一区二区三| 亚洲在线免费观看| 欧美又黄又嫩大片a级| 91午夜交换视频| 中文字幕在线不卡视频| 一区二区在线免费视频| 欧美日韩精品久久| 婷婷色一区二区三区| 日韩精品亚洲一区二区三区免费| 欧美日韩亚洲91| 欧美在线一级视频| 国产精品免费成人| 91麻豆精品在线| 中文在线资源观看网站视频免费不卡 | 日韩在线视频国产| 性欧美精品一区二区三区在线播放 | 成人免费午夜电影| 在线观看中文av| 国产肥老妇视频| 午夜精彩视频在线观看不卡| 午夜精品美女自拍福到在线| 欧美一级免费播放| 国产三级精品三级在线观看| 亚洲国产高清在线观看视频| 日韩亚洲综合在线| av动漫在线免费观看| 日本少妇全体裸体洗澡| 久久久亚洲高清| 日韩中文视频免费在线观看| 日韩一级特黄毛片| 国产91精品一区| 国产精品无圣光一区二区| 欧美成人小视频| 黄色网在线视频| 亚洲欧美综合自拍| 亚洲视频综合在线| 97精品在线视频| 亚洲欧美激情网| 亚洲奶汁xxxx哺乳期| 欧洲av在线精品| 91久久精品www人人做人人爽 | 久久国产精品网| 无码人妻丰满熟妇奶水区码| 亚洲免费看黄网站| 欧美一区视频在线| 国产精品久久久久久久99| 熟妇高潮一区二区三区| 欧美精品粉嫩高潮一区二区| 精品久久久久久综合日本| 91大神福利视频| 久久久午夜精品| 欧美激情小视频| av中文字幕网址| 视频一区中文字幕| 欧美一级高清片| 亚洲成人在线视频网站| 久久视频免费在线观看| 亚洲男女毛片无遮挡| 国产91亚洲精品| 国产精品第七页| 国产高清视频一区| 日韩亚洲综合在线| 我要看一级黄色大片| 天天摸天天干天天操| 精品国产一区二区三区av性色 | 51ⅴ精品国产91久久久久久| 国内精品国产三级国产aⅴ久| 美洲天堂一区二卡三卡四卡视频 | 午夜一区二区三区视频| 91最新国产视频| 波多野结衣一二三四区| 国产清纯白嫩初高生在线观看91| 91国内产香蕉| 波多野结衣三级视频| 国产精品一区二区x88av| 日韩专区中文字幕| 亚洲一级片网站| 久久草av在线| 最近2019中文字幕一页二页| 日韩av片网站| 韩国午夜理伦三级不卡影院| 中文字幕亚洲二区| 日本中文字幕精品—区二区| 久久99精品久久久久久久久久久久| 国产一区二区三区网站| 污污视频网站免费观看| 久久电影网站中文字幕| 久久精品国产精品亚洲| 永久免费黄色片| 91在线观看下载| 国产精品久久一| 欧美片一区二区| 欧美性xxxx在线播放|