近日,AI領(lǐng)域再度傳來(lái)重磅消息。新型社交平臺(tái)Soul App的技術(shù)論文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》,成功被人工智能領(lǐng)域頂會(huì)CVPR 2025錄用。這不僅是Soul在技術(shù)研發(fā)上的一次重大突破,更意味著其在A(yíng)I社交領(lǐng)域的探索,正逐步引領(lǐng)行業(yè)走向新的階段。

CVPR作為計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域的標(biāo)桿會(huì)議,一直以高水準(zhǔn)的錄用標(biāo)準(zhǔn)著稱(chēng)。根據(jù)會(huì)議官方統(tǒng)計(jì),本次CVPR 2025會(huì)議總投稿13008篇,錄用2878篇,錄用率僅為22.1%,競(jìng)爭(zhēng)可謂異常激烈。Soul App此次入選,彰顯其技術(shù)實(shí)力得到了學(xué)術(shù)界與行業(yè)的高度認(rèn)可。
事實(shí)上,這并非Soul在A(yíng)I領(lǐng)域的首次亮相。2024 年,Soul多模態(tài)情感識(shí)別研究論文入選ACM國(guó)際多媒體會(huì)議研討會(huì),且在國(guó)際人工智能聯(lián)合會(huì)議組織的挑戰(zhàn)賽中,Soul技術(shù)團(tuán)隊(duì)在半監(jiān)督學(xué)習(xí)賽道拔得頭籌。從2016年上線(xiàn)基于A(yíng)I算法的靈犀引擎,到2023年推出自研語(yǔ)言大模型Soul X,再到如今多模態(tài)端到端大模型的升級(jí),Soul始終堅(jiān)定不移地深耕AI社交領(lǐng)域。
此次被錄用的論文,提出了全新的實(shí)時(shí)音頻驅(qū)動(dòng)人像動(dòng)畫(huà)自回歸框架。該框架創(chuàng)新性地將talking head任務(wù)拆分為面部Motion生成和高效身體Movement生成模塊,不僅大幅提升了視頻生成效率,更顯著優(yōu)化了生成效果的自然度和擬人性。這一成果,是Soul在語(yǔ)音、視覺(jué)、NLP融合方面的一次積極探索,為打造更真實(shí)的AI社交交互體驗(yàn)奠定了基礎(chǔ)。
此前,Soul基于多模態(tài)大模型上線(xiàn)的語(yǔ)音交互功能,收獲了用戶(hù)的廣泛好評(píng)。如今,從語(yǔ)音到視覺(jué)的交互模態(tài)升級(jí),無(wú)疑將為用戶(hù)帶來(lái)更為沉浸式的社交體驗(yàn)。未來(lái),Soul計(jì)劃將這一技術(shù)成果應(yīng)用于實(shí)時(shí)視頻通話(huà)、AI虛擬人情感化陪伴等多元場(chǎng)景,進(jìn)一步提升人機(jī)交互的情感溫度。
Soul在A(yíng)I社交領(lǐng)域的持續(xù)創(chuàng)新,不僅為用戶(hù)帶來(lái)了更優(yōu)質(zhì)的體驗(yàn),也為整個(gè)行業(yè)的發(fā)展指明了方向。在未來(lái),Soul將憑借其在A(yíng)I技術(shù)上的深厚積累,繼續(xù)打造充滿(mǎn)趣味與溫暖的社交空間,推動(dòng)AI社交邁向新的高度。





京公網(wǎng)安備 11011402013531號(hào)