2025年12月17日,由深圳市科學(xué)技術(shù)協(xié)會(huì)指導(dǎo),深圳市人工智能學(xué)會(huì)主辦,深圳市人工智能學(xué)會(huì)青工委和中山大學(xué)·深圳承辦的“機(jī)器視覺(jué)技術(shù)沙龍”在中山大學(xué)深圳校區(qū)工學(xué)園1-134會(huì)議室成功舉辦。活動(dòng)匯聚了來(lái)自高校與企業(yè)的多位專(zhuān)家學(xué)者,圍繞機(jī)器視覺(jué)領(lǐng)域的前沿理論、關(guān)鍵技術(shù)與應(yīng)用趨勢(shì)展開(kāi)深入交流與研討,旨在加強(qiáng)學(xué)術(shù)界與產(chǎn)業(yè)界之間的溝通協(xié)作,推動(dòng)前沿技術(shù)在深圳的實(shí)際應(yīng)用探索。本次沙龍緊扣新一代人工智能與新質(zhì)生產(chǎn)力發(fā)展方向,聚焦機(jī)器視覺(jué)技術(shù)從傳統(tǒng)感知范式向可控視覺(jué)生成、多模態(tài)推理與交互式視頻建模等新階段的演進(jìn)路徑,吸引了來(lái)自高校、科研機(jī)構(gòu)及相關(guān)領(lǐng)域的研究人員積極參與,現(xiàn)場(chǎng)交流充分、研討氛圍濃厚。
![]()
參會(huì)人員合影
本次活動(dòng)由中山大學(xué)教授金枝博士主持。學(xué)會(huì)始終圍繞“推動(dòng)人工智能前沿理論創(chuàng)新與關(guān)鍵技術(shù)突破、促進(jìn)人工智能與實(shí)體經(jīng)濟(jì)深度融合”的宗旨持續(xù)開(kāi)展學(xué)術(shù)交流與產(chǎn)業(yè)對(duì)接工作,已逐步形成覆蓋機(jī)器視覺(jué)、多模態(tài)智能、大模型應(yīng)用等方向的學(xué)術(shù)與產(chǎn)業(yè)協(xié)同網(wǎng)絡(luò)。未來(lái),學(xué)會(huì)將繼續(xù)發(fā)揮平臺(tái)紐帶作用,依托深圳豐富的應(yīng)用場(chǎng)景和產(chǎn)業(yè)基礎(chǔ),促進(jìn)學(xué)術(shù)界與產(chǎn)業(yè)界的深度交流合作,加快機(jī)器視覺(jué)前沿技術(shù)在粵港澳大灣區(qū)的落地應(yīng)用與創(chuàng)新發(fā)展。
![]()
金枝博士主持活動(dòng)
在報(bào)告環(huán)節(jié),北京大學(xué)長(zhǎng)聘副教授、博士生導(dǎo)師張健博士以《最優(yōu)化視角下的可控視覺(jué)生成》為題,從最優(yōu)化建模的視角系統(tǒng)闡述了可控視覺(jué)生成的理論基礎(chǔ)與關(guān)鍵技術(shù),深入分析了生成過(guò)程中的約束建模與控制機(jī)制,指出圖像重建、圖像編輯等多類(lèi)視覺(jué)任務(wù)在本質(zhì)上均可統(tǒng)一為“可控視覺(jué)生成”這一范式,并可通過(guò)引入不同形式的約束條件實(shí)現(xiàn)對(duì)生成內(nèi)容的精確操控。同時(shí),報(bào)告還探討了相關(guān)方法在多種視覺(jué)生成任務(wù)中的應(yīng)用潛力及未來(lái)研究方向。
![]()
張健博士作主題報(bào)告
字節(jié)跳動(dòng)算法研究員趙世杰博士以《推理式多模態(tài)大語(yǔ)言模型在質(zhì)量評(píng)價(jià)中的應(yīng)用以及原理》為題。報(bào)告圍繞多模態(tài)大語(yǔ)言模型在圖像質(zhì)量評(píng)價(jià)領(lǐng)域的最新進(jìn)展,介紹了一種基于強(qiáng)化學(xué)習(xí)的圖像質(zhì)量理解方法 Q-Insight。該方法在僅依賴(lài)少量評(píng)分與退化標(biāo)注的情況下,實(shí)現(xiàn)了對(duì)圖像質(zhì)量的有效評(píng)估與退化感知,并通過(guò)聯(lián)合建模多項(xiàng)任務(wù)提升整體評(píng)價(jià)性能。趙研究員表示,Q-Insight 的提出為圖像質(zhì)量評(píng)價(jià)從單一數(shù)值打分邁向具備推理能力的質(zhì)量理解提供了新的研究思路與技術(shù)路徑。
![]()
趙世杰博士作主題報(bào)告
阿里巴巴算法專(zhuān)家牟沖博士作題為《基于 MLLM 引導(dǎo)的視覺(jué)統(tǒng)一編輯框架》的專(zhuān)題報(bào)告,介紹了多模態(tài)大模型在視覺(jué)內(nèi)容編輯中的引導(dǎo)作用及相關(guān)框架設(shè)計(jì)思路,并分享了其在多模態(tài)內(nèi)容創(chuàng)作中的應(yīng)用前景。報(bào)告中提到的 T2I-Adapter 方法,通過(guò)引入輕量級(jí)適配機(jī)制,在不改變?cè)猩赡P徒Y(jié)構(gòu)的情況下,實(shí)現(xiàn)了對(duì)生成結(jié)果的有效控制。牟博士認(rèn)為,該類(lèi)方法在數(shù)字內(nèi)容生產(chǎn)、智能制造和虛擬現(xiàn)實(shí)等領(lǐng)域具有較高應(yīng)用潛力,有助于降低技術(shù)應(yīng)用門(mén)檻,推動(dòng)前沿算法加快向?qū)嶋H生產(chǎn)工具轉(zhuǎn)化。
![]()
牟沖博士作主題報(bào)告
香港大學(xué)博士研究生余濟(jì)聞以《可控、可泛化且具備記憶能力的交互式視頻世界模型》為題作報(bào)告,重點(diǎn)圍繞交互式視頻生成中“動(dòng)作控制”“場(chǎng)景泛化”與“長(zhǎng)期記憶建模”等關(guān)鍵問(wèn)題展開(kāi)闡述。報(bào)告以GameFactory和Context-as-Memory等研究工作為例,介紹了在開(kāi)放場(chǎng)景下實(shí)現(xiàn)動(dòng)作可控生成以及提升長(zhǎng)視頻時(shí)序一致性的最新進(jìn)展,并分析了相關(guān)方法在虛擬環(huán)境構(gòu)建、智能體訓(xùn)練和游戲內(nèi)容生成等方向的應(yīng)用潛力。相關(guān)研究為構(gòu)建具備持續(xù)演化能力的生成式視頻與虛擬世界模型提供了有益探索。
![]()
博士研究生余濟(jì)聞作主題報(bào)告
在前沿論文研討環(huán)節(jié),中山大學(xué)·深圳與北京大學(xué)深圳研究院的研究生分別分享了機(jī)器視覺(jué)與多模態(tài)智能領(lǐng)域的代表性研究論文,并圍繞研究動(dòng)機(jī)、技術(shù)路線、實(shí)驗(yàn)設(shè)計(jì)及未來(lái)發(fā)展方向展開(kāi)深入交流與討論。研討主題涵蓋三維場(chǎng)景重建、理解與編輯技術(shù),以及二維圖像的一體化增強(qiáng)與多視角編輯等方向。參會(huì)學(xué)生積極互動(dòng)、踴躍提問(wèn),現(xiàn)場(chǎng)學(xué)術(shù)討論氛圍熱烈而深入。
![]()
前沿論文研討
最后,沙龍進(jìn)入總結(jié)階段。與會(huì)專(zhuān)家一致認(rèn)為,機(jī)器視覺(jué)技術(shù)正處于由單點(diǎn)算法突破向系統(tǒng)化、工程化應(yīng)用加速演進(jìn)的關(guān)鍵階段。依托完善的產(chǎn)業(yè)體系、豐富的應(yīng)用場(chǎng)景和良好的創(chuàng)新生態(tài),深圳具備推動(dòng)前沿機(jī)器視覺(jué)技術(shù)加快落地的獨(dú)特優(yōu)勢(shì)。通過(guò)持續(xù)以真實(shí)需求牽引技術(shù)發(fā)展、以工程實(shí)踐促進(jìn)成果轉(zhuǎn)化,有望進(jìn)一步釋放機(jī)器視覺(jué)技術(shù)對(duì)實(shí)體經(jīng)濟(jì)和新興產(chǎn)業(yè)的支撐作用。本次機(jī)器視覺(jué)技術(shù)沙龍的成功舉辦,為學(xué)術(shù)界與產(chǎn)業(yè)界搭建了高水平的交流平臺(tái),對(duì)推動(dòng)機(jī)器視覺(jué)技術(shù)創(chuàng)新應(yīng)用、服務(wù)深圳先行示范區(qū)建設(shè)和新質(zhì)生產(chǎn)力培育具有積極而深遠(yuǎn)的意義。





京公網(wǎng)安備 11011402013531號(hào)