IT之家 10 月 25 日消息,接觸過變聲器的朋友應該或多或少聽說過,目前主流的語音處理方案都是會有一定延遲時間的,甚至可以說效果越逼真,延遲就越高。
據網絡安全公司 NCC Group 最新披露,AI 正推動語音深度偽造技術走向“實時”階段,攻擊者可在通話中即時模仿他人聲音,詐騙成功率近 100%。
實時語音偽造技術突破
這項被稱為“深度偽造語音釣魚(deepfake vishing)”的技術,通過 AI 模型學習目標人物的聲音樣本,可在定制網頁界面上由操作者一鍵啟用,實現實時語音“轉譯”。
研究人員表示,該系統僅需中等計算性能即可運行。在一臺搭載英偉達 RTX A1000 顯卡的筆記本上,他們實現了不到 0.5s 的延遲,而且沒有之前的那種停頓和不自然感。
測試表明,即便只是使用低質量錄音,該系統仍能生成極其逼真的語音副本。相比以往需數分鐘訓練、僅能生成預錄音頻的舊式語音偽造工具,這一系統可在通話中根據人的意愿實時調整語調和語速。這意味著普通人也可以借助筆記本電腦或智能手機實現類似效果,進一步降低了惡意利用門檻。
測試結果顯示欺騙率極高
NCC Group 安全顧問 Pablo Alobera 表示,在經授權的受控測試中,當實時語音偽造技術與來電號碼偽造(caller ID spoofing)結合使用時,幾乎在每次實驗中都成功欺騙了測試對象。Alobera 指出,這一技術突破顯著提升了語音偽造的速度與真實性,即使是普通電話通話,也可能被利用進行欺詐。
![]()
視頻偽造尚未完全同步發展
盡管語音偽造技術已進入實時階段,但實時視頻深度偽造仍未達到相同水平。近期流傳的高質量案例多依賴最前沿 AI 模型,如阿里 WAN 2.2 Animate 和谷歌的 Gemini Flash 2.5 Image,從而將人物“移植”至逼真的視頻場景中。
然而,這些系統在實時視頻生成中仍存在表情不一致、情緒不匹配及語音不同步等問題。人工智能安全公司 The Circuit 創始人 Trevor Wiseman 向《IEEE Spectrum》表示,即使是普通觀眾,也能從“語氣與面部表情的不協調”察覺偽造痕跡。
專家呼吁建立新型身份驗證機制
Wiseman 提到,AI 偽造技術的普及已導致實際損失。他舉例稱,有公司在招聘過程中被視頻深度偽造欺騙,誤將筆記本電腦寄往虛假地址。這類事件表明,語音或視頻通話已無法作為可靠的身份驗證方式。
隨著 AI 驅動的冒充行為日益普及,專家警告稱,必須引入新的身份驗證機制。Wiseman 建議借鑒棒球比賽中的“暗號”概念,使用獨特且結構化的信號或代碼,以在遠程交流中確認身份。他強調,若不采取此類措施,個人與機構都將面臨越來越復雜的 AI 社會工程攻擊威脅。





京公網安備 11011402013531號