一小時翻譯整部《甄嬛傳》，AI面試官發offer……在杭州看AI落地的1000種玩法

IP屬地中國·北京 編輯：趙靜 36氪 時間：2024-09-22 15:05:09

文｜周鑫雨
制圖｜況澤宇
拍攝｜周鑫雨鄧詠儀
編輯｜蘇建勛
2024年9月19日開幕的阿里云云棲大會上，近300家涵蓋算力、模型、應用的AI企業，和近1000種AI產品，構成了一幅全行業的活地圖。
多模態和具身智能，兩個今年最熱的AI風口，在云棲占據絕對的C位——
云棲大會“人工智能+”館。
走進匯聚了近60家模型企業的“人工智能+”館，能明顯感受到，如果不加點音視頻相關的多模態能力，光拼參數的大模型已經不夠看了。
而具身智能，是“前沿應用館”最“City”的存在。一進場館，就能看到20多家機器人企業，攜著或仿真人、或仿狗子的產品，給你來上一段取貨、翻跟頭、猛踹不倒的炫技表演。
不過，無論是多模態，還是具身智能，再高大上和先鋒的科技，能在云棲引起圍觀的，只有“接地氣”。
這屆云棲，參觀者中第一次出現了“義烏老板團”。面對同聲傳譯、數字人主播和可一鍵生成商品圖的應用，他們替用戶提出了最為現實的問題：能幫我賺多少錢？
當紅大模型獨角獸月之暗面的展臺，大概是“班味”最濃的一個。不少白領、IT都聚了過來，激辯字節的“豆包”和月暗的“Kimi”，哪個辦公更好使。
在最具未來感的具身智能展臺，被暴力踹踢而不倒的“小強”——逐際動力的雙足機器人，引得不少路人圍觀。這款用于展示機器“小腦”研究成果的機器人，目前還待在實驗室里，供力學研究。
逐際動力雙足機器人。
這也擋不住觀眾對此發出靈魂一問：
“推不倒，到底有啥用？”
多模態，模型的標配通義千問：沒有不想落地短視頻的多模態應用
一進模型扎堆的“人工智能+”體驗館，很難不被“通義大模型”展區的AI太極寫真生成體驗區吸引。
通義AI太極寫真。
體驗者只要比劃對應的姿勢，在鏡頭中與簡筆畫合上——幾十秒后，一張太極寫真就出爐了。
當然，圖生圖的AI寫真功能，只是阿里云模態版圖中的一小塊。作為東道主，阿里不僅發布了最新的視頻生成模型，還搬來了文生圖、圖生視頻、圖+音頻生視頻的多模態全家桶。
全民舞王。
比如，在通義千問App內，阿里上線了10秒左右的短視頻生成應用“全民舞王”。
用戶只需上傳人或寵物的照片，以及一段說話音頻，就能在1-2分鐘內生成舞蹈視頻、對嘴唱歌視頻，或者動態表情包。目前，這還是個免費的功能。
人像動態視頻生成技術EMO（Emote Portrait Alive）。
“全民舞王”的背后，是阿里巴巴智能計算研究所在2024年2月發布的人像動態視頻生成技術EMO（Emote Portrait Alive）。僅需一張肖像照和一段音頻，EMO就能讓人物按照音頻內容張嘴唱歌、說話。
據現場工作人員介紹，自2024年4月25日上線以來，“全民舞王”的使用人數已經突破了10w+。多數用戶的使用方式是
“這太適合I人做短視頻了吧！”有參觀者感嘆。
“沒有不想落地短視頻的多模態應用！”
智譜：視頻拍到哪，作業講到哪
讓家長紛紛駐足的展臺中，一定有智譜。
2024年8月29日，智譜將“類GPT-4o”的視頻通話功能，搬上了自己的C端應用“智譜清言”。
這款融合了視頻理解、語音對話能力的功能，就好比AI突然有了五感。用戶可以用智譜清言學穿搭、識別物品，也可以把它當成賽博閨蜜。
當然，更適合中國人“活到老學到老”體質的玩法，就是AI教師。
對著作業打開攝像頭，手機鏡頭拍到哪，智譜清言就能解答到哪。并且，智譜清言的講解，質量甚至和真人教師有的一拼，不僅循循善誘，還有問答互動。
比如講解“雞兔同籠”，智譜清言不會直接給出答案，而是先引導孩子列出二元一次方程組。
智譜清言視頻通話功能。
孩子再也不怕難題，家長也解放了雙手。
生數Vidu：給我一張劇照，我還你一段新海誠
同樣是“清華系”出身的生數科技，展出了自研的視頻生成模型Vidu。2024年4月發布時，Vidu因為性能優秀，還一度出圈，被稱作“中國版Sora”。
但即便是OpenAI的Sora本尊，也很難解決視頻的前后一致性問題。不難發現，大多AI視頻中，每一幀的臉都不一樣。
為了解決一致性難題，生數的解決辦法是，給Vidu找個“模特”。
2024年9月11日生數科技發布的“主體參照”（Subject Consistency）功能，讓Vidu根據給出的參考圖，確定視頻主體的形象和風格。
“主體參照”（Subject Consistency）功能。
現場，作者上傳了一張新海誠電影《鈴芽戶締》的女主角“鈴芽”的劇照，Vidu就根據鈴芽的形象，生成了一段秋日公園視頻。
VAST Tripo：3D生成也有Scaling Law
“我們有全球最大的3D數據庫。”
這是我們在展區唯一聽到過的帶有“最”字的判斷。這句話，來自3D生成領域的明星企業VAST。
國內不少人可能會覺得VAST面生，原因在于，這家由前MiniMax和商湯成員創立的公司，第一天就做了出海的生意。
據工作人員介紹，VAST在海外主打面向游戲、XR開發者的C端應用，在國內則主打B端應用，“并且我們在海外商業化不錯”。
不少圈內人對VAST的3D生成模型Tripo的評價是：高性能，操作友好。根據輸入的文字或者圖片，Tripo僅8秒就能生成3D原型圖，并且支持市面上所有的3D原型編輯軟件，還能直接3D打印。
Tripo現場3D打印。
Tripo文字生成3D素材。
當下，3D生成模型的訓練，也沿用堆參數的暴力美學Scaling Law。2024年初，VAST發布的Tripo 1.0，參數就達到了數十億，在訓練數據稀缺的3D模型中是相當龐大的存在。
提高參數，相應的也要增加模型的訓練數據。
工作人員透露，在獲取稀缺的高質量3D數據過程中，團隊花了不少時間在“犄角旮旯”中獲取數據。而在訓練過程中，模型也用了不少AI合成3D數據。
就在2024年9月19日，VAST還發布了生成質量更好的Tripo 2.0，實現10秒?成形狀?何、10秒?成紋理及PBR（一種模擬光與材質相互作用的渲染技術）。
音瘋：AI玩音樂照樣瘋
2024年7月，網紅秦新宇因整容失敗發布的名為《還我媽生鼻》的魔性歌曲，突然沖上了微博熱搜。
而這首歌的譜曲者，不是秦新宇，也不是專業音樂團隊，而是一個上線不到兩月的AI音樂生成平臺“音瘋”。
音瘋AI音樂體驗區。
音瘋展臺。
這款由昆侖萬維推出的音樂制作平臺，特點在：長。工作人員表示，音樂生成的難點在于保持前后一致性，一旦歌曲超過1分鐘，前后的曲風很難保持一致。
因此，音瘋的賣點在于，將AI音樂生成的時長拉到了4分鐘，并且能夠相對保持前后風格的一致性。用戶只需要輸入歌詞，并且在曲庫和人聲庫中選擇喜歡的風格，就能生成一段歌曲。
當然，工作人員告訴作者，目前音瘋使用最高頻的場景，也是短視頻：）。
HiDream.ai：為電商量身定制的AI生圖
HiDream.ai（智象未來）的展臺，駐足了一批批的義務商家。
這家由前京東探索研究院副院長梅濤成立的AIGC公司，基因里就帶著“電商”兩個字。雖然同樣是圖片生成，HiDream.ai的AIGC創作平臺“秩象”，就像集布景、拍攝、后期于一身的商品圖工作室。
HiDream.ai的AIGC創作平臺“秩象”。
比如，商家只要輸入商品圖，就能靈活切換背景、模特。在為服裝生成模特圖的過程中，商家甚至能夠選擇模特姿勢、性別、膚色、人種。
月之暗面：視頻功能，Kimi懷胎中
人工智能+館人氣最旺的展館，有Kimi的一席之地。
在一眾把圖片、音頻、視頻、3D等模態玩出花的模型中，仍然主打文本、表格和代碼任務的Kimi就稍顯樸素。
當然，這并不影響Kimi展臺的人氣——或者準確來說，是“班味”。
現場不乏有上班族，直接向工作人員詢問文字轉excel、文件生成報表、文書撰寫的方法。甚至還有企業IT，直接來咨詢Kimi API如何接入釘釘、企微和飛書。
Kimi展臺。
不過，這款打工神器，也免不了朝著更多模態迭代。工作人員對作者透露，Kimi的視頻功能，已經在路上！
機器人炸場，虛擬人扎堆銀河通用：松弛感拉滿的機器人售貨員
擅長“抓”的銀河通用機器人Galbot G1，這次走進了未來的無人商超。
消費者在平板上下單后，Galbot G1機器人就會前往貨架，準確拿取下單的商品。
Galbot G1。
不過，這位機器人售貨員的取貨速度，有些太慢了——從下單到接到冰紅茶，差不多用了1分鐘。想要進商超，機器人還是得先戒掉這絕佳松弛感。
當然，無人售貨只是銀河通用展示的其中一個場景。目前，Galbot G1已經能夠精準抓取礦泉水、雨傘等隨機放置的物品，還能夠熟練開柜門、抽屜和晾衣服。
工作人員表示，2024年Q4，就有希望看到機器人進入真實的商業場景。
清寶：仿真機器人，上流水線搬磚
和披著人皮的機器廠友做同事，馬上就要成為現實了。
在清寶機器人的展臺，幾名不斷變換pose的仿真機器人構成了門面——然而，由于眼珠轉動過于靈活，但表情麻木，這幾名機器人還是產生了一些恐怖谷效應。
清寶機器人。
而這幾名仿真機器人的作用，既不是陪伴，也不是做智能導游、機器人主播之類的“文職”，而是直接進工廠！
目前，由于流水線SOP（標準操作流程）比較固定單一，且整機機器人成本較高，投入真實流水線使用的機器人，大多是單一的機械臂。
據工作人員介紹，目前簽單的整機人形機器人，在流水線上主要做的是質檢和零件分配，客戶給出的理由也很別致：“想讓產線有點溫度”。
當然，對于客戶而言，機器人帶來的溫暖，還得在降本增效上。工作人員對作者表示，機器人一年可以節省20%左右的人工成本。
酷開：云電視，抓住AI稻草
“這幾年電視行業太難了！”云電視廠商酷開的員工，上來就倒了滿滿的苦水。隨著電視機大盤被移動智能產品擠壓，云電視廠商的日子也不好過。
不過，2024年以來，酷開算是守得云開見月明——AI是他們抓住的稻草。
酷開在云電視上線的AI OS，支持語音搜索電視劇、電影，以及網絡咨詢，還能向Chatbot等智能助手一樣，給用戶推薦片單。
比如用語音輸入“陳道明演皇帝的電視劇是什么？”酷開立刻顯示了搜索結果：《慶余年1、2》《楚漢傳奇》《康熙王朝》。
酷云云電視 AIOS。
值得一提的是，搜索結果顯示的演員照片、電視劇劇照，全都是由AI在后臺生成的。酷開工作人員告訴作者，這是為了能夠精準貼合用戶的搜索需求，“比如你的偶像是鹿晗，你想看他的劇，肯定也想看到搜索結果全都是他的照片。”
不僅如此，酷開也能根據用戶的個人喜好，用AI生成片單推薦視頻。
上線AI OS一個月，酷開就吃到了AI帶來的甜頭。工作人員表示，內嵌大模型能力后，使用語音交互功能的用戶數量和時長有了明顯的提升；與此同時，技術成本的增加還能控制在10%以內。
阿里云視頻團隊：一鍵給《甄嬛傳》配英文字幕
一部成熟的電視劇，就應該學會自己給自己配多語言字幕。
這個美好的愿景，已經被阿里云視頻團隊實現了。
阿里云視頻團隊的視頻字幕翻譯功能。
以往給電視劇配外語字幕，是個大工程。你需要先把臺詞轉錄成中文字幕，再翻譯成外語。與此同時，配字幕還免不了用剪輯工具。
如今，基于通義實驗室自研的算法，用戶已經可以實現“端到端”翻譯甄嬛傳：不需要給字幕，直接扔視頻文件，就能自動配英文字幕。
獵聘“多面·doris”：未來，AI給你發offer
第一批數字人面試官，已經上崗了。
獵聘旗下的AI產品“多面·doris”，就是一位在24小時內，面試400多人的AI面試官。
目前，獵聘AI面試有設定問題、智能問答等多種模式。比如在智能問答環節，AI首先會基于簡歷，分析出應聘者的潛在風險點，比如“頻繁跳槽”“任職時間不長”，后續的面試，也大概率會圍繞這些問題展開。
獵聘AI面試產品“多面·doris”。
不過，不少面試者反饋，由于缺乏即時交互，以及難以從AI面試官的撲克臉中獲得反饋，和AI面試反而更緊張了。
最后，工作人員貼心提醒，數字人面試官比較適合一面、二面等人才的初篩環節。如果企業想要聘請高端人才，還是由人出馬更顯誠意！
Motiff 妙多：設計師救星，一句話也能生成UI了
目前國內最懂UI設計的大模型，源自一個叫做Motiff 妙多A的團隊。
至少需要一周的UI設計，現在被簡化成了輸入一段話。
用戶只需文字輸入所需的界面類型、組成部分，以及定制化的描述，20秒左右，就能生成兩版UI設計稿。
Motiff AI生成UI。
與此同時，基于自研的UI大模型對布局的理解能力，原有Cmd+V、Cmd+C的重復動作，被Motiff簡化成了一步到位的下拉動作。
狼人殺不盡，AI吹又生
除了機器人和數字人，前沿應用館最容易找到的，應該就是AI狼人殺。
游戲公司巨人網絡，就將AI狼人殺，作為投放在抖音、B站上的季節性用戶活動。
這些AI NPC的“攻擊性”還挺高，玩家發言一旦有邏輯漏洞，就會被“群起而攻之”。
巨人網絡AI狼人殺。
這些24小時無休、永遠在線的AI NPC，將巨人季節性活動的用戶時長，增加了10倍多。
在2018年上線的劇本殺App“百變大偵探”，近一個月也基于通義千問上線了AI劇本殺。
更進一步，玩家可以直接用語音和AI NPC進行對話。不過，對話的輪次有限制，想要增加對話次數，玩家只能氪金——這也是目前不少AI劇本殺的主要商業模式。
“百變大偵探”AI劇本殺。
當然，在游戲前加了“AI”兩字，并非全是好事。
工作人員告訴作者，接入大模型后，技術成本就提升了不少。與此同時，團隊選擇劇本也更為謹慎：太復雜的本，AI不理解；太簡單的本，用戶不愿玩。
只能說，AI在進步，人也得跟著進步。
！

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

從深圳出發，向全球進發：元化智能一年12證書寫手術機器人“中國速度”

無人駕駛“警車”現身上海街頭 | 新民視頻小羊探案

首屆香港國際AI藝術節開幕！科技邂逅創意：少年狂贊機器人

Claude AI任務模式開測：能提問、會計劃、懂執行，全程可視化

Cognizant與Microsoft擴大合作，推動AI轉型與打造前沿企業體驗

Seyond圖達通獲得上汽大眾新車型定點，加速拓展ADAS市場

全站最新

從深圳出發，向全球進發：元化智能一年12證書寫手術機器人“中國速度”

無人駕駛“警車”現身上海街頭 | 新民視頻小羊探案

首屆香港國際AI藝術節開幕！科技邂逅創意：少年狂贊機器人

Claude AI任務模式開測：能提問、會計劃、懂執行，全程可視化

熱門推薦

從深圳出發，向全球進發：元化智能一年12證書寫手術機器人“中國速度”

《自然》雜志展望2026年值得關注的科學事件

無人駕駛“警車”現身上海街頭 | 新民視頻小羊探案

首屆香港國際AI藝術節開幕！科技邂逅創意：少年狂贊機器人

Claude AI任務模式開測：能提問、會計劃、懂執行，全程可視化

Cognizant與Microsoft擴大合作，推動AI轉型與打造前沿企業體驗

Seyond圖達通獲得上汽大眾新車型定點，加速拓展ADAS市場

字節 92% 工程師都在用的 TRAE，這次瞄準了企業級市場

基于真實數據和物理仿真，國防科大開源具身在線裝箱基準RoboBPP

拆解CANN：當華為決定打開算力的「黑盒」

斬獲標桿榮譽，360AI企業瀏覽器入選《2025集團企業數智化轉型案例集》

Mamba作者團隊SonicMoE：一個Token舍入，讓MoE訓練速度提升近2倍

無人駕駛“警車”現身上海街頭：單日警告違停車輛119輛

天璣9500芯片重塑安卓游戲體驗標桿

“小墨”具身智能機器人在寧德時代工廠上線