
本文摘自《云棲戰略參考》,這本刊物由阿里云與鈦媒體聯合策劃。目的是為了把各個行業先行者的技術探索、業務實踐呈現出來,與思考同樣問題的“數字先行者”共同探討、碰撞,希望這些內容能讓你有所啟發。
圍繞大模型的開發和應用一直都很熱鬧,從廠商推出模型、迭代、價格戰,到行業模型爭相亮相、企業應用不甘落后。相較于很多企業希望能盡快誕生一款 AI 產品來搶占市場,新東方業務背后提供技術支持的新東方信管團隊顯得不疾不徐,一邊洞察行業的前沿嘗試,另一邊在腳踏實地從 ROI 最高的場景切入。
對于教育科技公司而言,不斷提高教學教研質量永遠是第一要務。圍繞這一長期目標構建的 IT 系統和組織架構,也時刻將追求業務價值視為原則。新東方信管團隊對生成式 AI 落地業務場景的策略是:以服務業務為導向,盡量借助第三方服務商的通用能力將業務快速跑通。“我們一般不會主動做從零開始的 AI 投入,更多是需要跟隨業務規劃,進行更加密切地配合。”新東方集團信管 云教室負責人么敬國介紹稱,在探索生成式 AI 技術應用上,會盡量采用成熟廠商的解決方案,不僅僅是因為專業廠商有專業過硬的技術,還有長期合作對其業務的理解,同時廠商還具備成熟的客戶服務體系,后期能實現順暢的溝通和服務響應。阿里云在大模型應用之前已經與新東方合作多年,加之橫評有優勢的產品,成為大模型能力提供方也是意料之中。
選場景:開啟大模型之路
具體到大模型落地,很多時候第一步并不是找痛點,而是找場景。這意味著,企業需要先征集業務側高價值場景,基于投入產出比進行優先級判定。新東方的教育業務場景中也是如此,最先落地的場景并不一定是業務量最高的領域,而往往是業務需求更急迫、更容易得到直接成效的領域。
場景一:直播課。試想以下情景:當學生參加一場考研數學的大型直播課,卻因為遲到 20 分鐘上線,對入會前老師所講的某個大題信息點一無所知;或者英語聽力不佳,又處于嘈雜的外部環境無法集中精神學習,如何快速捕捉老師課中講話重點和信息要點?又或者,學生的時間不夠靈活,沒有辦法聽直播課,一連拖了十幾個小時的課時量,望著堆積如山的課程和講義,除了倍速聽課,能不能實現快速捕捉隨堂重點或者直接生成一份隨堂筆記?
這類問題其實在直播課場景中非常常見,但很多教育產品過去將主要精力投入在教育內容的研發上,并沒有過多關注這類用戶痛點。
在新東方業務中,專注于教育垂直場景的直播教室解決方案是“云教室”,這是新東方自主研發的線上課程平臺,滿足學生隨時隨地在線學習的需求。
“字幕和內容總結”就是來自業務部門針對直播痛點的訴求,這樣不僅能提升學生的觀看體驗,還能幫助他們更準確地捕捉對話和重要信息,提高對視頻內容的理解和接受度。
不過,并非所有的視頻課需要關聯字幕,這取決于具體的課程內容和聽眾對象,字幕的語言和類型也可能因課程而異,以滿足不同需要。比如,“字幕”這一原始訴求并不是來自業務量最大的高中業務,而是由大學事業部提出的。盡管新東方高中視頻課業務量相對更高,但回放率非常低,因為學生一般會按時上課、優先選擇直 播課,而大學事業部直播課到課率就低得多,學生會更加在意回放視頻效果,這也是為什么大學事業部會非常強調字幕的精準性。而且,大學業務的視頻課很多是提前錄制,通過對視頻內容生成一份總結,對看回播的學生來說效率更高。
場景二:質檢。新東方每天都會接到大量的課程咨詢電話、在線留言,咨詢內容和咨詢者的情況各異,但其核心訴求仍然是學習知識。用戶與新東方客服平臺產生大量溝通,里面可能存在用戶訴求、對學習情況的反饋滿意度、以及影響成單的各種信息......但從成本和效率等因素考慮,新東方一直無法將所有溝通信息進行全面質檢,只能抽檢。新東方也設置了通過用戶主動打分來判斷 NPS(Net Promoter Score,凈推薦值)。“但這個動作其實后置了一些。”新東方大學事業部 P 端產品負責人張辰指出。“一旦出現服務質量問題,我們以前要么是與客戶高頻反復溝通以拿回更多的數據,判斷用戶的滿意度和行為,要么就是通過全程跟蹤,投入大量的人力物力分析每一次溝通的內容,判斷用戶的行為,不過這顯然不現實,我們是做不到寬度和廣度同時具備的。”
對非常關注溝通質量和效率的新東方而言,亟需一套敏銳判斷用戶反饋和深度挖掘、精準觸達用戶需求的解決方案。
不難發現,新東方內部服務于不同學生群體、提供不同產品和服務,以及不同增長體量的各個業務部門,對大模型給各自業務的賦能場景有不同的考量和訴求。而在接入基于通義大模型驅動的通義聽悟能力后,這些訴求得到了解決,大模型的能力在不同產品線上誕生了差異化的落地方式和應用價值。
技術落地:從提示詞工程做起
2023 年上半年開始,伴隨 ChatGPT 等生成式 AI 技術的火熱,新東方也開始了大模型與教育業務結合的探索,新東方信管團隊與通義大模型團隊基于通義聽悟在音視頻領域的合作也是在此期間展開。
新東方最早跟阿里云的大模型合作探索便是解決云教室視頻課的字幕和內容總結訴求。
首先,阿里云將新東方信管團隊提供的一些教學場景原始音視頻數據、文本數據作為基礎素材,在語音識別 ASR、聲紋識別、語義理解等多個技術引擎中并行處理,得到處理后的文本數據;然后,將這些文本數據進行人工標注、修正后結合更多自有專業語料“喂”給大模型進行處理。
測試階段,訓練好的大模型會被接入新東方工作流中,使用者上傳音視頻材料的同時,也可以通過提示詞進行工程化適配,讓大模型通過推理、反饋,不斷學習教育場景的說話特征,包括專業術語與縮寫識別、演講者口音等等。
這其中的復雜點在于,需要對不同學科教學中涉及的大量專業術語進行精準識別、判斷。例如,一堂視頻教學課上,老師除了講述與教學相關的專業知識或術語外,還會包含一些日常對話。過去,小模型并未實現泛化,依然停留在工具屬性,只能做到機械地語音轉文字,無法根據上下文分析判斷,或者只能耗費大量人工進行標注。如今,依靠大模型的推理能力,這一訴求得以實現。
整體解決方案上,得益于阿里云基礎大模型強大的理解能力,新東方信管團隊不必花費過多精力在數據預處理或數據標注的工作,有效降低了初始使用成本。同時,企業無需深入了解技術細節,大模型能力可無縫集成到現有系統中,業務團隊可以快速上手。而隨著基礎模型能力加強,團隊無需對模型進行微調,只需強化提示詞 工程或進一步使用 RAG(檢索增強生成)技術手段即可持續提升模型生成的準確性。雙方經歷兩個多月的密切配合和反復調優后,收獲了初步成效。
如今,在“直播課”場景,新東方通過通義聽悟實現了對視頻課的自動章節總結,根據章節把每個節點自動打點,打點完之后把打點范圍之內的文本內容做沉淀、總結。以前,一節課需要 40-50 分鐘才能看完;現在,通過分段、知識點的總結、課程內容的梳理之后,學生在學習知識這件事情上的時間成本得以降低,在快速習得每節課主旨、知識點之外,還可以一鍵生成思維導圖,激發系統化的思考能力。
在“質檢”場景,一個是在銷售場景,貫穿售前、售中、售后;另一個是教學場景,貫穿學前、學中、學后。通過使用通義聽悟對溝通線索進行挖掘和分析,實現了成單率和用戶教學滿意度方面的提升。
比如在銷售場景,在成單之前可以通過大模型做“質檢”,提煉一些精彩的話術,推薦給售前人員促成單;售后環節,通過大模型分析員工跟客戶之間的溝通,檢測違規情況或者發現一些好的案例推廣學習,進而提高服務質量。具體實現過程是:首先,將所有的溝通線索包括學習過程中的電話、文字溝通,轉換成本文信息;然后,將這些文本和原有的原生文本一起“喂”給大模型;在這個過程中,需要結合行業理解,對每一次溝通做提示詞管理,判斷每一次溝通的內容質量,除了理性判斷問題是否得到解決,還可以沉淀溝通雙方的情緒等感性方面的數據。
自 2023 年年末以來,新東方整體學員滿意度實現了 3% 的穩步增長。初見之下,這一數字增長看似適度,但若回顧新東方長期以來致力于優化并持續提升學員滿意水平的歷程,便會發現,能在已然高企的基礎上進一步顯著提升的空間極為有限。尤其是與以往僅能進行極少量的“抽查”,且即便投入巨大人力物力仍難以實現全面覆蓋的情況相比,現今依托于大型模型,新東方已經找到了新的解決策略。
AI 教育仍在持續深化
一直以來,教育行業都在嘗試通過 AI 技術實現功能適配和場景融合。從個性化學習、學生學習行為分析預測、教育內容創作、虛擬助教、口語教練......國內不少教育企業早些年就已經在探索 AI 在自身業務領域的結合點。
從一堂教學課來說,分為課前、課中、課后三個環節,這其中都存在 AI 技術應用落地的空間。新東方信管團隊對未來教育科技的趨勢也有自己的思考和判斷:在課前環節,有智能分級考,通過 AI 系統自動增加 / 降低題目難度;在課中環節,通過 AI 圖像語音識別技術實現督課、教學質量評估、學習質量評估、錄播視頻錨點自動插入、知識點自動切分、知識點和題庫匹配等效果, 實現教學質量提升;課后環節,在作業評價和習題題庫方面,AI 可以對主觀題做 OCR 識別、情感識別、語義分析等處理,自動完成大量課后教學工作;此外,還可以設置虛擬教師角色貫穿全環節進行智能交互問答。
比如,在“口語陪練”場景。雅思、托福考試中口語練習是難點之一。過去,要么是線下跟真人考官交流,要么是線上跟系統聊天。但問題是,這類考試需要考生熟悉各類話題,話題的靈活度和變化度較高,沒有固定的答題思路,與機器對話比較固定,考生只能根據播放的音頻,進行固定式回答。如果可以基于大模型能力生成 虛擬教師角色,讓考生進入到類似于真人的沉浸式對話中,這一場景將實現顯著的降本增效。
但就目前而言,大模型驅動的生成式 AI 應用,還在優先嘗試在線智能問答、智能寫作、翻譯、分析和個性化推薦、客服等場景。受限于模型缺陷、工程化能力等因素,教育行業的其他環節嘗試仍顯得太不成熟。
例如,對于教師教學中的輔助備課、出題,由于知識密集型的專業領域,已有的知識體系非常完備且精準,大模型幻覺問題尚無法根治,加之成本投入等因素,綜合應用效果并不理想。
同時,不同業務主體,即便是使用同一套應用,也會存在差異性痛點,需要結合實際業務需求進行場景功能設計。例如,在新東方前途教育,老師會根據學生做大量的選校、背景分析、培訓等溝通咨詢服務,服務周期長,通過視頻挖掘信息的訴求非常強烈;而針對于成人及大學教育課堂,老師通常會錄播或直播教學,往往在高峰 期就需要線上課程作為支撐,但這類課程對視頻的實時交互性需求比較少。
大模型正在走向通用。一直以來,語音識別、語音合成 技術的發展脈絡,都是在不斷提升對語音數據預處理的復雜度,從而降低技術門檻。大模型通過引入注意力機制,不需要再對語音和文本的局部對應關系進行單獨處理,這使得對訓練數據的處理難度極大降低。未來,通過算法驅動題庫匹配實現個性化,再加上實時音視頻能力提升,也將有助于老師備課、教學和組織考試。
教育科技無疑將邁入一個融合多模態、更加智能化的場景時代,與此同時,人工智能技術的實施落地正處于迅猛發展的迭代階段。對于新東方而言,與通義大模型的融合應用探索與實踐正在不斷深入并持續拓展。





京公網安備 11011402013531號