![]()
投稿作者:onePiece 團(tuán)隊
生成式推薦無疑是當(dāng)前推薦系統(tǒng)領(lǐng)域最熱門的方向,也是互聯(lián)網(wǎng)應(yīng)用中最前沿的研究主題之一。
從技術(shù)路徑來看,生成式推薦主要沿著兩大方向展開:一是基于大語言模型的推薦方法(LLM as Recommender),二是以生成式方式訓(xùn)練推薦模型(Generative Recommender)。
然而,在真實業(yè)務(wù)場景中,由于線上服務(wù)對成本極為敏感,LLM as Recommender 的落地仍面臨顯著挑戰(zhàn)。這主要源于大語言模型在推理時通常需要大量顯卡資源,且響應(yīng)延遲較高,難以滿足大規(guī)模推薦系統(tǒng)對高并發(fā)和低延時的嚴(yán)格要求。
另一方面,生成式推薦模型雖然在效率上更具優(yōu)勢,卻難以具備類似大語言模型的推理能力。這主要是因為典型的生成式推薦模型通常基于用戶歷史行為序列進(jìn)行訓(xùn)練,而該序列往往表示為一組物品 ID 序列:[item-1, item-2, item-3, …]。可以說,物品 ID 構(gòu)成了推薦系統(tǒng)特有的“語言體系”。大語言模型之所以能夠模仿人類的推理過程,很大程度上依賴于文本作為信息媒介,從而逐步解決問題。但在僅由 ID 構(gòu)成的語義空間中,我們難以構(gòu)造類似的“思維鏈條”來引導(dǎo)模型執(zhí)行復(fù)雜推理,更無法像大語言模型那樣實施上下文工程。
此外,傳統(tǒng)生成式推薦模型(如 SasRec)通常僅接受物品 ID 或語義 ID 作為輸入,不支持多模態(tài)或手工特征的引入。這一限制使得推薦系統(tǒng)長期積累的“特征工程”經(jīng)驗難以發(fā)揮價值,同時也制約了模型效果的進(jìn)一步提升。
在這一背景下,來自 Shopee 的傅聰技術(shù)團(tuán)隊聯(lián)合人大高瓴學(xué)院提出了一種全新的生成式推薦模型——onePiece 范式,這是業(yè)內(nèi)首個融合上下文工程、隱式推理和多目標(biāo)訓(xùn)練策略的生成式搜推建模框架!
![]()
論文鏈接:http://arxiv.org/abs/2509.18091
該范式的核心創(chuàng)新包括三個方面:針對物品 ID 序列特點專門設(shè)計的上下文工程策略;基于隱式推理的塊狀推理(block-wise reasoning)技術(shù);以及通過漸進(jìn)式多目標(biāo)訓(xùn)練強(qiáng)化推理過程監(jiān)督的學(xué)習(xí)機(jī)制。
目前,onePiece 已在 Shopee 個性化主搜索場景上線,并取得效果提升。這一實踐不僅驗證了生成式推薦在工業(yè)場景的可行性,更為構(gòu)建通用生成式推薦模型邁出了關(guān)鍵性的第一步。
核心方法
LLM 的成功不僅僅源于其優(yōu)秀的 scaling law,也源于上下文工程、推理能力。從真實系統(tǒng)應(yīng)用角度思考,推薦模型需要實現(xiàn)極致的“性價比”,也就是實現(xiàn)一個大小適中,但能盡可能吸收 LLM 領(lǐng)域成功經(jīng)驗的模型。因此,生成式推薦模型不能過度依賴 scaling law,即膨脹模型參數(shù)來獲取增量收益,也需要遷移上下文工程、推理等相關(guān)成功經(jīng)驗到推薦領(lǐng)域。
首先,從上下文工程角度看,研究團(tuán)隊主要利用的是 LLM 基于上下文工程的指令(prompt)做(test-time)few shot learning的能力。而 few shot learning 用大白話講就是舉例子,希望模型能獲得舉一反三的能力。而這種數(shù)據(jù),后來也逐漸被固化到訓(xùn)練數(shù)據(jù)中,被稱為 Instruct Following SFT。放到以 “item ID” 為語言體系的推薦數(shù)據(jù)上,可以舉出的“例子”,就是一些用戶可能會交互的“錨點物品序列”來實現(xiàn)。例如,在 Shopee Search 場景,他們把用戶們在某個關(guān)鍵詞下面的高頻點擊商品序列、高頻下單商品序列,作為“樣例”拼接在用戶自己的交互序列之后,通過引入 domain expert knowledge 的方式引入一些特殊的 inductive bias。
他們提出了上下文工程框架不只有“錨點序列”,更多細(xì)節(jié)如下圖:
![]()
其中:
Interation History(IH):就是常規(guī)理解的用戶行為歷史。
Preference Anchors(PA):根據(jù)工程師的領(lǐng)域知識,構(gòu)造的錨點序列,輔助引導(dǎo)預(yù)測和思考方向。
Situational Descriptor(SD):一些表達(dá)場景或其它異構(gòu)信息的特殊 token,一般放在序列末尾聚合信息,例如在搜索場用到的 user token、query token 等。
Candidate Item Set(CIS):潛在目標(biāo)候選物品的集合,這個是 ranking 模式下特有的,也是相對于召回模式的優(yōu)勢所在,ranking 模式下,候選物品對模型可見,可提供更多上下文信息。
為了能夠自然融合“特征工程”的知識,他們在每個 token 位置上疊加了 item ID 以外特征信息,用簡單的 adapter(MLP)來壓縮到一個 token 位置上:
![]()
其次,關(guān)于推理,他們參考了近期在 LLM 領(lǐng)域開始有關(guān)注度的一個話題“隱式推理”。顧名思義,這種推理方式不是在文本上將思考過程描述出來,而是在隱藏表征空間(latent space)內(nèi)進(jìn)行推理。具體來說,就是每一步推理的時候,都直接把上一步輸出的 item latent embedding 信息直接復(fù)制,放到輸入序列后面,讓 transformer 繼續(xù)運算:
![]()
這樣的推理技術(shù)的好處是,可以用極少的 token 完成思考過程,對在線服務(wù)幾乎不增加負(fù)擔(dān)。
最后,他們也發(fā)現(xiàn)隱式推理的一個明顯的短板,那就是推理過程不受監(jiān)督。因為隱式推理是直接將模型的輸出和輸入循環(huán)對接到一起,他們就沒辦法控制中間的推理過程,也就不知道模型在想什么,所以,他們定義了一種漸進(jìn)式的監(jiān)督訓(xùn)練方式。通過利用推薦系統(tǒng)豐富的用戶反饋來為隱式推理提供過程監(jiān)督,例如用戶的點擊、加購物車、下單行為:
![]()
值得注意的是,在推理的過程中,他們要求“前面的思考步驟”看不到“后面的思考步驟”,所以形成了上圖中的 attention mask。同時,為了增加推理的信息處理帶寬,避免出現(xiàn)單 token 推理的信息瓶頸,他們同時選擇前文中的多個 token 向后進(jìn)行“推理”。
實驗效果
為了深度分析 onePiece 的效果,研究團(tuán)隊進(jìn)行了詳細(xì)的對比和 Ablation。
![]()
從 Table2 中可以看到,Shopee 的 DLRM 基線(傳統(tǒng)深度學(xué)習(xí)推薦模型)是一個很強(qiáng)的 baseline,naive 的生成式推薦是難以 PK 的。
進(jìn)一步地,PA 是通過上下文工程引入額外的 domain knowledge,這種手法是模型backbone 無關(guān)的,HSTU 和 ReaRec 都可以從中受益。
onePiece 相對于ReaRec+PA 的提升,主要來源于 block-wise reasoning 帶來的信息帶寬收益和漸進(jìn)式的訓(xùn)練策略。
![]()
從 Table3 中可以看出,side info 對模型效果有巨大影響。此外,延長、優(yōu)化 PA 序列呈現(xiàn)了一定程度的 scaling law,SD token 對收攏、聚合全局信息有重要作用,上下文工程框架中的每個組分都能夠提升效果。
![]()
表 4 和 5 說明雙向注意力在搜推廣范式下更有優(yōu)勢。這其實比較容易理解,目前主流的搜推系統(tǒng)的用戶交互模式依然是“一次請求返回一個頁面”的方式,GR 模型不會依賴自己生成的 token 逐步解碼,每次請求來了以后,生成的過程都是“一錘子買賣”。因此,不存在解碼性能壓力的前提下,對 pre-filling 部分的序列施加雙向注意力可以更好的聚合信息。
此外,多步推理有 scaling 的效果,但效果逐漸收斂。漸進(jìn)式引導(dǎo)相比于只監(jiān)督最后一步更有效。值得注意的是,對于 ranking 模式下,candidate item 在attention mask 內(nèi)互相“可見”非常重要。
研究團(tuán)隊在 Shopee 主搜場景進(jìn)行了實驗,在召回階段和 prerank 階段兩個正交的實驗層進(jìn)行了在線 AB 實驗。
在召回階段,他們將 onePiece 召回替代了原有的 DeepU2I 召回,取得了 1.08% 的 GMV/user 增長;在 prerank 階段,他們用 onePiece ranking model 替換了原有的 DLRM model,取得了 1.12% 的 GMV/user 增長和 2.9% 的廣告收入增長,可以說是相當(dāng)大幅度的提升。
值得注意的是,他們對 onePiece 召回進(jìn)行了深度數(shù)據(jù)分析拆解:
![]()
“新上馬”的 onePiece 召回,相對于其它召回路來說,可以說是碾壓式覆蓋。通過優(yōu)化、平衡上下文工程中的 IH 和 PA 序列,onePiece 在覆蓋了文本召回曝光的 60%+ 商品的同時,覆蓋了個性化導(dǎo)向召回(如 SwingI2I)的 70%+。這在以往的召回迭代的經(jīng)驗下是幾乎不可能的事情,以前要么是側(cè)重個性化但相關(guān)性不足、損傷體驗,要么是側(cè)重相關(guān)性但個性化不足,損傷效率指標(biāo)。相比于DLRM 的 U2I 召回,onePiece 貢獻(xiàn)了 10% 的獨立曝光和 5.7% 的獨立點擊:
![]()
這說明 onePiece 選出來的內(nèi)容,通過了下游粗排、精排、重排的重重考驗,獲得了用戶的認(rèn)可,在 Explore&Exploit 這個推薦經(jīng)典問題上實現(xiàn)了難以置信的平衡,證明了推理模型的強(qiáng)大外推能力。
未來工作
研究團(tuán)隊表示,onePiece 是他們在 One For All 的通用推薦模型上的一次初步探索,證明了可以通過特殊的上下文工程和推理模式,引導(dǎo)模型的預(yù)測方向。onePiece 1.0 證明,“提示詞優(yōu)化”可能會成為搜推廣技術(shù)棧下的一個全新方向,onePiece 2.0 將會在 General Recommender Model 的探索上更進(jìn)一步,嘗試用一個模型來建模多場景和多召回策略:
![]()
此外,onePiece 1.0 雖然挖掘出了生成式推薦 style 的新型推理框架,但它也有著顯而易見的劣勢,即推理步驟和漸進(jìn)多任務(wù)系統(tǒng)的綁定,研究團(tuán)隊會探索可變長的推理形態(tài),充分挖掘序列推薦下真正的 test time scaling law。
更多詳細(xì)內(nèi)容,請查看原論文。





京公網(wǎng)安備 11011402013531號