IT之家 11 月 12 日消息,騰訊開源官方公眾號(hào)今日宣布:來(lái)自騰訊微信團(tuán)隊(duì)的 KaLM-Embedding 開源模型再創(chuàng)全球新紀(jì)錄。在最新發(fā)布的 MTEB 多語(yǔ)言通用 Embedding 模型權(quán)威評(píng)測(cè)中,新一代通用 Embedding 模型 KaLM-Embedding-Gemma3-12B-2511 綜合成績(jī)?nèi)虻谝弧?/p>
![]()
▲ 圖源:騰訊開源公眾號(hào)
在涵蓋全球 1038 種語(yǔ)言、共計(jì) 131 項(xiàng)任務(wù)的權(quán)威多語(yǔ)言評(píng)測(cè)體系 MTEB 中,KaLM-Embedding-Gemma3-12B-2511 綜合得分分別達(dá)到 72.32(Mean Task)與 62.51(Mean TaskType),獲全球第一。
據(jù)騰訊開源介紹,在大模型技術(shù)快速發(fā)展的背景下,語(yǔ)義理解能力成為人工智能系統(tǒng)落地的關(guān)鍵。Embedding 模型作為實(shí)現(xiàn)語(yǔ)義編碼的核心技術(shù),通過將文本轉(zhuǎn)化為高維向量,支持非結(jié)構(gòu)化內(nèi)容可度量、可檢索的特性,為上層應(yīng)用提供基礎(chǔ)支撐。
在 RAG(檢索增強(qiáng)生成)等主流架構(gòu)中,Embedding 模型能夠從海量知識(shí)庫(kù)中精準(zhǔn)檢索語(yǔ)義相關(guān)信息,動(dòng)態(tài)構(gòu)建高質(zhì)量上下文,有效提升大模型生成結(jié)果的準(zhǔn)確性與可靠性,抑制“幻覺”現(xiàn)象。
此外,Embedding 技術(shù)還應(yīng)用于文本分類、語(yǔ)義匹配、信息聚類、搜索推薦、多語(yǔ)言理解等多個(gè)領(lǐng)域,成為現(xiàn)代 AI 系統(tǒng)中不可或缺的語(yǔ)義基礎(chǔ)組件。
IT之家附 KaLM-Embedding-Gemma3-12B-2511 核心亮點(diǎn)如下:
模型規(guī)模:參數(shù)量提升至 120 億(12B),是當(dāng)前 MTEB 榜單上最大規(guī)模的 Embedding 模型之一,顯著增強(qiáng)了模型的表示能力與泛化性能。 跨語(yǔ)言能力:在多語(yǔ)言語(yǔ)義對(duì)齊方面實(shí)現(xiàn)顯著優(yōu)化,支持更精準(zhǔn)的跨語(yǔ)種語(yǔ)義理解與檢索任務(wù)。 數(shù)據(jù)質(zhì)量:基于經(jīng)過深度清洗與篩選的大規(guī)模高質(zhì)量語(yǔ)料進(jìn)行訓(xùn)練,有效提升語(yǔ)義表示的一致性與可靠性。 訓(xùn)練策略:采用多階段對(duì)比學(xué)習(xí)、Embedding 蒸餾和模型參數(shù)融合等技術(shù),進(jìn)一步提升模型多維度能力表現(xiàn)與綜合性能。 維度嵌套:支持多種向量維度選擇,涵蓋 3840、2048、1024、512、256、128 及 64 等多個(gè)層級(jí),滿足不同場(chǎng)景下的高效應(yīng)用需求。
百億參數(shù)模型 KaLM-Embedding 獲取、技術(shù)論文等如下:
模型獲取:https://huggingface.co/tencent/KaLM-Embedding-Gemma3-12B-2511 討論反饋:https://huggingface.co/tencent/KaLM-Embedding-Gemma3-12B-2511/discussions 技術(shù)論文:https://arxiv.org/abs/2506.20923 開源協(xié)議:采用 MIT 許可證,支持商業(yè)用途,助力技術(shù)廣泛傳播與應(yīng)用。





京公網(wǎng)安備 11011402013531號(hào)