快科技11月26日消息,據(jù)媒體報(bào)道,新加坡國家人工智能計(jì)劃(AISG)正迎來一次關(guān)鍵的戰(zhàn)略轉(zhuǎn)向。在其最新的東南亞語言大模型項(xiàng)目中,AISG放棄了meta的模型,轉(zhuǎn)而采用阿里巴巴的通義千問(Qwen)開源架構(gòu)。這一選擇不僅反映了技術(shù)路線上的重新考量,也標(biāo)志著中國開源AI模型在全球影響力擴(kuò)展中的重要一步。
11月25日,AISG發(fā)布了基于Qwen架構(gòu)的“Qwen-SEA-LION-v4”模型,該模型迅速登頂一項(xiàng)衡量東南亞語言能力的開源榜單。此舉旨在解決長期困擾該地區(qū)的語言適配難題——以meta的Llama系列為代表的西方開源模型,在處理印尼語、泰語、馬來語等區(qū)域性語言時(shí)表現(xiàn)欠佳,嚴(yán)重制約了本地化AI應(yīng)用的開發(fā)效率。
盡管Llama在開源模型中性能領(lǐng)先,但其“英語中心主義”的底層設(shè)計(jì)難以根本改變,在處理泰語、緬甸語等非拉丁語系文字時(shí)效率極低。AISG逐漸認(rèn)識到,依賴硅谷的開源模型并非東南亞國家的最優(yōu)解,必須尋找真正具備多語言理解能力、尤其是亞洲語言語境的基礎(chǔ)模型。

在這一背景下,AISG最終將目光投向了中國,選擇以阿里的Qwen3-32B作為新一代Sea-Lion模型的基座。
與西方模型不同,Qwen3在預(yù)訓(xùn)練階段就使用了高達(dá)36萬億個(gè)token的數(shù)據(jù),覆蓋全球119種語言和方言。這種“原生多語言能力”使其不僅“認(rèn)識”印尼語、馬來語等文字,更能從底層理解其語法結(jié)構(gòu),大幅降低了AISG后續(xù)訓(xùn)練的技術(shù)門檻。
為更好地適配東南亞語言獨(dú)特的書寫習(xí)慣,Qwen-Sea-Lion-v4摒棄了西方模型常用的“句子分詞器”,轉(zhuǎn)而采用更先進(jìn)的字節(jié)對編碼(BPE)分詞器。該技術(shù)能更精準(zhǔn)地切分泰語、緬甸語等無空格語言中的字符,顯著提升翻譯準(zhǔn)確度與推理速度。
除技術(shù)優(yōu)勢外,商業(yè)落地的現(xiàn)實(shí)考量也是阿里勝出的關(guān)鍵。東南亞地區(qū)擁有大量中小企業(yè),難以承擔(dān)昂貴的H100 GPU集群。而經(jīng)過優(yōu)化的Qwen-Sea-Lion-v4可在配備32GB內(nèi)存的消費(fèi)級筆記本電腦上流暢運(yùn)行,使普通開發(fā)者也能在本地部署這一國家級模型。這種“工業(yè)級能力、消費(fèi)級門檻”的特性,精準(zhǔn)契合了該地區(qū)算力資源稀缺的痛點(diǎn)。
此次合作并非單向技術(shù)輸出,而是一次深度的雙向融合。根據(jù)協(xié)議,阿里提供了強(qiáng)大的通用推理底座,AISG則貢獻(xiàn)了其經(jīng)過清洗的1000億個(gè)東南亞語言token。這些數(shù)據(jù)完全規(guī)避版權(quán)風(fēng)險(xiǎn),且東南亞內(nèi)容濃度高達(dá)13%,是Llama2的26倍。
在Sea-Helm評估榜單中,搭載阿里技術(shù)核心的Sea-Lion v4迅速登頂同量級開源模型榜首,驗(yàn)證了這一戰(zhàn)略合作的技術(shù)價(jià)值與區(qū)域適配性。






京公網(wǎng)安備 11011402013531號