作者 | Yoky
郵箱 | yokyliu@pingwest.com
Perplexity 每一次納入新模型,都是很強(qiáng)的信號(hào):這一次,亮的是 Kimi K2。
7 月 13 日,Perplexity 聯(lián)合創(chuàng)始人兼 CEO Aravind Srinivas 在 X 上發(fā)布消息:“Kimi K2 的內(nèi)部評(píng)測(cè)結(jié)果非常驚艷,我們很快會(huì)啟動(dòng) post-training。”

Perplexity的站臺(tái),讓K2在開(kāi)源社區(qū)的熱度繼續(xù)飆升,這種盛況并不陌生——上一次出現(xiàn)類(lèi)似的轟動(dòng)效應(yīng),正是Perplexity宣布選擇納入DeepSeek-R1的時(shí)候。
這背后反映出一個(gè)有趣的現(xiàn)象:對(duì)于全球開(kāi)發(fā)者來(lái)說(shuō),Perplexity用不用某個(gè)開(kāi)源模型,實(shí)際上已經(jīng)演變成了一個(gè)重要的風(fēng)向標(biāo)。它所指向的,不僅僅是技術(shù)優(yōu)劣,更是開(kāi)源模型能否經(jīng)受住真實(shí)產(chǎn)業(yè)環(huán)境考驗(yàn)的關(guān)鍵信號(hào)。
AI搜索是離“真實(shí)世界任務(wù)”最近的試煉場(chǎng),而Perplexity對(duì)模型的需求遠(yuǎn)不止“便宜”這么簡(jiǎn)單。
Aravind曾在Reddit上解釋為什么沒(méi)有接入GPT-4.5:“GPT-4.5的解碼速度只有11個(gè)token/秒,相比之下,4o是110個(gè)token/秒(快10倍),我們自己的Sonar模型是1200個(gè)token/秒(快100倍)。這導(dǎo)致用戶(hù)體驗(yàn)不佳,因?yàn)樗麄兤谕焖佟?zhǔn)確的答案。”

換句話(huà)說(shuō),實(shí)時(shí)響應(yīng)和低延遲是選型的生死線(xiàn)。Perplexity的峰值請(qǐng)求量可達(dá)日常十倍,任何超過(guò)兩秒的等待都會(huì)顯著降低用戶(hù)體驗(yàn)。在vLLM + FP8實(shí)測(cè)中,K2的MoE架構(gòu)僅激活32B參數(shù),在相同硬件條件下輸出速度比R1快一倍,且單位成本更低,這正是高并發(fā)場(chǎng)景下經(jīng)濟(jì)與性能的最佳平衡點(diǎn)。
今年4月,Aravind預(yù)告了Perplexity的系列新功能,他強(qiáng)調(diào)這不是簡(jiǎn)單的產(chǎn)品改動(dòng),而是底層模型的重構(gòu):“我們需要重寫(xiě)基礎(chǔ)設(shè)施才能大規(guī)模實(shí)現(xiàn)。”
他描述的核心功能是更強(qiáng)大的深度研究代理,能夠思考30分鐘或更長(zhǎng)時(shí)間,“包括工具使用、交互式和代碼執(zhí)行功能,就像Manus等最近的原型所展示的那樣。”
這本質(zhì)上是一個(gè)純Agent模式:給定自然語(yǔ)言需求,模型必須自主拆解任務(wù)、調(diào)用工具、執(zhí)行代碼,最終生成完整報(bào)告。這種能力恰好與Kimi K2的“模型即Agent”理念完全對(duì)齊——K2不是把Agent能力當(dāng)作后訓(xùn)練插件,而是在預(yù)訓(xùn)練階段就將原生Agent技能刻入權(quán)重。
K2在訓(xùn)練階段引入了數(shù)百萬(wàn)條合成Agent任務(wù),覆蓋搜索、瀏覽器、日歷、Python、SQL等17種真實(shí)工具調(diào)用場(chǎng)景。模型學(xué)會(huì)在單一會(huì)話(huà)內(nèi)連續(xù)編排16-20步操作,無(wú)需人類(lèi)編寫(xiě)工作流。官方演示中,K2用16次IPython調(diào)用將13萬(wàn)行原始數(shù)據(jù)完成清洗、建模、繪圖并輸出交互網(wǎng)頁(yè)報(bào)告,全程零人工干預(yù)——這直接對(duì)應(yīng)Perplexity設(shè)想的“30分鐘自主研究”。
當(dāng)然,選擇開(kāi)源模型的更深層原因在于完整的控制權(quán)。擁有完整權(quán)重意味著Perplexity可以任意進(jìn)行LoRA、RLHF、工具蒸餾,無(wú)需擔(dān)心調(diào)用頻率、并發(fā)上限或隱私合規(guī)問(wèn)題。K2采用MIT改協(xié)議,月活低于1億即可商用,Hugging Face直接提供fp8/fp16全套權(quán)重,128K上下文窗口足夠一次性處理整份財(cái)報(bào)。對(duì)Perplexity而言,這意味著“模型-索引-工具”三層架構(gòu)可以完全私有化,不再受任何閉源條款約束。
Perplexity 在其發(fā)展過(guò)程中,逐步從依賴(lài) OpenAI 的 GPT 模型轉(zhuǎn)向使用開(kāi)源模型,并在此基礎(chǔ)上進(jìn)行了自研和微調(diào)。
2023年下半年,Perplexity 宣布推出兩款新的“pplx-7b-online”和“pplx-70b-online”,分別基于開(kāi)源模型 Mistral-7b 和 LLaMA 2-70b 構(gòu)建。“我們從LLaMA-2發(fā)布之日起就開(kāi)始使用開(kāi)源模型,”Aravind Srinivas說(shuō)道。
從模型特點(diǎn)來(lái)看,Mistral-7B以輕量化和高速度成為早期嘗試,驗(yàn)證了小模型在特定任務(wù)的可行性;Llama-2-70B提供了更廣的知識(shí)覆蓋面;隨后,Perplexity還采用了Code Llama-34B,補(bǔ)強(qiáng)了代碼相關(guān)的垂直能力。
真正的轉(zhuǎn)折點(diǎn)出現(xiàn)在2025年2月,DeepSeek-R1讓Perplexity完成了從“使用開(kāi)源模型”到“基于開(kāi)源模型自研”的關(guān)鍵跳躍,獲得了完整的權(quán)重控制能力。而后,Perplexity又繼續(xù)深度調(diào)優(yōu)Sonar模型,展現(xiàn)了自研能力的成熟,專(zhuān)門(mén)針對(duì)搜索問(wèn)答場(chǎng)景進(jìn)行優(yōu)化。
如今選擇Kimi K2,正是這一戰(zhàn)略的最新體現(xiàn)——不僅在速度和成本上優(yōu)于R1,其原生Agent能力更完美契合了“30分鐘自主研究”的產(chǎn)品需求。
綜合來(lái)看,Perplexity的模型選型必須在高性?xún)r(jià)比與高性能之間找到平衡,同時(shí)滿(mǎn)足特定的產(chǎn)品需求。由于目前尚無(wú)開(kāi)源模型能完全達(dá)到其標(biāo)準(zhǔn),Perplexity只能階段性地選擇最優(yōu)解,這種“擇優(yōu)而用”的策略反而讓其成為了開(kāi)源模型能力評(píng)判的重要風(fēng)向標(biāo)。





京公網(wǎng)安備 11011402013531號(hào)