![]()
機器之心報道
機器之心編輯部
當前,AI 領域的研究者與開發者在關注 OpenAI、Google 等領先機構最新進展的同時,也將目光投向了由前 OpenAI CTO Mira Murati 創辦的 Thinking Machines Lab。
今年早些時候,他們推出了首款產品 Tinker:這是一個 API,用于幫開發者 / 研究人員微調語言模型。你只需要專注于訓練數據和算法,而你不擅長的關于 Infra 的部分 —— 調度、調優、資源管理和 Infra 可靠性 —— 統統由 Tinker 來搞定,從而大大簡化了 LLM 的后訓練過程。
此前,Tinker 僅向研究人員和開發者開放內部測試;而如今,Thinking Machines 宣布正式取消候選名單,所有用戶都可以直接使用 Tinker
除此以外,Tinker 還帶來了其他三項更新:
首先,更強推理能力:用戶現在可以在 Tinker 上對 Kimi K2 Thinking 進行微調。 Kimi K2 擁有萬億參數規模,是 Thinking Machines 目前規模最大的模型,專為長鏈推理和工具調用場景而設計。
其次,兼容 OpenAI API 的全新推理接口:Tinker 提供了標準的推理接口,例如:
![]()
借助本次發布,Tinker 還新增了兼容 OpenAI API 的接口封裝,用戶只需通過指定模型路徑,即可對模型進行快速采樣,即使模型仍處于訓練過程中也可以使用。
這也意味著,Tinker 現在可以即插即用地接入任何兼容 OpenAI API 的平臺。
![]()
最后,Qwen3-VL 支持視覺輸入。Tinker 新增了兩款視覺模型:Qwen3-VL-30B-A3B-Instruct 和 Qwen3-VL-235B-A22B-Instruct。借助這些模型,用戶可以在多種應用場景中處理圖片、截圖以及示意圖等視覺內容。
![]()
這些視覺輸入開箱即用,可直接應用于多種任務場景,包括監督微調和強化學習微調。
![]()
Tinker支持的模型
過去,開發者若想訓練或微調前沿大模型,必須自行采購 GPU、搭建集群、處理 CUDA/NCCL 環境、維護分布式訓練穩定性,門檻極高且成本巨大。
而 Tinker 通過將所有訓練基礎設施抽象為一個 API,使開發者無需管理任何算力資源,只需準備數據和算法即可訓練模型。更重要的是,此次更新首次讓普通開發者能夠微調萬億參數的 Kimi K2 Thinking,這本來是只有頂級實驗室才能掌握的能力,視覺輸入的加入進一步降低了 VLM 應用門檻。
對此,研究者紛紛表示:「能夠在無需自行管理 GPU 基礎設施的情況下訓練自定義圖文數據,對開發者來說是一項巨大的進步。」
![]()
使用 Tinker 訓練圖像分類模型
為了展示 Tinker 新增的視覺能力,Thinking Machines Lab 對 Qwen3-VL-235B-A22B-Instruct 進行了微調,并將其應用于多項經典圖像分類基準測試中。
具體而言,研究團隊選擇了四個常用的數據集進行評估,包括:
Caltech-101:包含 101 類常見物體的數據集Stanford Cars:涵蓋汽車品牌、型號和年份的數據集Oxford Flowers:花卉品種數據集Oxford Pets:寵物品種數據集
由于 Qwen3-VL 本質上是語言模型,研究中將圖像分類任務建模為文本生成問題:給定一張圖片,模型直接輸出對應的類別名稱。研究人員將這一方法與傳統的視覺基線方案 DINOv2 進行了對比。
DINOv2 是一種通過自監督方式訓練的視覺 Transformer,常被用作純計算機視覺任務的 backbone。對于 DINOv2,研究中在其模型之上添加了一個分類頭,用于預測所有 N 個類別的概率分布。兩種模型均采用 LoRA 方式進行微調。
![]()
圖中展示了經過微調的 Qwen3-VL-235B-A22B 與 DINOv2 在簡單圖像分類任務上的性能對比。
在小樣本數據場景下,Qwen3-VL-235B-A22B 的表現優于 DINOv2。這不僅是因為其模型規模更大,更重要的是,作為視覺語言模型(VLM),它天然具備語言知識(例如知道「向日葵」指代什么)。正是這種通用的語言與視覺聯合能力,使得 Qwen3-VL 在圖像分類之外,也能夠更方便地遷移到其他視覺任務中。
還沒體驗的小伙伴,Tinker 絕對值得一試。
https://thinkingmachines.ai/tinker/
https://thinkingmachines.ai/blog/tinker-general-availability/





京公網安備 11011402013531號