12月18日,在火山引擎 Force 大會上,字節(jié)跳動正式發(fā)布豆包視覺理解模型。據(jù)透露,這是一個更具性價比的方案——豆包視覺理解模型千tokens輸入價格僅為3厘,經(jīng)換算,一元錢可處理284張720P的圖片,比行業(yè)價格便宜85%。
據(jù)火山引擎總裁譚待在現(xiàn)場介紹,豆包視覺理解模型不僅能精準(zhǔn)識別視覺內(nèi)容,還具備出色的理解和推理能力,可根據(jù)圖像信息進行復(fù)雜的邏輯計算,完成分析圖表、處理代碼、解答學(xué)科問題等任務(wù)。此外,該模型有較為細膩的視覺描述和創(chuàng)作能力。

圖:火山引擎總裁譚待
此前,豆包視覺理解模型已經(jīng)接入豆包App和PC端產(chǎn)品。而考慮到要讓用戶的輸入更快更方便,豆包產(chǎn)品非常注重多模態(tài)的輸入和打磨,包括語音、視覺等能力,這些模型都已通過火山引擎開放給企業(yè)客戶。
此外,豆包大模型多款產(chǎn)品也迎來重要更新,據(jù)現(xiàn)場披露,豆包通用模型pro已全面對齊GPT-4o,使用價格僅為后者的1/8;音樂模型從生成60秒的簡單結(jié)構(gòu),升級到生成3分鐘的完整作品;文生圖模型2.1版本,更是在業(yè)界首次實現(xiàn)精準(zhǔn)生成漢字和一句話P圖的產(chǎn)品化能力,該模型已接入即夢AI和豆包App。
另據(jù)分享,2025年春季將推出具備更長視頻生成能力的豆包視頻生成模型1.5版,豆包端到端實時語音模型也將很快上線。譚待表示,豆包大模型雖然發(fā)布較晚,但一直在快速迭代進化。
數(shù)據(jù)顯示,截至12月中旬,豆包通用模型的日均tokens使用量已超過4萬億,較七個月前首次發(fā)布時增長了33倍。





京公網(wǎng)安備 11011402013531號