
陳沛/文 谷歌的AI筆記產品NotebookLM最近新增了處理音頻視頻文件的功能。隨后,這次產品更新獲得了前OpenAI創始團隊成員Andrej Karpathy關注,認為它給人一種當年ChatGPT出現的相似感,可能會開啟新的AI模型產品形態。
NotebookLM的實際體驗更適合科研學習場景
NotebookLM是谷歌實驗室(Google Labs)此前已經推出的AI筆記產品。主要功能是用戶上傳PDF等格式的文檔,或者直接輸入谷歌在線文檔、在線幻燈片、網頁等網址,然后通過AI進行內容總結。用戶可以自行提問,讓AI針對上傳的文檔或輸入的在線文檔內容進行回答。
而這次最新更新是增加了多模態輸入功能。用戶在以上輸入功能的基礎上,現在可以上傳MP3音頻文件,或者直接輸入YouTube在線視頻的網址。
在輸出方面,NotebookLM的主要亮點是可以把輸入文檔直接輸出成兩人對話聊天的音頻文件,目前僅支持英語音頻。此外,NotebookLM還提供了常見的AI內容總結模板,例如摘要、學習指南、簡報、知識問答等,同時繼續支持用戶自行提問。
因此,從我實際使用體驗來看,NotebookLM更適合的是科研學習場景。例如學生可以上傳上課錄音快速總結知識點、研究者可以把論文轉成聽書文件對外宣傳、老師可以根據在線教學視頻生成知識點和考題等。
NoteBookLM的多模態新功能其實并非首創
NoteBookLM這次更新的多模態新功能其實并非首次出現。在谷歌實驗室的其它產品中已經出現過YouTube在線視頻總結功能,而不久前的Google Illuminate產品也發布過將PDF學術文檔轉成兩人對話音頻文件的功能。
特別是在NoteBookLM此次更新多模態功能后不久,新加坡政府科技局(GovTech)的Gabriel Chua很快在HuggingFace上推出了開源版Open NoteBookLM,使用了開源模型Llama 3.1-405B和文本轉語音框架MeloTTS,實現了將PDF轉成對話音頻文件的核心功能,而且在生成音頻的語言風格和時長方面提供了更多選項,且能夠支持中、英、法、日、韓、意等多種語言。
盡管在我實際使用開源版Open NoteBookLM的過程中,發現它的生成結果并沒有谷歌NoteBookLM那么穩定,且排隊等待時間長達5至10分鐘。但Open NoteBookLM的快速出現至少可以佐證,多模態新功能是很快能被開源界所追上的。
NoteBookLM啟示了AI應用的新路線
既然在功能層面的獨創性不足,那為什么NoteBookLM這次更新還會引發諸多業界關注,甚至與當年ChatGPT的出現相提并論?這或許是因為NoteBookLM可能會啟發AI應用的新路線。
自從ChatGPT出現以來,后續多數生成式AI都以聊天作為主要的產品形式。久而久之,這種對話問答形式出現的信息引用來源不準、生成內容“AI味太重”、問答結果難以核實等問題,也開始影響用戶體驗。
而NoteBookLM自一開始的定位就是AI筆記產品,由用戶提供想進一步了解的知識來源,NoteBookLM回歸AI助手的角色,甚至不需要用戶漫無目的地聊天輸入,就能準確高效地整理和組織各種形式的知識內容。
在這種路線下,AI產品的關注點不僅是為了和用戶進行自然對話,而是聚焦對知識條理的組織和整理,甚至是不同模態知識的任意轉換,有可能成為新的AI模型產品主流形態。





京公網安備 11011402013531號