
(圖片unsplash)
鈦媒體App 8月16日消息,國內(nèi)AI創(chuàng)業(yè)公司“上海秘塔網(wǎng)絡科技有限公司”(簡稱“秘塔科技”)發(fā)布聲明稱,知網(wǎng)近日發(fā)函警告AI搜索初創(chuàng)公司秘塔科技,未經(jīng)許可在AI搜索結(jié)果中呈現(xiàn)學術(shù)文獻題目、目錄及摘要內(nèi)容,構(gòu)成嚴重侵權(quán),侵權(quán)告知函長達28頁。
秘塔科技表示,《中國學術(shù)期刊(光盤版)》電子雜志社有限公司作為中國知網(wǎng)CNKI系列數(shù)據(jù)庫編輯出版單位,對該數(shù)據(jù)庫(包括題錄摘要數(shù)據(jù)及全文數(shù)據(jù))享有所有權(quán)利。秘塔科技通過秘塔AI搜索官網(wǎng)及APP向用戶提供該學術(shù)文獻題錄及摘要數(shù)據(jù),且數(shù)據(jù)量巨大。知網(wǎng)稱,此行為未經(jīng)許可,嚴重侵犯了知網(wǎng)合法權(quán)益。知網(wǎng)方面要求秘塔科技立即停止在搜索服務中提供其學術(shù)文獻題錄及摘要數(shù)據(jù),同時,不希望知網(wǎng)網(wǎng)站被秘塔科技搜索到,并立即斷開與知網(wǎng)網(wǎng)站的鏈接。“如需商務合作,請與我司聯(lián)系”。
對此,秘塔科技表示,依照學術(shù)規(guī)范,文獻的摘要和題錄應具有獨立性和自明性,能夠使讀者不閱讀全文就能獲得必要的信息。秘塔AI搜索的“學術(shù)”版塊僅收錄了論文的文獻摘要和題錄,并未收錄文章內(nèi)容本身,閱讀正文需通過來源鏈接跳轉(zhuǎn)至網(wǎng)站獲取。知識的價值在于流動,學術(shù)文獻作為匯集了人類智力成果的重要載體,具有極強的不可替代性。科學文獻若成為一種奢侈品,既不利于知識的公平獲取,也不利于科學研究的發(fā)展。
秘塔科技強調(diào),即使不理解這一行為,但公司尊重知網(wǎng)的選擇。從即日起,秘塔AI搜索將不再收錄知網(wǎng)文獻的題錄及摘要數(shù)據(jù),轉(zhuǎn)而收錄其他中英文權(quán)威知識庫的文獻題錄及摘要數(shù)據(jù),也歡迎其他數(shù)據(jù)庫來合作探討。

據(jù)悉,秘塔科技成立于2018年,公司CEO閔可銳此前為獵豹移動公司的首席科學家,現(xiàn)任北京大學法律人工智能實驗室首席智能科學家。
2018年,秘塔陸續(xù)推出法律AI翻譯產(chǎn)品 “秘塔翻譯”,糾錯校對產(chǎn)品 “秘塔寫作貓”;又在2022年推出文章生成產(chǎn)品 “量子速寫”,上線一周內(nèi)日活過萬。
今年3月以來,由秘塔科技打造的“秘塔AI搜索”突然爆火,引起市場關注,當月網(wǎng)站訪問量超過 700 萬次。據(jù)網(wǎng)站訪問數(shù)據(jù)監(jiān)測平臺Similar Web顯示,秘塔搜索3 月的訪問量在中國一批 AI 產(chǎn)品中排名第三,僅次于百度文心一言和月之暗面Kimi;當月增速達到550%。
今年8月,秘塔科技宣布完成超1億人民幣的A輪融資,由螞蟻集團領投,投后估值達1.5億美元(約合人民幣10.77億元)。而秘塔之前的老股東有明勢資本、獵豹移動和豐元資本等。
從產(chǎn)品角度來說,和傳統(tǒng)搜索引擎相比,AI搜索直接為用戶給出問題答案并附加來源鏈接。而秘塔AI搜索官網(wǎng)提供“簡潔”“深入”“研究”三種回答模式,搜索范圍可設置“全網(wǎng)”、“文庫”、“學術(shù)”、“播客”等來源。
針對告知函后續(xù),據(jù)南方都市報,秘塔科技首席運營官王益為表示,知網(wǎng)并未在告知函中具體指出侵犯何種權(quán)益。秘塔AI搜索知網(wǎng)的“學術(shù)”板塊也是能給知網(wǎng)帶來流量的,一些用戶通過秘塔AI搜索激活自己的知網(wǎng)賬號,為知網(wǎng)付費,本身是一件知網(wǎng)受益的事情。鑒于知網(wǎng)要求斷開鏈接,“我們也就不強行有交集了”。
據(jù)王益為透露,此前AI搜索結(jié)果不只是鏈接知網(wǎng)一家,但其他的中英文權(quán)威數(shù)據(jù)庫目前均未提出斷開鏈接的要求。而斷開知網(wǎng)鏈接后并不影響秘塔產(chǎn)品的使用體驗。

鈦媒體App了解到,知網(wǎng)母公司同方知網(wǎng)(北京)技術(shù)有限公司,近期與華為打造了一個名為中華知識大模型(華知大模型),可支撐知識服務、科學研究、探究學習、生產(chǎn)經(jīng)營、輔助診療、智慧司法等領域場景。
同方知網(wǎng)總經(jīng)理張宏偉在今年7月透露,知網(wǎng)是業(yè)界領先的數(shù)字出版和知識服務的企業(yè),用戶遍布全球90多個國家,教育、科研、智庫、政府、企業(yè)、科研機構(gòu)基本上都是知網(wǎng)用戶,尤其在國內(nèi)教育科研機構(gòu)基本上100%市場占有率。目前,同方知網(wǎng)隸屬于中國核工業(yè)集團,是一家央企,該機構(gòu)和全球70多個國家、兩萬多家出版機構(gòu)都建立了合作關系,初步建成世界知識大數(shù)據(jù)的體系,運營著全球最大的中文知識資源庫。
張宏偉指出,基于華知大模型,公司對知網(wǎng)全線產(chǎn)品進行深層改造,從加工、標注到面向各個行業(yè)的服務平臺增加這一工具,進行了全線改造。自今年5月中旬正式對公眾開放以來,華知用戶量迅猛增長,目前個人用戶已經(jīng)突破1000萬。
不過,知網(wǎng)曾屢次被罰,行業(yè)對其發(fā)展模式存在一定質(zhì)疑。2022年12月26日,市場監(jiān)管總局依法作出行政處罰決定,責令知網(wǎng)停止違法行為,并處以其2021年中國境內(nèi)銷售額17.52億元5%的罰款,計8760萬元;2023年9月,國家互聯(lián)網(wǎng)信息辦公室對知網(wǎng)(CNKI)依法作出網(wǎng)絡安全審查相關行政處罰的決定,責令停止違法處理個人信息行為,并處人民幣5000萬元罰款,援引包括其運營的手機知網(wǎng)、知網(wǎng)閱讀等14款App都被指存在相關問題,以及違反必要原則收集個人信息、未經(jīng)同意收集個人信息、未公開或未明示收集使用規(guī)則、未提供賬號注銷功能、在用戶注銷賬號后未及時刪除用戶個人信息等。
中國政法大學比較法學研究院教授劉文杰認為,摘要是論文內(nèi)容尤其是思想觀點的集中歸納,如果為網(wǎng)絡用戶提供搜索服務,而抓取網(wǎng)上公開數(shù)據(jù)以提供論文摘要,應屬于著作權(quán)法上的合理使用,通常不構(gòu)成侵犯著作權(quán)。
日前,國際著名期刊《自然》(《Nature》)雜志編輯伊麗莎白·吉普尼(Elizabeth Gibney)發(fā)布文章表示,當前有越來越多的學術(shù)出版商正在將研究論文授權(quán)給科技公司,用于訓練AI模型。有學術(shù)出版商借此賺取了2300萬美元,而作者卻收入為零。這些交易在很多情況下并未征求作者的意見,引發(fā)了部分研究人員的強烈不滿。
“如果你的論文還沒有被用作AI訓練數(shù)據(jù),很可能很快就會成為訓練的一部分。”伊麗莎白·吉普尼在文中指出,當前學術(shù)論文作者在面對出版商出售其版權(quán)作品時幾乎無權(quán)干涉。對于公開發(fā)表的文章,也沒有現(xiàn)成機制來確認這些內(nèi)容是否被用作AI訓練數(shù)據(jù)。在大語言模型使用中,如何建立更加公平的機制保護創(chuàng)作者的權(quán)益,值得學術(shù)界和版權(quán)界廣泛討論。
大語言模型(LLM)通常依賴從互聯(lián)網(wǎng)上抓取的大量數(shù)據(jù)進行訓練。這些數(shù)據(jù)包括數(shù)十億片段的語言信息(稱為“標記”),通過分析這些標記之間的模式,模型得以生成流暢的文本。學術(shù)論文因其內(nèi)容豐富、信息密度高,相比大量普通數(shù)據(jù)更有價值,是AI訓練中的重要數(shù)據(jù)來源。Mozilla基金會數(shù)據(jù)分析師斯特凡·巴克(Stefan Baack)分析指出,科學論文對大語言模型的訓練有很大幫助,尤其是在科學主題上的推理能力方面。正是由于數(shù)據(jù)的高價值,各大科技公司紛紛斥巨資購買數(shù)據(jù)集。
上海大邦律師事務所高級合伙人、律師游云庭表示,秘塔AI搜索的“學術(shù)”版塊最大的問題在于可以完整展現(xiàn)文章內(nèi)容,“論文PDF在研究結(jié)果里,雖然不能下載,但用戶在結(jié)果頁里點PDF的鏈接,是可以查看這篇文章全文的,這侵犯了這篇文章的信息網(wǎng)絡傳播權(quán)。”但如果吸收了文章精華后, AI 用自己的方式轉(zhuǎn)述給用戶,根據(jù)《著作權(quán)法》規(guī)定,為了說明某個問題合理引用部分作品內(nèi)容的,屬于合理使用。
對于大模型用論文數(shù)據(jù)做訓練,游云庭表示,這種行為并不侵權(quán)中國知網(wǎng)。根據(jù)《著作權(quán)法》,訓練的過程是復制和學習,復制是將文章從網(wǎng)絡復制到服務器里訓練,學習是否屬于侵權(quán),目前在法律上沒有明文判決可以判斷。但不管是復制權(quán)、學習,還是涉及到的著作權(quán)的其他權(quán)利,中國知網(wǎng)都不是論文權(quán)利人。
張宏偉坦言,AI大模型時代,知網(wǎng)需要建立生態(tài)與合作。
“如果說沒有上游、沒有出版業(yè)、沒有數(shù)據(jù)產(chǎn)業(yè)持續(xù)供給,高質(zhì)量數(shù)據(jù)實際上我們?nèi)斯ぶ悄墚a(chǎn)業(yè)是很難持續(xù)高質(zhì)量的發(fā)展,我們要解決這樣一個問題實際上需要我們?nèi)袠I(yè)來考驗智慧,我們需要協(xié)同發(fā)力,共同共建一個AIGC時代的好的生態(tài)來共同促進這個產(chǎn)業(yè)高質(zhì)量發(fā)展。我們知網(wǎng)愿意在這個方面和大家一起合作,來促進產(chǎn)業(yè)持續(xù)的、高質(zhì)量的發(fā)展。”張宏偉表示。
(本文首發(fā)于鈦媒體App,作者|林志佳,編輯|胡潤峰)





京公網(wǎng)安備 11011402013531號