林誠夏顧問/CC Taiwan、鈞理知識產權事務所
「天下文章一大抄、AI 都在撈資料!」事實上,生成式 AI 的發展仰賴良好的訓練資料,而生成式 AI 模組的應用,更需要使用檢索增強生成(RAG)機制,與權威資料進行對照驗證,才能提升正確性。然而,哪些資料是能抓的?哪些資料是不能抓的?法律的界限究竟在哪?過去我們透過 robots.txt 等機制,協調資料流通的互動框架,但已不完全符合 AI 時代的耙取需求,因為 robots.txt 基本上僅是一個技術框架,網站管理者透過 robots.txt,告知資料耙取自動程式/爬蟲程式(bot)哪些範圍可以探索、哪些不行,但並沒有界定在什麼條件下資料可以耙取,或資料耙取之後要如何使用。目前網路傳媒業者,包括 Reddit、Medium、Stack Overflow,正共同推出新的協議 RSL(Really Simple Licensing)。RSL 是一種專為 AI 時代設計的內容授權標準與協議,它以機器可讀的方式告訴各種 bot:哪些內容可以用、怎麼用、要不要付費、如何付費。不過,該標準目前仍在推行階段;客觀來說,AI 資料耙取的協議仍呈現戰國時代,缺乏一致的實作標準。
因此,在現階段,若有公開資料耙取的需求,建議仍應先行尊重 robots.txt 的技術框架,並透過該等文件探求個別平台是否設有延伸的授權規範。許多 robots.txt 已針對 AI 爬蟲擴充其說明項,敦促爬蟲操作者進一步閱讀經由 robots.txt 導引的平台授權規範。各大 AI 服務廠商的爬蟲,例如 GPTBot、ClaudeBot,也對外公告聲稱會尊重這樣的授權導引。這裡有一個重要的著作權基本法制觀念應予掌握:基於創作保護主義,例如我國著作權法第 10 條所訂「著作人於著作完成時享有著作權」,他人公開於網站平台上的素材,原則上應推定受有著作權保護。因此,若有進一步使用的需求,建議主動探知其授權規範,並盡量採合於權利人公告規範的方式來利用這些素材。
然而,進一步觀察此一議題,另一個著作權法制上的概念同樣重要:著作權的保護,並未預設自動延伸至純資訊的範圍。也就是說,單純以數據表格形式呈現的資訊,若僅為事實性紀錄,則其單筆或數筆的學習或耙取,原則上不受著作權法限制。我國相關規範見於著作權法第 10-1 條:「依本法取得之著作權,其保護僅及於該著作之表達,而不及於其所表達之思想、程序、製程、系統、操作方法、概念、原理、發現。」不過,若該等資訊已轉化為具創意編輯性的資料集或資料庫,亦即著作權法第 7 條所稱「選擇及編排具有創作性者」,則屬另一層次的議題。此時,該等編輯資料可能已構成「編輯著作」,或在歐盟法制下被認定為資料庫。若針對該等編輯資料的實質部分(substantial part)進行目的性耙取,而影響其既有或潛在收益,即可能產生權利侵害的風險。
因此,廣域的知識資訊(純資訊)原則上是可以學習與利用的,這才符合著作權法第 1 條所揭櫫「調和社會公共利益、促進國家文化發展」的宗旨;然而,對於注入編輯創意的獨特資料產出(編輯資料),仍建議尊重並考量其著作權人之相關權益,亦即盡量依循其公告的授權規範來進行利用。

No Comments Yet