AI 時代的資料耙取

林誠夏顧問/CC Taiwan、鈞理知識產權事務所

「天下文章一大抄、AI 都在撈資料！」事實上，生成式 AI 的發展仰賴良好的訓練資料，而生成式 AI 模組的應用，更需要使用檢索增強生成（RAG）機制，與權威資料進行對照驗證，才能提升正確性。然而，哪些資料是能抓的？哪些資料是不能抓的？法律的界限究竟在哪？過去我們透過 robots.txt 等機制，協調資料流通的互動框架，但已不完全符合 AI 時代的耙取需求，因為 robots.txt 基本上僅是一個技術框架，網站管理者透過 robots.txt，告知資料耙取自動程式／爬蟲程式（bot）哪些範圍可以探索、哪些不行，但並沒有界定在什麼條件下資料可以耙取，或資料耙取之後要如何使用。目前網路傳媒業者，包括 Reddit、Medium、Stack Overflow，正共同推出新的協議 RSL（Really Simple Licensing）。RSL 是一種專為 AI 時代設計的內容授權標準與協議，它以機器可讀的方式告訴各種 bot：哪些內容可以用、怎麼用、要不要付費、如何付費。不過，該標準目前仍在推行階段；客觀來說，AI 資料耙取的協議仍呈現戰國時代，缺乏一致的實作標準。

因此，在現階段，若有公開資料耙取的需求，建議仍應先行尊重 robots.txt 的技術框架，並透過該等文件探求個別平台是否設有延伸的授權規範。許多 robots.txt 已針對 AI 爬蟲擴充其說明項，敦促爬蟲操作者進一步閱讀經由 robots.txt 導引的平台授權規範。各大 AI 服務廠商的爬蟲，例如 GPTBot、ClaudeBot，也對外公告聲稱會尊重這樣的授權導引。這裡有一個重要的著作權基本法制觀念應予掌握：基於創作保護主義，例如我國著作權法第 10 條所訂「著作人於著作完成時享有著作權」，他人公開於網站平台上的素材，原則上應推定受有著作權保護。因此，若有進一步使用的需求，建議主動探知其授權規範，並盡量採合於權利人公告規範的方式來利用這些素材。

然而，進一步觀察此一議題，另一個著作權法制上的概念同樣重要：著作權的保護，並未預設自動延伸至純資訊的範圍。也就是說，單純以數據表格形式呈現的資訊，若僅為事實性紀錄，則其單筆或數筆的學習或耙取，原則上不受著作權法限制。我國相關規範見於著作權法第 10-1 條：「依本法取得之著作權，其保護僅及於該著作之表達，而不及於其所表達之思想、程序、製程、系統、操作方法、概念、原理、發現。」不過，若該等資訊已轉化為具創意編輯性的資料集或資料庫，亦即著作權法第 7 條所稱「選擇及編排具有創作性者」，則屬另一層次的議題。此時，該等編輯資料可能已構成「編輯著作」，或在歐盟法制下被認定為資料庫。若針對該等編輯資料的實質部分（substantial part）進行目的性耙取，而影響其既有或潛在收益，即可能產生權利侵害的風險。

因此，廣域的知識資訊（純資訊）原則上是可以學習與利用的，這才符合著作權法第 1 條所揭櫫「調和社會公共利益、促進國家文化發展」的宗旨；然而，對於注入編輯創意的獨特資料產出（編輯資料），仍建議尊重並考量其著作權人之相關權益，亦即盡量依循其公告的授權規範來進行利用。

Our Stories@FCU Library

No Comments Yet

發佈留言