作為一種現象級的技術應用,ChatGPT不僅給多個行業帶來了新的可能,也對現行的法律制度提出了挑戰,其在自然語言生成應用場景下的生成內容引發了可版權性和權利歸屬等論爭。基于對著作權法、ChatGPT的技術發展和生成內容類型的分析,本文認為,ChatGPT在自然語言生成應用場景下的生成內容在現有著作權法系統下無法構成“作品”,內容生產和模型訓練分別對著作權核心理念和合理使用原則提出了挑戰,生成內容的利用有可能引發道德和著作權侵權風險。 引言 2022年11月30日,OpenAI公司發布了名為ChatGPT(Chat Generative Pre-training Transformer,對話式生成型預訓練轉換模型)的人工智能對話系統。由于ChatGPT能夠通過聊天對話為用戶提供多個知識領域的詳盡答案,編寫軟件代碼,甚至生產出類似真人撰寫的文章,自推出后即受到全球廣泛關注,月活用戶在兩個月時間內就突破1億人,目前已有多家企業正在布局和研發與生成式人工智能相關的產品和服務。作為一種現象級的技術應用,ChatGPT不僅給多個行業帶來了新的可能,也對現行法律制度提出了挑戰。“著作權從一開始就是技術之子”(保羅·戈斯汀,2008:22),如今,新技術也正在考驗著作權法調整信息與內容產品市場的能力。ChatGPT的本質是人工智能生成技術(Artificial Intelligence Generate Content, AIGC)的具體應用。近年來,學界圍繞人工智能生成內容的法律屬性展開了討論,但尚未形成一致觀點:少數學者對人工智能生成物的可版權性持謙抑態度,多數學者則認為人工智能生成內容能構成著作權法意義上的“作品”,主要依據包括“客觀主義標準說”和“工具說”等。基于既有研究、ChatGPT的技術發展和生成內容類型,本文對ChatGPT生成內容的可版權性進行辨析,并針對ChatGPT在運行過程中可能出現的侵權風險展開討論。本文認為:ChatGPT生成內容在現有著作權法系統下無法構成“作品”,內容生成和模型訓練分別對著作權核心理念和合理使用原則提出了挑戰,生成內容的利用有可能引發道德和著作權侵權風險。 一、人工智能技術、人工智能生成物與可版權性爭議 作為計算機學科的一個重要分支,人工智能(Artificial Intelligence)于1956年在一場機器模擬智能的研討會上被正式提出;經過幾十年的發展,其與基因工程、納米技術共同被稱為21世紀三大尖端技術。目前關于“人工智能”的界定學界尚未形成統一的觀點,但既有定義基本上都概括了這一學科的基本思想和內容,即通過計算機模擬人類的思維過程和智能行為(蔡自興,劉麗玨,蔡競峰,2016:2)。伴隨著移動互聯網、大數據等技術和基礎設施的快速發展,人工智能在21世紀取得了迅速發展。先前的人工智能多偏重于分析能力的開發和應用,即對數據進行分析以發現其中的規律和模式,個性化推薦算法是這一階段人工智能技術的典型應用場景;近年來,人工智能不再局限于對已存在內容的分析,而是能夠基于數據訓練和算法生成模型自主生成多種形式的新內容,實現了從感知理解到生成“創造”的飛躍(張智雄等, 2023)。目前,機器人已經可以自己“創造”音樂、繪制圖畫、寫作詩歌和小說等,微軟公司的人工智能產品“小冰”生成的人工智能詩集《陽光失了玻璃窗》已于2017年5月正式出版。人工智能生成物的出現也給著作權法帶來了一系列新的挑戰,近年來,學界和業界圍繞人工智能生成內容的可版權性等問題進行了討論。 學界對于人工智能生成物的法律屬性尚未形成統一意見。有些學者認為人工智能生成物不能構成著作權法意義上的“作品”。比較有代表性的觀點認為,人工智能生成內容在形式上的“獨創”非構成作品的充分條件,只有人的智力成果才能作為作品受到著作權法的保護(王遷,2023)。有學者以著作權制度的立法宗旨為出發點進行分析,認為著作權法對于作品豐富性和多元化的追求體現了“無序”的面向;而在現階段,人工智能工作的底層邏輯仍是學習、利用規律并選擇最優方案,這一過程是從“無序”向“有序”的轉變,背離了著作權法律制度的宗旨和標準,因此人工智能生成物不具有可版權性(劉琳,2022)。多數國內學者則認為人工智能生成物具有可版權性,主要觀點包括“客觀主義標準說”和“工具說”等。持“客觀主義標準說”的學者認為,不能因人工智能創作物的作者不是自然人就否定其可版權性,判斷人工智能生成內容能否構成作品應堅持客觀主義標準,無需考慮作品的創作過程,應僅就創作結果在形式上判斷其是否具有“創作性”(易繼明,2017;李偉民,2018)。認可“工具說”的學者承認“作品應是自然人創作成果”這一前提,認為人工智能本質上屬于人的創作工具,其生成內容是人類作者思想的延伸表達,只要滿足版權法要求的獨創性和能以一定形式表現的標準,就應該考慮將其認定為作品(熊琦,2017;叢立先,2019;王小夏,付強,2017)。也有學者認為法教義學上的討論沒有實質性意義,轉而從激勵論和市場競爭的角度出發,指出承認人工智能創作物的可版權性更能實現政策選擇的利益(曹源,2016)。有學者進一步指出,人工智能已不再是簡單的程序,而已經成為“具有自我學習和理性行動能力的智能系統”,“在未來可以把人工智能作為新的民事主體對待”(李偉民,2018)。在認可人工智能生成物可版權性的基礎上,學界又針對其權利歸屬進行了討論,認為可以將其作為“設計版權的演繹作品”(易繼明,2017)、“人工智能設計者的法人作品”(熊琦,2017)或“民法中的孳息”(黃玉燁,司馬航,2018)等進行保護。 二、現行版權法系統下ChatGPT生成內容的非版權性 ChatGPT可被應用于多個場景,但并非其全部生成內容都會引起版權爭議。通過對ChatGPT生成內容進行梳理,其在自然語言生成應用場景下的生成內容是涉及著作權爭議的主要部分。客觀主義標準下ChatGPT生成內容具有可版權性的論斷并不構成實質性成立,現行版權法僅保護人類的成果;將生成式人工智能視作人類創作工具的觀點混淆了“人工智能生成的”和“人工智能輔助生成的”兩個概念,因此,ChatGPT生成物不具有可版權性。 (一)ChatGPT技術的發展與生成內容的類型 ChatGPT的表現形式是聊天機器人,能夠通過學習和理解人類語言、根據上下文環境與用戶進行交流;但其本質上是人工智能生成技術的具體應用,能夠在深度學習人類語言和相關領域知識的基礎上自動生成特定內容。ChatGPT的關鍵技術基礎是大規模語言模型,在生成型預訓練轉換模型(Generatibe Pre-trained Transformer, GPT)系列模型的基礎上研發,歷經四年迭代而來,其在最初發布時的模型版本為GPT-3.5。ChatGPT獲得廣泛關注的重要原因之一是引入了新技術RLHF(Reinforcement Learning with Human Feedback,基于人類反饋的強學習)。該技術通過人工標注微調模型、訓練獎勵模型和基于近端策略優化模型生成回答等環節,使人工智能模型生成的內容與人類常識、認知、需求和價值保持一致。因此,ChatGPT與前期同類產品相比,編造事實的比例大幅度下降,生成內容的毒性大大降低,在本質上仍屬于生成式人工智能。目前,ChatGPT的語言模型已經從GPT-3.5進化到了GPT-4,未來可能會生成更多形式的內容。 當前,ChatGPT能夠適用于智能問答、語言轉換和自然語言生成等應用場景,據此其生成內容大致可分為三種類型(張智雄等, 2023)。在智能問答應用場景下,ChatGPT能夠回答用戶提出的常識性或基于具體場景等的問題,如知識問答、角色模擬等;這一場景也可以作為一種檢索方式發揮作用,在這一場景下,ChatGPT生成的內容主要是基于已有知識的事實性回答或具體場景語境下的溝通內容。在語言轉換應用場景下,ChatGPT可以實現不同語言之間的轉換,除了自然語言之間的相互翻譯之外,還能夠實現編程語言之間、編程語言與自然語言之間、自然語言與特殊代碼符號之間的相互轉換;在這一場景,ChatGPT生成的內容主要包括文本的翻譯、讀寫的代碼等。自然語言生成場景是ChatGPT進行內容“創造”的核心應用場景,在該場景下,ChatGPT可以執行三種任務類型:一是由繁至簡的概述,即輔助從繁雜的信息中快速提煉要點,如生成關鍵詞等;二是由少到多的擴充,如根據用戶給出的提示內容撰寫短篇故事等;三是從有到無的“創作”,即輔助用戶生成對話情景要求的內容,如撰寫論文提綱、文獻綜述等。由此可見,并非ChatGPT生成的全部內容均會引起著作權爭議,涉及可版權性論爭的主要是自然語言生成應用場景下的生成內容,本文的下述討論亦針對此部分內容。 (二)客觀主義視角下ChatGPT生成內容可版權性的表象成立 《中華人民共和國著作權法》 (以下簡稱《著作權法》)第三條規定,作品“是指文學、藝術和科學領域內具有獨創性并能以一定形式表現的智力成果”。判斷ChatGPT生成內容能否構成作品無法繞開對“獨創性”標準的解讀。“獨創性”標準作為一種通行的做法,各國尚未有立法層面的定義或明確解釋,司法實踐也莫衷一是。作為大陸法系的代表,法國的傳統觀點認為“獨創性”是作者個性的反映,源自作者在創作過程中有創造性的選擇,在具有里程碑性質的Pachot案中,法官將“獨創性”定義為“智力投入”,但如果這種投入是自動或者強制邏輯性的,則不會受到保護。英國法院在多個案件中對獨創性標準進行了解釋,最終確立了兩個基本原則:一是該作品并非對他人作品的抄襲,二是該作品必須投入了“個人的技巧、勞動或判斷”(姜穎,2004)。美國1909年著作權法提出了對作品獨創性的要求,其司法實踐在早期采用與英國傳統標準相似的“額頭出汗”原則,但在Feist案后要求“獨創性”包含“獨立創作”和“少量的創造性”兩方面內涵(李偉文,2000)。由此可見,關于“獨創性”的理解和討論主要圍繞“獨立創作”和“創造性”兩個概念的含義展開。 有學者認為,“獨立創作”被納入“獨創性”的內涵范圍,是由版權法的歷史背景、解決版權制度操作性難題的需要以及司法實踐的偶然因素等多方面因素共同作用的結果;“獨立創作”描述了作品與創作者之間的關系,而非作品在本質上區別于其他事物的屬性,“創造性”才是版權法基于一定的價值目標、對作品法定屬性和要求所作出的規定(喬麗春,2011)。“獨立創作”涉及作品著作權歸屬,判斷創作物是否能夠構成“作品”應首先堅持一種客觀主義的判斷標準,即判斷創作物在表達形式上能否滿足著作權法要求的足夠的“創造性”。在客觀主義的獨創性標準下,無需考慮ChatGPT生成內容的創作者和創作過程,只需要考慮其生成內容是否達到了最低限度的創造性及其是否能以一定形式表現。就第一個問題而言,如今,ChatGPT可以撰寫詩歌、在一定的用戶提示下完成短篇小說,且已有多篇學術論文將ChatGPT列為合作者;由此可見,ChatGPT生成內容在形式上與人類作品具有接近性,在沒有明確標明內容來源的情況下,其生成內容與人類作品在表象層面已經較難區分出來。因此,ChatGPT生成內容可以被認定為能夠滿足最低限度的創造性。而就“能否以一定形式表現”這一問題來看,ChatGPT生成的文本內容無疑可以通過一定形式被固定下來。由此可見,在客觀主義標準下,ChatGPT生成內容具備表象層面的可版權性。 (三)民法權利主體——人視角下ChatGPT內容可版權性的實質不成立 “民法對事實行為的概括往往以行為所造成的客觀后果作為最終構成要件”(董安生,1997:113),創作行為作為一種事實行為,創作內容是這一行為的結果,以創作內容本身去判斷生成內容是否具有獨創性在某種程度上具備合理性(楊述興,2007)。但理論和方法的有效性應建立在適用條件和具體語境的基礎之上。客觀主義判斷標準適用的前提是生成內容源自于人,只有對于自然人的創作成果而言,依據創作結果討論獨創性才是可行的。著作權法保護思想之表達,但“表達”并非只是作為“符號之組合”存在,其本身即蘊含了人的主體意味。以往新技術對著作權法的影響主要體現在作品的復制和傳播方面,在此背景下,客觀主義標準在法律適用層面的明顯優勢是有望通過一種簡單的方法判斷某一成果是否具有獨創性。如今,ChatGPT等生成式人工智能直接介入了內容的創造性生產過程——直觀看來,人們不再是利用計算機以新的方式生產作品,而是讓計算機用新的方式生產作品。因此,在忽略“作品是人的表達”這一前提的情況下,直接運用客觀主義標準去評判非自然人生成內容能否構成作品是不妥當的。在僅考慮作品本身的可區別性、不考慮創作主體和過程的情況下,不僅機器生成的內容具有可版權性,動物乃至自然界中產生的“符號組合”都可能構成作品,這將造成著作權客體范圍無端擴張,動搖私人利益與公共利益的平衡甚至著作權法律制度的穩定。 循著著作權產生、發展的歷史可見,無論是作為自然權利還是功利主義視角下的經濟激勵,人類的創造始終是著作權的重心(Gervais D J, 2020)。既有的司法判例也將著作權之船錨定在人類創造力的水域。早在一個多世紀前的“Sarony訴Burrow-Giles平版印刷公司”案中,美國最高法院判決意見書中就將“作者”界定為“擁有原創性事物之人” (U.S. Supreme Court, 1884),表明“作者”必須是“自然人”。在此后的Mazer v. Stein案(U.S. Supreme Court, 1954)、Goldstein v. California案(U.S. Supreme Court, 1973)等判例中,法院也多次援引“Sarony訴Burrow-Giles平版印刷公司”案中的觀點,這表明人類作者身份是作品受到版權法保護的先決條件。2018年,美國版權局拒絕了人工智能自動生成視覺內容《通往天堂的近路》(A Recent Road to Paradise)的版權申請,并強調著作權法保護的是“獨創性作品的作者”(original work of authorship)將其創作物固定在有形載體的表達;國會在立法時對于“獨創性作品的作者”這一身份的定義進行了刻意留白,是在為了“不改變法院依著作權法所建構的獨創性標準”這一前提下,避免出現著作權法的法定保護范圍與憲法授權國會保護的材料范圍不一致的情況;“獨創性作品的作者”這一概念指涉范圍相當廣泛,但法律并非對其毫無限制(U.S. Copyright Review Board, 2022)。因此,在現行版權法中,“人”是權利的主體,只有人類的智力成果才可能具有可版權性。 基于上述討論,判斷ChatGPT生成內容能否構成作品的關鍵,在于厘清其生成內容與人的關系,即人在ChatGPT內容生產過程中是否發揮關鍵作用。2023年3月16日,美國版權局在聯邦公告上發布了一則聲明,對使用人工智能技術產生的作品之著作權審查和登記進行了說明。根據聲明,討論一份創作物是否具有可版權性的基礎是“作者是否為人類”,即作品中文學性、藝術性、音樂性要素的表達、選擇或安排是否是由自然人構思和執行的;對于包含部分人工智能生成內容的創作物,其可版權性的判定要看人類在多大程度上創造性地控制了作品的表達以及是否“實際創作”了作品中的創造性元素(traditional elements of authorship in the work)。在就含人工智能生成內容的創作物進行作品申請時,作者有義務對人工智能生成內容進行標注,并對人類作者對作品的貢獻進行簡要說明;如果機器完成部分超出最大限制,則該創作物不能被認定為作品(U.S. Copyright Office & Library of Congress, 2023)。美國版權局在拒絕《通往天堂的近路》的版權申請時,理由就是“沒有證據表明人類作者在該圖像中進行了充分的創造性投入或干預”(U.S. Copyright Review Board, 2022)。 有觀點將人工智能視為人類進行創作的工具,并在此基礎上主張人工智能生成內容的可版權性。然而,ChatGPT在內容生成過程中是否只是人類進行創作的工具呢?工具是“人在生產過程中用來加工制造產品的器具”或“用以達到目的的事物”(中國社會科學院語言研究所詞典編輯室,2020:448)。從定義來看,就智力產品而言,“人”是在生產過程中發揮主觀能動性的一方,工具只具有輔助作用。ChatGPT的本質是人工智能內容生成技術的具體應用,通俗來講,人們運用現有的人類作品對人工智能技術進行大規模訓練,并使用訓練獲得的規律生成內容。具體而言,訓練過程是在給定一段文本序列的基礎上,模型將前文的單詞序列作為輸入,逐個預測下一個單詞的分布概率,由此學習單詞之間的關系、上下文語義和語法規則等,最終訓練出對人類語言的理解能力。ChatGPT的預訓練數據主要來源于維基百科、書籍、期刊、Reddit鏈接、Common Crawl系列語料庫和其他數據集等,學習內容均是人類的智力成果。在系統運行過程中,用戶給出文本指令(prompt),然后ChatGPT根據指令生成一定的文本結果(answer)。即使ChatGPT在生成文本內容前接受了人類(用戶)的提示,用戶也無法對ChatGPT如何理解人類提示和實際生成文本材料進行足夠的創造性控制;換言之,是機器而非用戶對所輸出文字進行實際的選擇和組織。用戶的指令只是明確了人類希望機器輸出內容的主題,但機器實際決定了這些指令是如何在其輸出文本中實現的。例如,如果用戶指示ChatGPT以思鄉為主題寫一首李白風格的七言律詩,他期望系統生成體裁為一首七言律詩、涉及思想和類似李白風格的詩作,但ChatGPT決定了生成內容的押韻模式、每句中的語詞和結構順序。著作權法對作品的保護在任何情況下都不延及思想,用戶關于“李白風格的思鄉詩”的構想更接近于“思想”的范疇,而關于思想的表達實際上是由機器生成的。 早在1997年的Urantia Foundation v. Maaherra案中(United States Court of Appeals, Ninth Circuit, 1997),法院就對一件作品中所包含的“人類智力因素”進行了說明。在該案中,原告聲稱在神的授意下撰寫了一本名為《神之啟示》的書,被告Maaherra將這本書通過電腦光盤進行了復制和傳播。原告認為這本書應該作為神創作的作品受到著作權法保護,而被告之行為構成著作權侵權;被告抗辯稱本書作為“神的作品”不包含人類創作成分,因此無法受到著作權法保護,自己的行為也不構成侵權。美國第九巡回法院在判決意見書中表明,“作者”是首個對文字做出匯編、選擇、協調和安排的人,在《神之啟示》一書中,人類的智力性勞動體現為對內容的選擇和編排,因此本書能夠作為人的創造性成果受到著作權法保護。而在ChatGPT內容生成的過程中,對文字進行選擇、編排和表達的是機器。ChatGPT生成內容應屬于“人工智能自動生成的”,而非“人工智能輔助完成的”。根據世界知識產權組織發布的《經修訂的關于知識產權政策和人工智能問題的議題文件》,“人工智能生成的”與“人工智能自主創造的”是可以互替使用的術語,指在沒有人類干預的情況下由人工智能生成產出;“人工智能生成的”應該與“人工智能輔助完成的”產出加以區分,后者需要大量人類干預或引導。將人工智能看作是人之創作工具的觀點混淆了以上兩個概念:ChatGPT生成內容屬于“人工智能生成的”產出,不是“人工智能輔助完成的”的產出,因此不具有可版權性。 三、ChatGPT語境下內容生產可能出現的侵權風險 生成式人工智能在吸引學界圍繞創造性、表達和作品本質等深層問題進行討論的同時,也使著作權法律規則不得不面臨一些緊迫的現實挑戰。盡管人工智能自動生成的內容不具有可版權性,但ChatGPT在模型訓練和生成物利用過程仍會挑戰現行著作權法、甚至產生侵權風險,具體體現在文本生成、大規模機器學習和生成物利用三個方面。 (一)對版權法“只保護形式不保護思想”的再思考 如果ChatGPT在模型訓練過程中從大規模受著作權法保護的作品學習自然語言規律,那么模型很有可能生產出與輸入數據相似的內容。當被問及其在生成文本的過程中學習了大量人類作者的文字作品是否侵犯他人著作權時,ChatGPT是這樣回答的:“不侵犯,因為ChatGPT只是學習這些文本,而不是復制完全相同的文本,且ChatGPT只是根據已知的文本規則使用概率模型來生成新的文本,而不是單純的復制粘貼”(於興中,鄭戈,丁曉東,2023)。ChatGPT在文本生成過程中并不會直接抄襲已有作品,而是進行重新組合。有學者通過測試發現,ChatGPT的功能之一是“智能洗稿器”:即使搜索出了與問題直接相關的信息,ChatGPT也不會直接對文字內容進行“復制粘貼”,而是會進行同義詞替換,即運用不同于原內容的文字組合表達相同的觀點(王遷,2015)。《著作權法》不保護人的觀點或者是思想,保護的是觀點或者思想的表達,因此,ChatGPT通過非復制粘貼使用自然語言的模式可能會規避《著作權法》對作品的保護。 (二)大規模機器學習對合理使用原則的挑戰 ChatGPT之所以表現出較高的文本理解能力,一個重要原因就是有生成式大規模語言模型作為強大的“基座”。這一語言模型需要預先基于TB級的文本和數據進行大規模訓練,從中學習隱含的人類語言規律和模式。根據OpenAI已公布的信息,ChatGPT訓練數據的主要來源有二:一是GPT-1到GPT-3的基礎預訓練數據,包括維基百科、書籍、期刊、新聞文章、Reddit鏈接、Common Crawl系列語料庫和其他數據集;二是人工標注的微調數據,OpenAI雇傭的上千名標注工(labeler)以手寫文本的方式為模型提供訓練語料(張智雄等, 2023)。但OpenAI并未公開ChatGPT相關訓練數據來源的細節信息,這些數據是否均獲得授權仍然存疑。《華爾街日報》等國外新聞媒體曾公開指責OpenAI在未支付任何費用的情況下使用了他們的文章訓練ChatGPT(李若一,王林,賈驥業,2023)。ChatGPT在機器學習過程對既有作品的使用主要涉及內容輸入、深度學習和文本輸出三個階段。內容輸入階段需要將文本的格式轉換為標準的數據格式、選取有用的信息并按照特定的結構對信息進行調整,以建立屬于一次學習范圍的內容庫。因此,對訓練所需文本和數據的電子化復制是不可避免的一環;如果ChatGPT的訓練數據并非全部來源于獲得授權的文字作品或不享有著作權的公開作品,則可能涉及復制權侵權。深度學習階段需要從數據訓練集中分析、學習自然語言規律,然后利用習得的規律對數據進行處理,并通過對生成回答進行人工排序和獎勵模型評估等對模型進行優化,這一階段可能會涉及對既有作品的臨時復制和模仿,但臨時復制在我國不構成著作權侵權。在文本輸出階段,如果ChatGPT輸出的內容與原作品存在實質性相似,則可能會侵犯原作品的復制權等。 為了滿足社會對知識和信息的需求,各國著作權制度均規定了著作權的限制和例外,其中,合理使用制度是著作權限制最重要的一種形式。“合理使用”是指在一定條件下不經著作權人的許可,也不必向其支付報酬而對作品所進行的使用(王遷,2015:315)。如果ChatGPT等生成式人工智能開發者對于作品的大規模使用屬于合理使用的情形,則該行為不構成著作權侵權。如果不同階段對于作品的使用行為在目標和效果層面一致,可以將其視作一個整體給予統一定性(蔣珂,2015),因此,本文對于ChatGPT的大規模機器學習行為不再根據不同階段進行細分。我國《著作權法》未規定判定特定行為是否屬于著作權“限制和例外”的一般性原則,而是在第二十四條列舉了十三種可以適用合理使用規則的具體情形,目前人工智能的大規模機器學習行為無法被涵蓋在內。一方面,ChatGPT等生成式人工智能投資者多為法人組織,不屬于“為個人學習、研究或者欣賞”的范疇;另一方面,生成式人工智能的大規模機器學習往往是為了企業后續盈利做鋪墊,商業性目的無法滿足“學校課堂教學或者科學研究”等要求。在比較法層面,日本(曹源,2018)和歐盟(Official Journal of the European Union, 2019)在著作權立法中已對合理使用的范圍進行了擴大,將人工智能訓練中的“文本數據挖掘”增列為一項新的合適使用情形。但人工智能對受著作權法保護的作品的大規模復制能否適用合理使用原則并非一個新穎的話題,美國曾有判例對這一問題進行回應。美國法院通過Perfect 10 v. Amazon案(United States Court of Appeals & Ninth Circuit, 2007)和Authors Guild v. Google案(U.S. Court of Appeals for the Second Circuit, 2014)確立了人工智能的大規模復制行為適用合理使用原則的兩個基本條件:一是機器對于作品的復制并不會用于激勵他人生產新的作品,二是機器對于作品的使用不會對與被使用著作權作品的潛在市場和價值產生影響。而ChatGPT等生成式人工智能的出現對以上兩個前提均提出了挑戰。一方面,ChatGPT對于作品的大規模復制和學習是為了生成內容,而生成的內容很有可能被用于用戶的作品創作;另一方面,更高效、低價的機器生成內容可能會取代一部分作品,從而對著作權相關市場具有潛在性影響。無論大規模機器學習能否適用合理使用規則,生成式人工智能的這一行為都會對合理使用規則帶來挑戰。 生成式人工智能的大規模機器學習行為不適用合理使用規則的最直接負面影響就是人工智能開發者需要投入大量金錢獲取作品授權,否則就有可能需要承擔巨額賠償。訓練內容庫的規模在很大程度上決定了人工智能的學習能力和使用效果。當前,ChatGPT的訓練數據規模已達幾十TB,可能有數十萬甚至上百萬的版權作品被包含在其中。如果使用每一件作品都需要獲取許可和支付報酬,無疑會大大增加人工智能開發者的經濟負擔,甚至引發技術層面的“寒蟬效應”(王文敏,2022)。人工智能技術作為21世紀最重要的尖端技術之一,著作權法層面的嚴格限制可能會阻礙這一關鍵技術的進步甚至社會的整體發展。其次,如果大規模機器學習行為無法被納入合理使用的情形,出于對高昂費用和潛在法律風險的考量,人工智能開發者可能會選擇使用公共領域的作品或者經由協議獲得的有限作品來訓練算法模型。基于有限規模甚至低質量的文本和數據訓練出來的語言模型極有可能會形成“算法偏見”,導致生成式人工智能無法區別甚至生產出危險的言論或建議,回復內容的“毒性”可能大大增加,從長遠來看也不利于人工智能技術的進步。此外,獲取著作權授權需要支付的高昂費用將進一步擴大不同規模人工智能研發企業之間的差距,造成不公平的競爭環境甚至行業壟斷。實力雄厚的大企業更有可能依托各方面資源獲取更多的訓練數據,在此基礎上優化模型以提供更全面、更優質的服務,吸引更多用戶以鞏固其市場占有率,并形成良性循環,最終導致“贏者通吃”的行業競爭局面。 然而,大規模機器學習適用合理使用規則會對著作權法律制度本身提出挑戰。一方面,著作權制度的根本價值在于維護個人利益與公共利益之間的平衡,其所有規則的核心宛如一張由私人利益和公共利益錯綜交織的網絡;有學者將二者間的界限比喻為難以捉摸的“形而上學”,且技術變革總是讓二者關系處于更不穩定的狀態(保羅·戈斯汀,2008:11)。合理使用原則設立的初衷是為了平衡著作權法保護作者和其他著作權人的利益與促進知識、信息廣泛傳播的雙重目的,其最直觀的考慮是不允許使用他人作品會阻礙自由表達與思想交流,因此,其最關注的行為是非營利性目的的使用(馮曉青,2009)。例如,我國《著作權法》第二十四條所列舉的“為新聞報道”,“為學校課堂教學和科學研究”,“圖書館、檔案館、紀念館、博物館、美術館、文化館等為陳列或者保存版本的需要”等情形。合理使用原則之設立絕非為保障個人獲利,而是意圖通過對經濟利益等的重新分配,以促進更多人利益的實現。在生成式人工智能的大規模機器學習行為中,實際的版權作品大量使用者是開發人工智能的企業,其對作品的使用最終是為了吸引更多的用戶、獲取更多的商業利潤,就使用性質而言是商業性的而非公共性的。維護大型企業經濟利益的實際效果可謂背離了合理使用原則設立的初衷,將大規模機器學習行為納入合理使用范疇會使著作權法在某種程度上偏離了平衡公私利益的軌道。另一方面,知識產權法的一個重要作用是促進知識創新,但ChatGPT本身無法創造新的知識,而是基于既有的人類知識儲備進行“知識重組”,其生成內容的新穎性、權威性等值得進一步考量。ChatGPT能夠通過非復制粘貼方式對所學習的人類知識進行表達,也“鼓勵”了一些投機取巧的行為,如果此種基于“機器喂料”生成的、不具有新穎性內容被廣泛使用,從長遠來看不利于人類創造力的提升。合理使用制度的初衷也是為解決后續作者為創作新作品如何利用先前作品的問題。如果大規模機器學習的最終結果并非是為了生成具有新穎性的內容和促進人類知識創新,將這一行為納入合理使用范疇也背離了知識產權保護的目的。 (三)生成內容利用可能引發道德和著作權風險 如果ChatGPT在模型訓練過程中從大規模受著作權法保護的作品學習自然語言規律,那么模型很有可能生產出與輸入數據相似的內容。運用ChatGPT的洗稿行為可能存在道德風險;如果用戶在創作物中使用了ChatGPT生成的、與訓練數據中的版權作品構成實質性相似的內容,則可能會侵犯原作品的著作權。自2022年起,有不少學生開始使用ChatGPT代替自己撰寫論文、編碼;目前已有多家期刊聲明完全禁止或嚴格限制使用ChatGPT等生成式人工智能撰寫學術論文。 有學者在早先論述人工智能生成內容的法律屬性時,也曾提及其與作品難以分辨的情況,如今這一現實問題的解決顯得更為迫切。美國版權局最新發布的公共指導法案即對此提出了明確要求,作者在為視覺、文本作品進行版權申請時,應注明哪些部分由人工智能完成、哪些部分由人類完成;如果人工智能生成部分超出最大限制,則不應該放在作品中進行版權申請。人工智能生成物不是受著作權法保護的作品,而作者如在自己的作品中使用了人工智能生成內容作為其中一部分,有必要對來源進行說明(U.S. Copyright Office & Library of Congress, 2023)。新技術在為著作權法造成新的緊張、向立法者提出新的問題時,也會帶來新的機會。20世紀末,數字壓縮技術使數字音樂文件得以在網絡上被便捷地共享,為了維護音樂作品的著作權,美國主要唱片公司與互聯網、計算機等公司采取了聯合舉措,設計出一種標準技術(SDMI)為灌制音樂作品加上水印,以阻止他人未經授權使用數字錄制的音樂作品。相關規定和著作權歷史經驗為判斷含人工智能生成內容的人類創作物之可版權性提供了一定參考借鑒。法律和市場也會驅動人工智能生成內容識別技術的產生和應用,未來可考慮通過添加電子水印等技術手段對人工智能生成內容進行標注。當涉及含人工智能生成內容的人類創作物的著作權糾紛時,法院在認定作品是否滿足“獨創性”標準時,可先將“人工智能生成的”內容進行識別。如果全篇內容全部或近乎全部由人工智能直接生成,則該內容不具有可版權性;若內容由人工智能和人類共同完成,且絕大部分選擇和編排是由人類做出,則該內容可被認定為作品。 結語 綜上所述,ChatGPT生成內容不具有可版權性,其生成物不能滿足“作品的作者是自然人”這一基本前提,且將其視作人類創作工具的觀點混淆了“人工智能生成的”和“人工智能輔助生成”的內容。但ChatGPT的廣泛使用也為現行著作權法帶來了一些現實挑戰。機器學習過程中的文本數據挖掘行為可能構成著作權侵權,但其能否適用合理使用規則還需要進一步細致考量;ChatGPT生成內容在利用時可能會侵犯原作品著作權,未來可通過電子水印等技術對人工智能參與創作的內容進行識別,并按照人類是否對作品進行主要選擇和安排之標準對獨創性加以判斷。 法律制度具有滯后性,但對于法律問題的思考應具有前瞻性(吳漢東,2017)。近年來,大數據與人工智能技術的迅速發展引發了人工智能能否作為適格著作權主體等相關討論。當前,ChatGPT等生成式人工智能對人類行為的模擬僅限于內容創作,與強人工智能還有很大差距。若未來人工智能技術發展到了具有自主意識的階段,也需要民法在主體制度中對人工智能之法律地位做出回應,而不是在著作權法領域率先進行突破性變革。此外,權利的實現與義務的履行往往相伴而生,不能因人工智能生成內容與人類作品具有表象性相似便急于對其提供保護,也應考慮侵權責任的承擔。如果著作權法為人工智能生成內容提供了保護,當生成內容侵犯他人權益時,權利所有人也應為其“創作”承擔侵權責任。若生成式人工智能的所有者、研發者或使用者享有機器生成物的權益,那么當這些內容侵犯他人復制權、改編權或構成誹謗侵犯他人人格權益時,他們就需要為此擔責。考慮到ChatGPT等生成內容的實際過程,由并未直接參與創作的自然人或法人來承擔機器創作物的侵權責任不具有足夠的合理性。自1709年《安娜法》頒布以來,技術變革總是為著作權法律制度帶來新的緊張。著作權法在未來對人工智能生成技術帶來的新問題進行回應時,不僅要考慮技術自身的變革程度,也要考慮其對公共利益與私人利益之平衡的影響程度,對既有法律規則變革與否,需要在著作權法基本原理的基礎上探尋其在新技術背景下的適用條件。 (朱鴻軍 李辛揚:《ChatGPT生成內容的非版權性及著作權侵權風險》,2023年第6期,微信發布系節選,學術引用請務必參考原文) 在這里,讀懂轉型中的中國新聞業 在這里,探討新聞業的未來 在這里,進行深入而嚴肅的思考 在這里,關心新聞人自己的命運! |
|