21世纪经济报道记者王俊实习记者蔡欣佁
大模型“偷书”算不算“偷”?是贯穿生成式AI发展过程中的议题,近几年版权纠纷的熊熊战火足以说明其重要性。
本月,OpenAI分别在欧洲大陆和美国本土迎来两起诉讼,把这个问题又推向了新的高度:
一起是被称为欧洲首例生成式AI版权侵权案,据央视报道,当地时间11月11日,德国慕尼黑第一地区法院裁定:OpenAI未经许可使用受著作权保护的音乐歌词训练ChatGPT模型,已构成侵权。
另外一起则是已经缠斗两年的《纽约时报》诉OpenAI案,11月7日,纽约南区联邦法院法官Ona T. Wang发布最新命令,责令OpenAI向《纽约时报》提交多达2000万条ChatGPT用户日志。
业内对这两起案件倾注了足够的关注,仔细翻阅法律文书,有很多高光点不容忽视:
1、推翻“合理使用”
此前的不少判决中,大模型训练被视为“合理使用”,即在特定情况下,模型无需得到授权即可使用作品。但德国法院率先认定,AI模型“记忆”与“输出”歌词均构成复制侵权,将AI“学习”定性为“偷书”。
2、逐渐穿透“大模型黑箱”
德国法庭用大量篇幅着眼技术审查,纽约法院则直接要求OpenAI交出用户日志。过去,“模型训练”被AI公司盖上层层面纱,现如今,司法面正在层层解剖技术逻辑。
正如德国案的判决书所言:“大模型生成并不是神奇的过程”。当训练过程被逐渐复原,技术迷雾随之消散,AI公司便很难再以“技术复杂性”为由进行抗辩。这种趋势,对于AI公司而言,并不乐观。
技术祛魅大模型训练数据的过程并不神秘
生成式AI的训练过程是否涉及侵犯版权,是近年来法律界争议最为激烈的一道命题。
广东财经大学法学院教授姚志伟曾告诉21记者,AI侵权案件的难点在于,一是证明原告作品被用于训练,这个过程发生在企业内部较难证实。二是证明AI的生成物与原告作品存在“实质性相似”。
而德国慕尼黑案件打破了上述两个难点。原告GEMA一步步拆解了大模型训练的过程,并通过技术验证发现,用户只需要输入简单的提示词,ChatGPT就能基本完整再现涉案歌曲的歌词,这意味着ChatGPT“记住”了这些内容。根据法庭裁决,大模型在训练阶段“记忆”歌词,在输出阶段“还原”歌词,均构成侵犯版权。
这场判决的关键在于,“记忆”是否等于“复制”。判决书显示,大模型训练完成之后,涉案歌词内容就形成了一个固定参数,这个过程已等同于“复制”。到了输出阶段,大模型基于提示词和固定参数生成内容。虽然经解码器进行“随机化”处理。然而,当输出文本达到一定体量,将“不可避免地”再现歌词。判决书中直陈,ChatGPT在此情况下如同数据库。
而OpenAI的立场是,ChatGPT并未储存或者复制观点,而是像学生一样“学习”了知识。更何况,经过用户输入提示词而产生的内容,理应归用户负责。
这套AI公司的惯用措辞,在过去美国的几起版权纠纷中被肯定。然而,德国慕尼黑法院并不买账。
法院明确认定:大模型对歌词的“记忆”构成复制。法院认为,“将歌词编码为参数并不影响其作品完整性。这些参数仍完整地包含在模型中,可被技术手段提取。”涉案歌词已被固定存储在模型参数中,并通过简单提示词就能被还原,符合德国著作权法第16条“有形固定+可感知”要求。法院援引欧盟《信息社会指令》第2条,采取技术中立的解释:复制涵盖"任何形式和任何方式",不要求直接感知,只需间接可感知即可。
“数据进入到模型的一步步过程不神秘,也不抽象,每一步都是很清楚、具体的。回到法律,如果我们考察大模型在训练阶段,只是在这个阶段,是否构成著作权的侵权,那我们就应该把这部分训练的代码拿出来,一步步去考察和适用法律,看这个过程是否构成复制?是不是侵犯其他受到《著作权法》保护的权利?”同济大学法学院助理教授、上海市人工智能社会治理协同创新中心研究员朱悦曾指出。
被迫交出用户日志技术面纱逐渐被揭开
在大洋彼岸的美国本土,OpenAI亦在经历一场诉讼鏖战,其大模型训练过程也将被拆解。
此前,OpenAI沿用惯用策略,声称其使用新闻文章旨在训练模型以学习语言模式,而非替代新闻本身。但11月7日,纽约南区联邦法院法官Ona T. Wang发布最新命令,责令OpenAI向纽约时报提交多达2000万条ChatGPT用户日志。
业内专家吴雨辉表示,在认定版权侵权的案件之中,如此海量的证据提交是比较少见的,却也有其必要性。对于普通的版权案件,通常需要比对原作品和涉嫌侵权的内容是否存在实质性相似,但本案中《纽约时报》主张OpenAI涉嫌在输入端的训练数据侵权,无法从输出进行比对,用户日志的确是关键证据。
通常情况下,原告起诉时应遵循“谁主张谁举证”的原则。在本起案件中,OpenAI的输出日志数据(包括用户聊天记录及API输出)一直是原告《纽约时报》的关注焦点,其主张,这些数据是本案的关键证据,而这份关键证据牢牢掌握在被告手中。
根据原告今年5月向法院递交的补充备忘录,早在2023年4月(原告于2023年12月27日提起诉讼),OpenAI就已知晓原告的版权疑虑,理应保留相关日志作为潜在证据。然而,《纽约时报》律师团队指控,OpenAI仅仅保留对其辩护有利的证据,其他数据正在被销毁。
面对证据可能灭失的风险,今年5月13日,Ona T. Wang法官曾签发命令,要求OpenAI“保留并隔离所有本应被删除的输出日志数据”——这甚至包括用户主动删除或出于隐私政策需要删除的聊天记录。
针对Ona T. Wang法官签发的命令,OpenAI打出了隐私保护的惯用牌。其在官网称:
《纽约时报》要求我们交出 2000 万条用户的私人 ChatGPT 对话记录,并且声称能从中找到我们利用 ChatGPT 绕过其付费墙的证据。
OpenAI认为,这一要求无视隐私保护规则,违背常识性安全惯例,还将迫使其交出数千万条与诉讼毫无关联的高度私人对话。“你的私人对话为你所有 —— 它们不应成为争议中的牺牲品。”
无论如何“反抗”,命令已是既定事实。OpenAI接下来面对的版权官司,困难重重。
天元律师事务所李昀锴指出,欧洲大陆的判决清晰表明,AI的免费午餐时代正在结束,“先授权、后训练”将成为AI公司不可回避的合规路径。大模型“学习”过程也得落入版权法管辖范围。
GEMA总法律顾问凯·韦尔普(Kai Welp)表示:我们开创了一个先例,既保护又澄清了创意版权所有者的权利:ChatGPT等人工智能工具的运营商也必须遵守版权法。该判决代表了整个欧洲作者和创作者获得公平报酬的一个里程碑。即使是科技巨头也必须获得使用知识产权的许可;他们不能逃避自己的义务。
不过,OpenAI对判决结果并不满意:我们不同意这一裁决,并正在考虑下一步行动。
《纽约时报》对用户日志这一关键证据的坚持,也将对大模型训练过程进一步穿透。有实力的原被告,将把AI版权的探索推向新高地。

(图说:德国慕尼黑法院就GEMA v. OpenAI案的判决书)