OpenAI最新两起诉讼的新风向：大模型“偷书”要担责了？_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2025-11-17 12:12:59 股吧网页版

OpenAI最新两起诉讼的新风向：大模型“偷书”要担责了？

来源：21世纪经济报道

　　21世纪经济报道记者王俊实习记者蔡欣佁

　　大模型“偷书”算不算“偷”？是贯穿生成式AI发展过程中的议题，近几年版权纠纷的熊熊战火足以说明其重要性。

　　本月，OpenAI分别在欧洲大陆和美国本土迎来两起诉讼，把这个问题又推向了新的高度：

　　一起是被称为欧洲首例生成式AI版权侵权案，据央视报道，当地时间11月11日，德国慕尼黑第一地区法院裁定：OpenAI未经许可使用受著作权保护的音乐歌词训练ChatGPT模型，已构成侵权。

　　另外一起则是已经缠斗两年的《纽约时报》诉OpenAI案，11月7日，纽约南区联邦法院法官Ona T. Wang发布最新命令，责令OpenAI向《纽约时报》提交多达2000万条ChatGPT用户日志。

　　业内对这两起案件倾注了足够的关注，仔细翻阅法律文书，有很多高光点不容忽视：

　　1、推翻“合理使用”

　　此前的不少判决中，大模型训练被视为“合理使用”，即在特定情况下，模型无需得到授权即可使用作品。但德国法院率先认定，AI模型“记忆”与“输出”歌词均构成复制侵权，将AI“学习”定性为“偷书”。

　　2、逐渐穿透“大模型黑箱”

　　德国法庭用大量篇幅着眼技术审查，纽约法院则直接要求OpenAI交出用户日志。过去，“模型训练”被AI公司盖上层层面纱，现如今，司法面正在层层解剖技术逻辑。

　　正如德国案的判决书所言：“大模型生成并不是神奇的过程”。当训练过程被逐渐复原，技术迷雾随之消散，AI公司便很难再以“技术复杂性”为由进行抗辩。这种趋势，对于AI公司而言，并不乐观。

　　技术祛魅大模型训练数据的过程并不神秘

　　生成式AI的训练过程是否涉及侵犯版权，是近年来法律界争议最为激烈的一道命题。

　　广东财经大学法学院教授姚志伟曾告诉21记者，AI侵权案件的难点在于，一是证明原告作品被用于训练，这个过程发生在企业内部较难证实。二是证明AI的生成物与原告作品存在“实质性相似”。

　　而德国慕尼黑案件打破了上述两个难点。原告GEMA一步步拆解了大模型训练的过程，并通过技术验证发现，用户只需要输入简单的提示词，ChatGPT就能基本完整再现涉案歌曲的歌词，这意味着ChatGPT“记住”了这些内容。根据法庭裁决，大模型在训练阶段“记忆”歌词，在输出阶段“还原”歌词，均构成侵犯版权。

　　这场判决的关键在于，“记忆”是否等于“复制”。判决书显示，大模型训练完成之后，涉案歌词内容就形成了一个固定参数，这个过程已等同于“复制”。到了输出阶段，大模型基于提示词和固定参数生成内容。虽然经解码器进行“随机化”处理。然而，当输出文本达到一定体量，将“不可避免地”再现歌词。判决书中直陈，ChatGPT在此情况下如同数据库。

　　而OpenAI的立场是，ChatGPT并未储存或者复制观点，而是像学生一样“学习”了知识。更何况，经过用户输入提示词而产生的内容，理应归用户负责。

　　这套AI公司的惯用措辞，在过去美国的几起版权纠纷中被肯定。然而，德国慕尼黑法院并不买账。

　　法院明确认定：大模型对歌词的“记忆”构成复制。法院认为，“将歌词编码为参数并不影响其作品完整性。这些参数仍完整地包含在模型中，可被技术手段提取。”涉案歌词已被固定存储在模型参数中，并通过简单提示词就能被还原，符合德国著作权法第16条“有形固定+可感知”要求。法院援引欧盟《信息社会指令》第2条，采取技术中立的解释：复制涵盖"任何形式和任何方式"，不要求直接感知，只需间接可感知即可。

　　“数据进入到模型的一步步过程不神秘，也不抽象，每一步都是很清楚、具体的。回到法律，如果我们考察大模型在训练阶段，只是在这个阶段，是否构成著作权的侵权，那我们就应该把这部分训练的代码拿出来，一步步去考察和适用法律，看这个过程是否构成复制？是不是侵犯其他受到《著作权法》保护的权利？”同济大学法学院助理教授、上海市人工智能社会治理协同创新中心研究员朱悦曾指出。

　　被迫交出用户日志技术面纱逐渐被揭开

　　在大洋彼岸的美国本土，OpenAI亦在经历一场诉讼鏖战，其大模型训练过程也将被拆解。

　　此前，OpenAI沿用惯用策略，声称其使用新闻文章旨在训练模型以学习语言模式，而非替代新闻本身。但11月7日，纽约南区联邦法院法官Ona T. Wang发布最新命令，责令OpenAI向纽约时报提交多达2000万条ChatGPT用户日志。

　　业内专家吴雨辉表示，在认定版权侵权的案件之中，如此海量的证据提交是比较少见的，却也有其必要性。对于普通的版权案件，通常需要比对原作品和涉嫌侵权的内容是否存在实质性相似，但本案中《纽约时报》主张OpenAI涉嫌在输入端的训练数据侵权，无法从输出进行比对，用户日志的确是关键证据。

　　通常情况下，原告起诉时应遵循“谁主张谁举证”的原则。在本起案件中，OpenAI的输出日志数据（包括用户聊天记录及API输出）一直是原告《纽约时报》的关注焦点，其主张，这些数据是本案的关键证据，而这份关键证据牢牢掌握在被告手中。

　　根据原告今年5月向法院递交的补充备忘录，早在2023年4月（原告于2023年12月27日提起诉讼），OpenAI就已知晓原告的版权疑虑，理应保留相关日志作为潜在证据。然而，《纽约时报》律师团队指控，OpenAI仅仅保留对其辩护有利的证据，其他数据正在被销毁。

　　面对证据可能灭失的风险，今年5月13日，Ona T. Wang法官曾签发命令，要求OpenAI“保留并隔离所有本应被删除的输出日志数据”——这甚至包括用户主动删除或出于隐私政策需要删除的聊天记录。

　　针对Ona T. Wang法官签发的命令，OpenAI打出了隐私保护的惯用牌。其在官网称：

　　《纽约时报》要求我们交出 2000 万条用户的私人 ChatGPT 对话记录，并且声称能从中找到我们利用 ChatGPT 绕过其付费墙的证据。

　　OpenAI认为，这一要求无视隐私保护规则，违背常识性安全惯例，还将迫使其交出数千万条与诉讼毫无关联的高度私人对话。“你的私人对话为你所有 —— 它们不应成为争议中的牺牲品。”

　　无论如何“反抗”，命令已是既定事实。OpenAI接下来面对的版权官司，困难重重。

　　天元律师事务所李昀锴指出，欧洲大陆的判决清晰表明，AI的免费午餐时代正在结束，“先授权、后训练”将成为AI公司不可回避的合规路径。大模型“学习”过程也得落入版权法管辖范围。

　　不过，OpenAI对判决结果并不满意：我们不同意这一裁决，并正在考虑下一步行动。

　　《纽约时报》对用户日志这一关键证据的坚持，也将对大模型训练过程进一步穿透。有实力的原被告，将把AI版权的探索推向新高地。

（图说：德国慕尼黑法院就GEMA v. OpenAI案的判决书）

（文章来源：21世纪经济报道） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》