原文towardsdatascience.com/the-coming-copyright-reckoning-for-generative-ai-b7fe0963c58f?sourcecollection_archive---------3-----------------------#2024-04-01法院正准备裁定生成性 AI 是否侵犯版权——让我们讨论一下这到底意味着什么https://medium.com/s.kirmer?sourcepost_page---byline--b7fe0963c58f--------------------------------https://towardsdatascience.com/?sourcepost_page---byline--b7fe0963c58f-------------------------------- Stephanie Kirmer·发布于数据科学前沿 ·14 分钟阅读·2024 年 4 月 1 日–https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8aaa4000cb2b00eaedfda4ce3c608a0b.png图片由Annelies Geneyn拍摄来源于Unsplash美国的版权法是一个复杂的领域。我们这些非律师的人理所当然地很难搞清楚它到底意味着什么以及它保护了什么没保护什么。数据科学家通常不会花很多时间考虑版权问题除非我们正在为开源项目选择许可证。即使是这样有时候我们也会跳过那一部分没太处理它尽管我们知道应该处理。但是法律界现在开始密切关注版权与生成性 AI 的交集这可能对我们的工作产生实际影响。在我们讨论它如何影响生成性 AI 领域之前让我们先回顾一下版权的真相。版权美国的版权法与所谓的“原创作品”相关。这些包括以下类别的作品文学音乐戏剧哑剧和舞蹈作品图像、图形和雕塑作品视听作品声音录制衍生作品编纂作品建筑作品。内容必须以可版权化的形式进行创作或记录。“创意是不能获得版权的。只有具体的表达形式例如书籍、剧本、画作、电影或照片等才能获得版权。一旦你将创意以固定的形式表达出来——比如数字绘画、录制的歌曲甚至是在餐巾纸上的涂写——如果它是原创作品它会自动获得版权。” — 电子前沿基金会版权保护意味着只有版权持有者作者或创作者、继承其权利的后代或权利的购买者才能做以下事情制作并销售作品的复制品、从原作品创作衍生作品、以及公开表演或展示作品。版权不是永恒的它在一定时间后会结束。通常来说这是在作者去世后 70 年或内容发布后 95 年。在美国1929 年之前的作品通常处于“公有领域”这意味着它不再受到版权保护。为什么版权存在近期的法律解释认为版权的存在不仅仅是让创作者致富而是鼓励创作使我们拥有一个充满艺术和文化创造力的社会。基本上我们与创作者交换金钱激励他们为我们创造伟大的作品。这意味着很多法院在审理版权案件时会问“这个复制品是否有助于创造一个具有创意、艺术性和创新的社会”并且在做出判断时也会考虑这一点。合理使用此外“合理使用”并不是可以忽视版权的免死金牌。判断某一内容使用是否为“合理使用”有四个标准第二次使用的目的和性质你是在用这些内容做一些创新和不同的事情还是仅仅是在复制原作你的新作品本身是否具有创新性如果是那么它更有可能被认为是合理使用。此外如果你的使用目的是为了盈利那么它就不太可能被认为是合理使用。原作品的性质如果原作品具有创意性那么通过合理使用破坏版权会更困难。如果它只是事实那么你更有可能适用合理使用比如引用研究文章或百科全书。使用的数量你是在复制全部内容吗还是仅仅是复制一段或一小部分合理使用时尽量使用必要的最小量是很重要的尽管有时你可能需要使用大量内容来创作衍生作品。影响你是在从原创者那里窃取客户吗人们会购买或使用你的复制品而不是购买原版吗创作者会因为你的复制品失去收入或市场份额吗如果是那么它可能不是合理使用。即使你没有赚钱这一点仍然相关。你必须满足所有这些测试标准才能认为是合理使用而不仅仅是其中一两项。当然所有这些都需要法律解释。本文不是法律建议但现在在我们掌握了这些事实之后让我们思考生成性人工智能的作用以及上述概念为何会与生成性人工智能发生碰撞。生成性人工智能回顾我的专栏的常读者应该已经对生成性人工智能的训练过程有了相当清晰的理解但让我们做一个非常简短的回顾。收集大量数据并通过分析数据中的模式来训练模型。正如我之前所写“有报告显示GPT-4 的训练数据大约有1 万亿个单词。这些单词每一个都由人类创作源于他们自己的创造能力。为了让大家更好理解‘权力的游戏’第一部书大约有 292,727 个单词。因此GPT-4 的训练数据大约相当于3,416,152 本该书。”当模型学习到数据中的模式对于大型语言模型LLM它学习的是语言语义、语法、词汇和习语等内容时它将通过人工微调以确保在人们与之互动时模型能按照预期的方式表现。这些数据中的模式可能非常具体以至于一些学者认为模型可以“记住”训练数据。然后模型将能够根据它学到的模式回答用户的提示对于大型语言模型LLM即用非常像人类的语言回答问题。这些模型的输入训练数据和输出对版权法有重要影响所以我们来仔细分析一下。训练数据与模型输出训练数据对于创建生成性人工智能模型至关重要。目标是教会模型复制人类的创造力因此模型需要看到海量的人类创造性作品以便学习这些作品的样貌和声音。但正如我们之前了解到的人类创作的作品归创作者所有即使它们只是在纸 napkin 上随便写的。为每个创作者支付作品的版权费用对于我们训练即使是一个小型生成性人工智能模型所需的海量数据来说是不可行的。那么是否可以视为合理使用将他人的作品输入训练数据集并创建生成性人工智能模型呢让我们来看一下合理使用的测试标准看看我们最终的结论是什么。第二种用途的目的和特征我们可以争论使用数据来训练模型并不算真正的创造衍生作品。例如这与用一本书或一首音乐来教孩子有什么不同吗反驳意见有两个首先教一个孩子与使用成千上万本书来生成一个有利润的产品不同其次生成型 AI 能够如此精准地复制它所训练的内容基本上是一个复制几乎逐字不差的工作的高级工具。生成型 AI 的结果有时是否具有创新性并且完全不同于输入内容如果是那可能是由于非常有创意的提示工程但这是否意味着底层工具是合法的然而从哲学角度来看机器学习试图尽可能准确地再现其从训练数据中学到的模式。它从原始作品中学到的模式是否与原始作品的“核心”相同2. 原始作品的性质这在不同种类的生成型 AI 之间差异很大但由于训练任何模型所需的数据量庞大因此至少有一些数据可能符合创造力的法律标准。在许多情况下使用人类内容作为训练数据的主要原因是为了将创新的高度多样化的输入引入模型。除非有人要逐一审查 GPT-4 的 1 万亿单词并决定哪些是有创造力的哪些不是否则我认为这一标准不符合合理使用的要求。3. 使用的数量这与第 2 点有些相似。因为几乎可以说生成型 AI 的训练数据集使用了它能够获取的所有内容而且数据量需要庞大且全面根本没有所谓的“最小必要”内容量。4. 影响最后影响问题是生成型 AI 的一个大难点。我想我们都知道有些人时不时地使用 ChatGPT 或类似工具而不是在百科全书或报纸中寻找答案。有强烈的证据表明人们使用像 Dall-E 这样的服务来请求“以[艺术家姓名]的风格”创作视觉作品尽管这些服务显然已经做出了一些努力来阻止这种行为。如果问题是人们是否会使用生成型 AI 而不是支付原始创作者报酬那显然在某些行业中确实有这种情况。而且我们可以看到像微软、谷歌、Meta 和 OpenAI 这样的公司通过生成型 AI 获得了数十亿美元的估值和收入所以他们显然不会在这个问题上轻松过关。计算中的复制概念我想暂停一下讨论一个虽不直接相关但非常重要的问题。版权法并没有很好地应对计算机技术特别是软件和数字化作品的问题。版权法大多是在一个更早的时代制定的当时复制一张黑胶唱片或重新出版一本书是一项专业化且昂贵的任务。但如今任何计算机上的东西基本上都可以通过点击鼠标在几秒钟内复制复制的概念与以前大不相同。而且请记住安装任何软件都算作复制。数字复制在我们文化中意味着的内容与以前计算机出现之前的复制大不相同。关于版权在数字时代如何运作的问题有许多重要的质疑因为很多内容似乎不再那么相关。你是否曾从 GitHub 或 StackOverflow 上复制过一段代码我当然有你是否仔细审查了内容许可证确保它适用于你的使用场景你应该这么做但你做了吗《纽约时报》诉 OpenAI现在我们对这个困境有了一个大致的了解创作者和法律是如何处理这一问题的呢我认为最有趣的案例之一当然有很多是《纽约时报》提起的案件因为它在某种程度上探讨了复制的含义而我认为其他案件未能做到这一点。正如我上面提到的复制数字文件的行为是如此普遍且正常以至于很难想象执行复制一个数字文件至少没有意图将该文件精确分发给全球公众从而违反其他合理使用测试会构成版权侵权。我认为这就是我们在生成型 AI 问题上需要关注的地方——不仅仅是复制而是对文化和市场的影响。生成型 AI 真的在复制内容吗例如训练数据输入训练数据输出《纽约时报》在其文件中显示经过非常具体的提示你可以从 ChatGPT 获取《纽约时报》文章的逐字文本。由于《纽约时报》有付费墙如果这一点属实那么这似乎明显违反了合理使用的效果测试。到目前为止OpenAI 的回应是“嗯你使用了许多复杂的提示来获得这些逐字结果”这让我想知道他们的论点是否是如果生成型 AI有时生成它训练时使用的内容的逐字副本那就不违法环球音乐集团提出了一个类似的案件涉及音乐认为生成型 AI 模型 Claude 可以几乎逐字地复制版权歌曲的歌词。我们要求法院裁定使用版权材料的多少以及何种用途是可以接受的在这个背景下这将是一个挑战——我倾向于认为使用数据进行训练本身不应是问题但重要的问题是模型如何被使用以及这会带来什么样的影响。我们通常把合理使用看作是一个单一的步骤比如在文章中引用一段文字并注明来源。我们的系统有一套法律思想体系已经为这种情况做好了充分的准备。但在生成式人工智能中它更像是两个步骤。要说侵犯了版权我认为如果内容在训练中被使用那么它也必须能够从最终模型中被提取并且以某种方式抢占原始材料的市场。我不认为你能将使用的输入内容的数量与能被逐字提取出来的输出内容的数量分开来看。那么ChatGPT 真的符合这一点吗我们将看到法院是怎么认为的。Ars Technica、The Verge、TechDirtDMCA这些问题还有另一个有趣的角度那就是 DMCA数字千年版权法案是否在这里具有相关性。你可能对这部法律有所了解因为几十年来它一直被用来迫使社交媒体平台移除未经版权持有者授权发布的音乐和电影文件。这项法律的基础思想是你可以通过类似“打地鼠”游戏的方式对付版权侵权者一次移除一件内容。然而当涉及到训练数据集时这显然行不通——你需要重新训练整个模型在大多数生成式人工智能的情况下代价是巨大的需要从训练数据中移除相关文件。理论上你仍然可以使用 DMCA 来强制移除侵犯版权模型生成的内容但证明是哪一个模型生成了该内容将是一个挑战。不过这并没有解决我描述的输入输出作为侵权的关键问题。权力问题如果这些行为实际上侵犯了版权法院仍然需要决定如何处理此事。很多人争辩说生成式人工智能在某种意义上是“太大而不能倒”的——他们不能废除那些让我们走到今天的做法因为大家都喜欢 ChatGPT对吧我们被告知生成式人工智能将会彻底改变[插入行业名称]尽管是否侵犯版权的问题仍然待定但我确实觉得如果侵犯了版权应该有相应的后果。我们应该在什么时刻停止宽容那些规避法律或直接违反法律的有权势的人和机构假设他们认为请求原谅比获得许可更容易这个问题并不完全明确。没有一些人以这种方式行事我们今天所依赖的许多创新将无法出现但这并不一定意味着这样做值得。放任这些情况通过是否会导致法治的贬值像现在许多听众一样我在读罗伯特·卡罗的《权力经纪人》。听到关于罗伯特·摩西如何在 20 世纪初处理纽约法律问题的故事很吸引人因为他处理分区法的方式似乎让人联想到优步在 2010 年代初期如何处理旧金山租车司机的法律问题以及现在那些开发生成性 AI 的大公司如何应对版权问题。与其遵守法律他们采取了这样一种态度法律的约束不适用于他们因为他们正在构建的东西如此重要和有价值。然而我并不完全相信这是真的。每个案例在某些方面都是独特的但一个强大的人决定他认为好的想法无可避免地比任何人想法更重要这让我感到不舒服。生成性 AI 可能是有用的但认为它比拥有一个充满活力和创造力的文化社会更重要这种观点让我感到不真诚。法院仍然需要决定生成性 AI 是否对艺术家和创作者产生了寒蝉效应但这些创作者提起的诉讼认为确实如此。未来美国版权局并没有忽视这些棘手的问题尽管它们可能有点迟到但他们已经发布了一个关于其生成性 AI 相关内容的最新博客文章。然而这篇文章在具体细节上非常简短仅告诉我们相关报告将在未来发布。这个部门的工作将专注于以下三个领域“数字复制品”基本上是人类的深度伪造deepfakes和数字双胞胎digital twins比如特技替身和演员在工作时需要被扫描以便可以被数字化模仿“包含 AI 生成内容的作品的版权资格”“在版权作品上训练 AI 模型”这些都是重要的话题我希望结果能够引人深思。一旦这些报告发布我会写关于它们的文章。我希望参与这项工作的政策制定者能够充分了解相关问题并具备技术能力因为一个官僚很容易通过不明智的新规则让整个局面变得更糟。另一个未来的可能性是伦理数据集将被开发用于训练。这已经是 HuggingFace 的一些人通过名为 The Stack 的代码数据集所做的事情。我们能否为其他形式的内容做类似的事情结论然而无论政府或行业提出什么方案法院都在继续处理这个问题。如果法院中的某个案件由生成式 AI 一方败诉会发生什么这至少可能意味着生成式 AI 创造的一些收益将会回馈给创作者。我并不完全相信生成式 AI 的整个概念会消失尽管我们确实在 Napster 时代见证了许多公司的倒闭。法院可能会使那些生成式 AI 公司破产和/或禁止生成式 AI 模型的生产——这并非不可能然而我认为这并不是最可能的结果——相反我认为我们将会看到一些处罚以及法律上的碎片化这个模型可以那个模型不行等等这可能并不会让局势在法律上变得更加明晰。我真的希望法院能够解决一个问题何时以及如何应当认为生成式 AI 模型侵犯了版权而不是将输入和输出问题分开而是将它们作为一个整体来审视因为我认为这对理解整个局势至关重要。如果他们这样做了我们可能能够提出适用于我们正在处理的新技术的法律框架。如果没有我担心我们会陷入一个法律泥潭法律无法有效引导我们的数字创新。我们需要更符合数字时代的版权法。但我们同样需要智能地保护人类的艺术、科学和创造力我不认为 AI 生成的内容值得用来换取这些保护。在我的网站上内容www.stephaniekirmer.com.参考文献与进一步阅读[## 教授版权欢迎来到这个关于数字时代法律权利和责任的误解的讨论。这是…www.eff.org [## 展望未来2024 年美国版权局的 AI 计划 | 版权本文预览了美国版权局全面审查版权法的下一步举措……blogs.loc.gov [## 关于 AI 版权的可怕真相是没人知道接下来会发生什么生成型 AI 模型自 2022 年起快速发展。它们能够生成代码、文本、艺术作品等。但是存在严重的……www.theverge.com [## AI 是否会摧毁 DMCA 版权妥协- Frost Brown Todd | 全方位服务律师事务所在 1990 年代和今天一样互联网依赖内容这意味着它既有问题又是问题本身。它有一个问题……frostbrowntodd.com [## 生成型 AI 正在挑战一部 234 年历史的法律这项技术可能终于将版权推向了临界点颠覆了拥有创造性社会的意义……www.theatlantic.com [## 版权法如何在 2024 年威胁 AI 行业如果 2023 年是人工智能改变一切的年份那么 2024 年可能会被记为美国版权法的重大转折点……www.reuters.com [## 人工智能版权诉讼如何让整个行业面临灭绝风险人工智能公司正面临关于其公正使用声明的重大版权挑战整个行业的未来悬而未决……www.theverge.com [## 当前针对生成式 AI 的法律案件仅仅是个开始 | TechCrunch像 ChatGPT 和 DALL-E 2 这样的生成式人工智能已经进入主流并吸引了投资者的关注。但是它们也面临着…techcrunch.com [## The Intercept 为数字出版商起诉 OpenAI 制定新的法律策略针对 OpenAI 的两起诉讼正在为 AI 开发者的版权诉讼开辟一条新路径——这条路径专门针对…www.niemanlab.org [## Patronus AI | 推出 CopyrightCatcher首个用于大型语言模型的版权检测 API在部署大型语言模型的公司中管理由非预期的版权侵权所带来的风险应成为核心关注点……www.patronus.ai