于国栋律师|一段脚本,把英伟达拖进了 AI 版权诉讼的深水区

2026 年 5 月 5 日,美国加州北区联邦地区法院就 Nazemian et al. v. NVIDIA Corporation(案件编号:4:24-cv-01454-JST)一案作出裁定,驳回了英伟达的相关动议,允许原告的贡献性侵权主张继续审理。

作为该案原告的多名作家联合起诉英伟达,核心指控有二:一是英伟达训练大语言模型时,擅自使用 “影子图书馆” 的未经授权图书;二是通过 NeMo Megatron Framework、BigNLP 等平台,向客户提供专用脚本及工具,协助其下载、预处理含受版权保护图书的数据集 The Pile。

法院的审理逻辑并未停留在 “AI 训练使用盗版图书” 的表层,而是聚焦于一条更具行业警示意义的核心线索:

英伟达提供的特定脚本,是否被专门设计用于帮助他人快速获取、处理侵权数据。

这一审理视角,让本案与多数围绕 “AI 训练本身是否构成合理使用” 的 AI 版权争议形成本质区别。此前美国 AI 版权案件的核心争议,多集中于模型训练是否具有转换性、输出是否替代原作、是否损害原作许可市场三个维度。而本案中,法院将审查视角进一步收窄:即便 AI 框架整体具备大量合法用途,法院仍可单独审查其中的特定脚本、配置或自动化工具;若该局部功能被明确指向特定侵权场景,企业仅以 “平台整体用途广泛” 抗辩,将难以获得法院支持。

法院在裁定中概括了原告的核心指控:

英伟达不仅自身下载、存储、使用 The Pile 等涉嫌侵权数据集开发训练大语言模型,还通过提供专用脚本,助力客户获取并预处理该类数据集用于自主模型开发。

裁定引用原告诉讼材料指出,客户使用 NeMo Framework,可在英伟达服务器上用约 9.8 天完成基于 The Pile 的语言模型训练。“9.8 天” 的训练周期本身并非关键,核心是该表述可佐证原告的核心主张:

英伟达提供的并非被动被滥用的中立平台,而是构建了一套围绕特定侵权数据集、训练流程与客户需求的完整帮助链条,主观上存在协助侵权的倾向。

“通用工具”“技术中立”等抗辩为什么不好用了

英伟达在诉讼中的核心抗辩逻辑极具行业代表性:

NeMo Megatron Framework 是端到端的云原生通用 AI 开发框架,可用于构建、定制、部署多领域生成式 AI 模型,天然具备大量非侵权用途,不能因部分用户可能利用其下载侵权数据集,就将整个框架定性为侵权工具。

这一抗辩思路在技术公司、云服务商、开源工具提供者的侵权纠纷中十分常见,也具备较强说服力 —— 这类通用工具的设计初衷,通常是服务于合法的技术研发与商业应用,而非专门用于侵权。

但法院并未被这一宏观抗辩逻辑动摇,而是明确划分了 “整个 AI 框架” 与 “特定辅助脚本” 的法律责任边界。法院认为,原告的指控并非泛泛攻击 NeMo Megatron Framework 的全部功能,而是精准指向英伟达向客户提供的、专门用于自动下载和预处理 The Pile 等涉嫌侵权数据集的具体脚本。法院在 2026 年 5 月 5 日的裁定(Document 303,第 9 页)中明确载明:

“Plaintiffs allege that NVIDIA took the specific steps of ‘develop[ing] and distribut[ing] code to ‘download and extract’’ copyrighted files to its customers. FCAC ¶ 70. That is sufficient to allege that NVIDIA induced infringement. That the NeMo Megatron Framework as a whole may have other, non-infringing uses does not alter this conclusion.”

——Nazemian et al. v. NVIDIA Corporation, Case No. 4:24-cv-01454-JST, Document 303, May 5, 2026, p.9

该裁定的法律内涵清晰明确:判断企业是否构成贡献性侵权,不能仅关注 “整体产品是否具有合法用途”,更要审查 “被指控的具体功能是否在积极推动侵权行为”。针对通用 AI 框架的 “合法用途” 抗辩力度较强,但若被起诉的是专门用于下载、处理侵权数据集的自动化脚本,且该脚本无其他实质合法用途,企业的抗辩防线将大幅弱化。

这一裁判逻辑,对 AI 及硬件供应链企业具有极强的警示意义。当前,大量企业并非直接面向终端用户的生成式 AI 应用或内容平台,而是提供芯片、云算力、模型开发框架、训练工具、数据预处理脚本、SDK、API 及参考工作流的基础设施服务商。这类企业此前普遍认为,自身与版权内容距离较远,侵权风险主要由模型开发者、数据集提供者或终端客户承担。但本案明确提醒:当工具提供者将算力、代码、数据集路径、训练教程与客户方案整合为一套可直接执行的完整链路时,法院将不再简单将其认定为 “远距离的中立基础设施”,反而可能认定其参与了侵权协助过程。

核心原则可概括为:

通用工具不会因部分用户的违法使用而天然构成侵权;但专门设计用于加速获取特定侵权材料的工具,即便嵌入大型合法平台,也无法自动免责。AI 行业的责任边界,正从 “企业销售的是什么产品”,进一步收缩至 “企业为客户提供了什么具体功能、设计了什么操作路径、配套了什么辅助工具”。

Cox 案本为平台减压,为何救不了英伟达的脚本?

本案裁定需结合美国最高法院的近期判例背景理解:不久前,美国最高法院在 Cox Communications, Inc. v. Sony Music Entertainment 一案中,明确收窄了贡献性版权侵权的责任范围。该判决明确:仅向公众提供通用服务,且知晓部分用户可能利用其实施侵权,不足以让服务提供者承担贡献性侵权责任;要认定该责任成立,版权人需证明服务提供者具有侵权意图,该意图可通过两条路径佐证:一是主动诱导他人侵权,二是提供专门适配侵权行为的服务。

Cox 案的判决,对互联网接入服务商、云服务商及平台型企业而言,无疑是一剂 “减压剂”。最高法院明确拒绝将 “知晓用户侵权但未充分阻止” 直接等同于贡献性侵权,避免了中立基础设施提供者被迫承担 “版权警察” 的义务。英伟达在本案中也援引 Cox 案的裁判逻辑抗辩,主张原告未能证明其将 NeMo Megatron Framework 推广为下载版权内容的工具,且该框架具备大量实质性非侵权用途,不应被认定为侵权工具。

但英伟达的抗辩未能奏效,核心原因在于:Cox 案保护的是 “通用服务”,而非 “为侵权流程量身定制的局部工具”。加州北区法院在本案中并未否定 Cox 案的裁判规则,反而严格遵循其划定的审查路径,重点审查英伟达是否存在 “诱导侵权的具体行为” 及 “提供专门适配侵权的服务”。法院最终认定,原告关于英伟达提供侵权脚本的指控,已足以进入这两条审查路径,因此驳回了英伟达的相关驳回动议。

在 “诱导侵权” 的认定上,法院特别强调:广告宣传仅是诱导行为的一种表现形式,而非必要前提。这意味着,原告无需提供明确的侵权宣传语,只要能证明被告通过工具设计、使用说明等方式,表达了让产品用于侵权的积极意图,即可认定存在诱导行为。裁定(Document 303,第 9 页)明确指出:

“Advertising or promotion, however, is an example of an inducing act, not a pre-requisite for alleging inducement.”

——Nazemian et al. v. NVIDIA Corporation, Case No. 4:24-cv-01454-JST, Document 303, May 5, 2026, p.9

这一表述对企业法务工作具有极强的现实警示意义。多数企业审查市场宣传物料时极为谨慎,不会出现 “下载盗版”“规避授权” 等违规表述,但侵权风险往往隐藏在更隐蔽的环节:代码注释、样例配置、客户支持邮件、内部沟通记录、GitHub 提交说明、技术白皮书、教程视频、工单回复及客户交付文档等,都可能成为证明企业存在诱导侵权意图的关键证据。外部宣传的合规性,无法掩盖内部帮助路径的侵权风险。

在 “提供专门适配侵权的服务” 方面,法院将审查焦点进一步聚焦于涉案脚本本身。裁定(Document 303,第 10 页)载明:

“The scripts are alleged to have no other purpose than to speed up the process of infringement, unlike the digital video recorder systems at issue in Sony Corp. or the internet service provided in Cox.”

——Nazemian et al. v. NVIDIA Corporation, Case No. 4:24-cv-01454-JST, Document 303, May 5, 2026, p.10

这一判词,是本案最值得中国 AI 企业、芯片厂商、云平台及法律服务机构关注的核心内容。其核心含义并非 “所有 AI 训练工具都有侵权风险”,也不是 “所有数据下载脚本都违法”,而是明确了关键审查标准:在诉讼初期,若原告能合理指控某一脚本除加速侵权外无其他实质用途,法院就可能允许贡献性侵权主张继续审理。

简言之,Cox 案并非企业规避侵权责任的 “万能护身符”。它保护的是 “中立、通用、具备实质合法用途” 的服务,绝不保护被包装在通用框架中的 “侵权加速器”。大型平台企业仅证明自身存在大量合法业务远远不够,还需清晰说明被质疑的具体功能具备独立、真实、可追溯的合法用途,否则仍将面临侵权风险。

法院未全盘支持原告:帮助侵权与控制侵权≠一回事

若仅从案件表象来看,很容易将本案误读为 “法院认定英伟达的脚本构成侵权”,但这一解读并不准确。法院在本次裁定中,仅认定原告关于贡献性侵权的指控 “足以支撑案件继续审理”,并未完成最终的事实认定与责任判定。更关键的是,法院同时驳回了原告提出的替代性侵权责任主张,仅允许其修改相关诉讼请求,这体现了法院对 AI 侵权案件的审慎态度。

根据美国版权法,替代性侵权责任的成立需满足两个核心要件:一是被告具有监督直接侵权行为的权利与实际能力;二是被告从该直接侵权行为中获得直接经济利益。原告主张,英伟达设计并提供自动下载 The Pile 的脚本,说明其具备控制侵权行为的能力,应承担替代性侵权责任。但法院驳回了这一主张,明确 “控制自身工具” 与 “控制客户获取、使用侵权材料” 不能划等号。

裁定(Document 303,第 12 页)对此作出明确说明:

“However, those allegations only establish control over NVIDIA’s own tools. The complaint does not plausibly allege that NVIDIA had the legal right or practical ability to stop users from obtaining or using infringing materials.”

——Nazemian et al. v. NVIDIA Corporation, Case No. 4:24-cv-01454-JST, Document 303, May 5, 2026, p.12

这一裁判内容同样具有重要的行业指导意义,它表明美国法院并未盲目扩大 AI 企业的侵权责任范围。对工具提供者而言,贡献性侵权与替代性侵权的责任门槛存在明显差异:企业可能因 “主动提供侵权辅助工具”“协助他人侵权” 被卷入贡献性侵权诉讼,但不会仅因 “能够控制自身工具”,就被认定为 “能够监督客户的全部行为”,进而承担替代性侵权责任。

此外,法院还认为,原告未能充分证明 “侵权材料是吸引客户使用英伟达服务的直接原因”。这意味着,不能简单以 “客户使用了平台、平台获得了收益”,就认定平台从侵权行为中获得直接经济利益。法院援引既有判例明确,核心审查标准是 “侵权活动本身是否构成客户选择该平台的核心吸引力”,而非 “侵权行为仅是平台服务的附加产物”。这一点对面向企业客户的 AI 工具提供者尤为关键:企业客户购买芯片、云算力或开发框架,核心需求通常是性能、效率、生态支持等合法价值,即便部分客户看重数据获取便利性,原告也需提供扎实证据,证明该侵权便利是吸引客户的核心因素。

本案的裁判信号因此更加清晰:法院并未将所有 AI 供应链企业推向 “无限责任”,也未认定 “只要客户可能侵权,供应商就需担责”。真正的法律风险,集中在那些被专门设计、分发、维护,并嵌入客户工作流的 “侵权辅助功能” 上。一旦风险聚焦于这类局部工具,企业再以 “整体业务合法” 抗辩,说服力将大幅下降。

案件启示

需明确,本案作为美国法院的裁定,不能直接等同于中国法院未来的裁判规则。中国法下,著作权侵权责任、帮助侵权责任、平台责任、网络服务提供者义务,以及算法与数据合规的规范体系,与美国版权法的相关规则存在本质差异。该跨法域案例对中国企业的核心价值,不在于照搬判决结论,而在于通过案例识别 AI 供应链中的法律风险边界,提前做好合规布局。

从中国法视角来看,AI 供应链企业面临的同类风险,主要集中在五个核心规则框架内:一是《著作权法》项下复制、信息网络传播、改编等著作权的权利边界;二是《民法典》侵权责任编中的共同侵权、帮助侵权规则;三是网络服务提供者在 “明知或应知” 侵权行为时的必要措施义务;四是数据来源、爬取、存储、清洗、训练及输出全环节的合规义务;五是合同层面对客户用途、数据授权、开源许可及第三方内容来源的风险分配约定。

对中国 AI 供应链企业而言,真正需要警惕的并非 “知晓市场上存在盗版数据” 这一抽象事实,而是企业是否将 “高风险数据获取路径” 产品化、自动化、文档化、客户交付化。实践中,这类风险主要表现为:销售团队将 “可快速接入某公开盗版库” 作为客户卖点;技术团队维护可一键下载侵权数据的脚本;解决方案团队将未经授权的数据集写入默认训练模板;客户成功团队指导客户绕开数据访问限制;内部文档虽标注 “授权问题由客户自行承担” 的免责声明,却仍持续向客户提供可执行的侵权辅助代码及技术支持。诉讼中,这类材料的证明力往往远超官网宣传,是认定企业存在帮助侵权意图的关键证据。

对芯片厂商和云算力企业而言,硬件本身的中立性不能成为 “免责盾牌”。硬件产品固然具有中立属性,但当企业围绕硬件性能,向客户交付包含芯片、服务器、云实例、训练框架、数据管道、评测脚本在内的端到端解决方案时,法律风险将从 “卖硬件” 延伸至 “帮客户用硬件做什么”。随着 AI 基础设施供应商越来越强调 “一站式解决方案” 的商业定位,其在法律层面也越来越难以主张自己是 “单纯的硬件提供者”,反而可能被认定为侵权行为的协助者。

本案对开源及开发者生态同样敲响了警钟:开源代码并非 “免责金牌”。若开源仓库包含指向高风险数据源的脚本、默认下载地址、数据清洗规则、训练命令及复现说明,且仓库维护者通过社区答疑、issue 回复、pull request 等方式持续协助用户使用该类功能,后续一旦引发侵权纠纷,将难以以 “仅提供开源代码” 为由免责。当然,这并不意味着所有开源 AI 工具都存在风险,核心风险点在于开源项目的 “高风险入口”:默认配置、数据链接、说明文档及示例工程,往往比模型架构本身更接近侵权事实,也更容易成为诉讼中的关键证据。

对权利人而言,本案也提供了更具可操作性的维权路径。相较于笼统指控 “某模型可能训练了我的作品”,权利人应将证据链做细做实:确认自身作品是否出现在特定涉嫌侵权数据集;该数据集是否被某工具默认下载或预处理;工具提供方是否知晓该数据集包含受保护作品;客户是否通过该工具实际获取涉案数据;技术文档、脚本、日志、教程、销售材料等是否能证明工具提供方存在帮助侵权行为。当前,AI 版权诉讼已逐渐脱离单纯的 “作品相似性争议”,演变为围绕数据流、工具链及组织决策的证据战,细化证据链正是权利人提高维权成功率的关键。

本案的最终结果尚未确定,英伟达仍可在事实认定、合理使用、具体作品使用情况、客户直接侵权行为、损害赔偿证明等环节继续抗辩。但这份裁定已足以改变 AI 行业的合规讨论重心:AI 企业不能再仅以 “我的平台具有通用合法用途” 为由规避责任,更需直面核心问题 ——“我的脚本、我的工具,是否在把侵权变得更快、更容易、更具规模化”。

AI 产业的版权风险,从来不止发生在模型输出的那一刻,更隐藏在数据进入系统之前的每一个环节。谁将灰色数据源做成了 “一键获取” 的按钮,谁就可能将自己推上被告席 —— 这既是本案给英伟达的警示,也是给全球 AI 供应链企业的合规必修课。