下载82TB盗版书用于AI训练！Meta被控侵犯版权，小扎明知故犯

更新于2025-02-11 16:01

Facebook母公司Meta目前正因其训练LLaMA的方式被提起集体诉讼，诉讼指控其侵犯版权和不正当竞争等。

根据vx-underground在X上发布的一篇帖子，法庭记录显示，这家社交媒体公司使用盗版种子从Anna's Archive、Z-Library和LibGen等影子库下载了81.7TB的数据。然后它使用这些信息来训练其AI模型。

证据表明研究人员对Meta使用盗版材料的担忧。一位高级人工智能研究人员早在2022年10月就表示：“我认为我们不应该使用盗版材料。我真的需要在这里划一条红线。”

而另一位研究员则表示：“使用盗版材料应该超出我们的道德门槛”，然后他们补充道：“SciHub、ResearchGate、LibGen基本上就像是盗版数据库，他们分发受版权保护的内容，并且侵犯了版权。”

然后，在2023月1月，马克·扎克伯格亲自参加了一次会议，他说：“我们需要推动这些事情……我们需要找到一种方法来解除所有这些阻碍。”大约三个月后，一名Meta员工向另一名员工发送了一条消息，称他们担心Meta IP地址被用来“加载盗版内容”。他们还补充说，“用公司笔记本电脑下载种子感觉不对劲”，然后发了一个大笑的表情符号。

除了这些信息之外，文件还显示，该公司已采取措施，确保其基础设施不被用于这些下载操作，因此就不会被追溯到Meta。法庭文件称，这构成了Meta非法活动的证据，这似乎是在故意采取措施规避版权法。

然而，这并不是人工智能训练模型第一次被指控从互联网上窃取信息。早在2023年6月，OpenAI就因使用书籍训练其大型语言模型而被小说家起诉，《纽约时报》于当年12月也采取了同样的行动。英伟达也因使用196,640本书来训练其NeMo模型而遭到作家的起诉，该模型现已被删除。

去年8月，一名前英伟达员工揭发了该公司，称该公司每天抓取超过42.6万小时的视频用于人工智能训练。最近，OpenAI正在调查DeepSeek是否非法获取了ChatGPT的数据，这让事情变得很讽刺。

针对Meta的诉讼仍在进行中，必须等待法院发布判决才能确定该公司是否直接侵权。即使作家们赢得了这场官司，拥有巨额资金的Meta也可能会对该判决提出上诉，这意味着可能会等待数月甚至数年才能看到最终的法庭判决。

主编精选，篇篇重磅，请点击订阅“邮件订阅”

编辑：

北美商业电讯

下载82TB盗版书用于AI训练！Meta被控侵犯版权，小扎明知故犯

ChatGPT

特斯拉因虚假广告在韩国被罚款225万美元

英伟达加码，马斯克旗下xAI再获60亿美元！总融资达120亿美元

又挂了！ChatGPT和Sora本月第二次宕机，苹果AI未受影响

CES 2025最新前瞻！正式开幕前5场关键发布会，AI仍是重头戏

砸200亿美元！阿联酋顶级开发商将在美建数据中心，与川普关系深厚

热门话题