下载82TB盗版书用于AI训练!Meta被控侵犯版权,小扎明知故犯
Facebook母公司Meta目前正因其训练LLaMA的方式被提起集体诉讼,诉讼指控其侵犯版权和不正当竞争等。
根据vx-underground在X上发布的一篇帖子,法庭记录显示,这家社交媒体公司使用盗版种子从Anna's Archive、Z-Library和LibGen等影子库下载了81.7TB的数据。然后它使用这些信息来训练其AI模型。
证据表明研究人员对Meta使用盗版材料的担忧。一位高级人工智能研究人员早在2022年10月就表示:“我认为我们不应该使用盗版材料。我真的需要在这里划一条红线。”
而另一位研究员则表示:“使用盗版材料应该超出我们的道德门槛”,然后他们补充道:“SciHub、ResearchGate、LibGen基本上就像是盗版数据库,他们分发受版权保护的内容,并且侵犯了版权。”
然后,在2023月1月,马克·扎克伯格亲自参加了一次会议,他说:“我们需要推动这些事情……我们需要找到一种方法来解除所有这些阻碍。”大约三个月后,一名Meta员工向另一名员工发送了一条消息,称他们担心Meta IP地址被用来“加载盗版内容”。他们还补充说,“用公司笔记本电脑下载种子感觉不对劲”,然后发了一个大笑的表情符号。
除了这些信息之外,文件还显示,该公司已采取措施,确保其基础设施不被用于这些下载操作,因此就不会被追溯到Meta。法庭文件称,这构成了Meta非法活动的证据,这似乎是在故意采取措施规避版权法。
然而,这并不是人工智能训练模型第一次被指控从互联网上窃取信息。早在2023年6月,OpenAI就因使用书籍训练其大型语言模型而被小说家起诉, 《纽约时报》于当年12月也采取了同样的行动。英伟达也因使用196,640本书来训练其NeMo模型而遭到作家的起诉,该模型现已被删除。
去年8月,一名前英伟达员工揭发了该公司,称该公司每天抓取超过42.6万小时的视频用于人工智能训练。最近,OpenAI正在调查DeepSeek是否非法获取了ChatGPT的数据,这让事情变得很讽刺。
针对Meta的诉讼仍在进行中,必须等待法院发布判决才能确定该公司是否直接侵权。即使作家们赢得了这场官司,拥有巨额资金的Meta也可能会对该判决提出上诉,这意味着可能会等待数月甚至数年才能看到最终的法庭判决。
主编精选,篇篇重磅,请点击订阅“邮件订阅”