北美商业电讯

| 简体 | 繁体 | 2025年04月02日
+
订阅

下载82TB盗版书用于AI训练!Meta被控侵犯版权,小扎明知故犯

更新于2025-02-11 16:01

Facebook母公司Meta目前正因其训练LLaMA的方式被提起集体诉讼,诉讼指控其侵犯版权和不正当竞争等。

根据vx-underground在X上发布的一篇帖子,法庭记录显示,这家社交媒体公司使用盗版种子从Anna's Archive、Z-Library和LibGen等影子库下载了81.7TB的数据。然后它使用这些信息来训练其AI模型。

证据表明研究人员对Meta使用盗版材料的担忧。一位高级人工智能研究人员早在2022年10月就表示:“我认为我们不应该使用盗版材料。我真的需要在这里划一条红线。”

而另一位研究员则表示:“使用盗版材料应该超出我们的道德门槛”,然后他们补充道:“SciHub、ResearchGate、LibGen基本上就像是盗版数据库,他们分发受版权保护的内容,并且侵犯了版权。”

然后,在2023月1月,马克·扎克伯格亲自参加了一次会议,他说:“我们需要推动这些事情……我们需要找到一种方法来解除所有这些阻碍。”大约三个月后,一名Meta员工向另一名员工发送了一条消息,称他们担心Meta IP地址被用来“加载盗版内容”。他们还补充说,“用公司笔记本电脑下载种子感觉不对劲”,然后发了一个大笑的表情符号。

除了这些信息之外,文件还显示,该公司已采取措施,确保其基础设施不被用于这些下载操作,因此就不会被追溯到Meta。法庭文件称,这构成了Meta非法活动的证据,这似乎是在故意采取措施规避版权法。

然而,这并不是人工智能训练模型第一次被指控从互联网上窃取信息。早在2023年6月,OpenAI就因使用书籍训练其大型语言模型而被小说家起诉, 《纽约时报》于当年12月也采取了同样的行动。英伟达也因使用196,640本书来训练其NeMo模型而遭到作家的起诉,该模型现已被删除。

去年8月,一名前英伟达员工揭发了该公司,称该公司每天抓取超过42.6万小时的视频用于人工智能训练。最近,OpenAI正在调查DeepSeek是否非法获取了ChatGPT的数据,这让事情变得很讽刺。

针对Meta的诉讼仍在进行中,必须等待法院发布判决才能确定该公司是否直接侵权。即使作家们赢得了这场官司,拥有巨额资金的Meta也可能会对该判决提出上诉,这意味着可能会等待数月甚至数年才能看到最终的法庭判决。

主编精选,篇篇重磅,请点击订阅“邮件订阅

编辑:
版权声明:本文版权归北美商业电讯所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。
评论
用户名: 登录可见
匿名
发表评论
×

分享到微信朋友圈

打开微信点击底部的“发现”
使用“扫一扫”即可将网页分享至朋友圈