AI公司Runway被指控未经授权抓取视频用于训练模型

Runway

未经授权抓取视频

据报道,AI公司Runway未经允许抓取了“数千”个YouTube视频和受版权保护的电影盗版版本。404 Media获得了据称的内部电子表格,表明这家AI视频生成初创公司使用YouTube上迪士尼、Netflix、皮克斯等频道的内容来训练其Gen-3模型。

内部人员爆料

据称,一名Runway的前员工告诉该出版物,该公司使用电子表格来标记其数据库中所需的视频列表。然后他们使用开源代理软件在不被人发现的情况下下载它们,以掩盖其行踪。其中一张表格列出了一些简单的关键词,如宇航员、仙女和彩虹,脚注表明该公司是否找到了相应的高质量视频进行训练。例如,“超级英雄”一词附有一个注释,上面写着“大量电影片段”(的确如此)。

其他注释显示,Runway将YouTube上虚幻引擎、电影制作人Josh Neuman和使命召唤粉丝页的频道标记为“高动作”训练视频的良好来源。

这位前员工告诉404 Media,“电子表格中的频道是全公司范围内的努力,旨在为构建模型找到高质量的视频。”“然后将其作为大型网络爬虫的输入,使用代理来避免被Google屏蔽,从所有这些频道下载所有视频。”

盗版视频来源

在电子表格中汇编的一份包含近4000个YouTube频道的列表标记了CBS New York、AMC Theaters、皮克斯、Disney Plus、Disney CD和蒙特利湾水族馆的“推荐频道”。(因为如果没有水獭,任何AI模型都是不完整的。)

此外,据报道Runway从盗版网站上编制了一份单独的视频列表。标题为“非YouTube来源”的电子表格包含14个来源链接,如未经授权的在线宫崎骏电影档案馆、动漫和电影盗版网站、展示Xbox游戏视频的粉丝网站以及动画流媒体网站kisscartoon.sh。

YouTube和Runway回应

404 Media发现,使用电子表格中列出的流行YouTube博主的名称提示视频生成器,会生成出奇相似的人像,这可以被视为该公司使用训练数据的有力证据。更重要的是,输入相同的名字在Runway的较旧Gen-2模型(在电子表格中的数据被指控之前进行训练)中生成“无关”的结果,例如身穿西装的普通男性。此外,在该出版物联系Runway询问YouTube博主肖像出现在结果中的情况后,该AI工具完全停止生成它们。

这位前员工告诉404 Media,“我希望通过分享这些信息,人们可以更好地了解这些公司的规模以及他们正在做什么来制作‘酷炫’的视频。”

当被联系发表评论时,YouTube的一位代表让Engadget关注其首席执行官尼尔·莫汉4月份接受彭博社采访的内容。在该次采访中,莫汉将其视频作为“明确违反”其条款的培训。YouTube发言人杰克·梅森写信给Engadget称,“我们之前对这件事发表的评论仍然有效”。

截至本文发表时,Runway尚未回应评论请求。

AI公司之间的竞争和版权问题

至少有一些AI公司似乎正在竞相让他们的工具正常化并建立市场领导地位,在用户和法院了解他们是如何制作香肠之前。通过许可协议获得授权进行培训是一回事,而这正是OpenAI等公司最近采用的另一种策略。然而,在为了利润和主导地位而进行的快节奏竞赛中,将整个互联网(包括受版权保护的材料)视为可以随意获取的东西,是一个更为模糊(如果不是非法)的主张。

404 Media的出色报道值得一读。

原创文章,作者:星阁,如若转载,请注明出处:http://www.xgrl.net/n/202407261459543394.shtml

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注