Apple, NVIDIA and Anthropic reportedly used YouTube transcripts without permission to train AI models
据Proof News的一项新调查发现,一些全球最大的科技公司在训练其人工智能模型时,未经授权使用了包含173,000多条YouTube视频转录内容的数据集。该数据集由一家名为EleutherAI的非营利公司创建,包含来自48,000多个频道的YouTube视频转录,且被苹果、NVIDIA和Anthropic等公司使用过。
调查结果揭示了人工智能的一个令人不安的真相:这项技术很大程度上建立在未经创作者同意或补偿的情况下从他们那里窃取的数据的基础之上。
该数据集不包含任何来自YouTube的视频或图像,但包含该平台上最大的创作者(包括Marques Brownlee和MrBeast)以及纽约时报、英国广播公司(BBC)和美国广播公司(ABC)等大型新闻出版商的视频转录。Engadget的视频字幕也包含在该数据集中。
Brownlee在X网站写道:“苹果从多家公司为其人工智能获取数据。其中一家公司抓取了大量YouTube视频的数据/转录内容,包括我的。”他还补充说:“这个问题在很长一段时间内都会是一个不断演变的问题。”
谷歌的一位发言人告诉Engadget,YouTube首席执行官Neal Mohan之前发表的评论仍然有效,即任何使用YouTube数据训练人工智能模型的公司都将违反该平台的服务条款。苹果、NVIDIA、Anthropic和EleutherAI尚未对Engadget的置评请求做出回应。
到目前为止,人工智能公司并未对其用于训练模型的数据保持透明。本月早些时候,艺术家和摄影师指责苹果没有透露Apple Intelligence的训练数据的来源,而Apple Intelligence是该公司的生成式人工智能技术,将于今年面向数百万苹果设备推出。
作为全球最大的视频存储库,YouTube尤其是一个宝库,不仅包含转录内容,还包含音频、视频和图像,使其成为训练人工智能模型有吸引力的数据集。今年早些时候,OpenAI的首席技术官Mira Murati回避了《华尔街日报》提出的有关该公司是否使用YouTube视频训练其即将推出的AI视频生成工具Sora的问题。当时,穆拉蒂表示:“我不打算详细介绍使用的数据,但那是公开或者授权的数据。”Alphabet首席执行官桑达尔·皮查伊也表示,任何使用YouTube数据训练其人工智能模型的公司都将违反该平台的服务条款。如果您想查看您或您最喜欢的频道的YouTube视频字幕是否包含在该数据集中,请前往Proof News的查找工具。
原创文章,作者:星阁,如若转载,请注明出处:http://www.xgrl.net/n/202407171217123042.shtml