谷歌称OpenAI若违规用YouTube数据，将采取行动

据相关报道显示，在日前接受采访时，面对“OpenAI是否可能违反谷歌的服务条款，例如使用YouTube相关内容训练其文生视频模型Sora”这一问题时，谷歌CEO Sundar Pichai回应称，公司已制定了程序来查明OpenAI是否没有遵守规定。

Sundar Pichai对此表示，“我认为这是他们应该回答的问题，我没有什么要补充的，我们有明确的服务条款。所以你知道，我认为通常在这些事情上，我们会与企业接触，并确保他们理解我们的服务条款。我们会解决的”。

据了解，自从Sora面世以来，其训练数据来源始终为外界所关注。此前在3月接受采访时，OpenAI首席技术官Mira Murati就曾被问及Sora训练数据来源等相关问题，但她并未给出明确回应，仅表示“我们使用的是公开可用数据和许可数据”。在被进一步追问具体的数据来源是否包含YouTube平台的视频时，Mira Murati曾一度表示，“我实际上并不确定（I'm actually not sure about that）”。

随后在4月还曾有报道援引相关报告称，早在2021年OpenAI方面便面临着训练数据短缺的问题，为此该公司曾讨论转录YouTube视频、播客和有声读物的可行性。据悉，为获得足够的数据训练大模型GPT-4，OpenAI开发了音频转录模型Whisper，转录了超过100万小时的YouTube视频。

事实上，在Sundar Pichai此次表态前，今年4月YouTube CEO Neal Mohan就曾表示，虽然目前缺乏具体证据证明OpenAI是否在使用YouTube的视频及相关数据来训练其视频生成模型Sora，但任何未经许可的这类使用都会违反YouTube的服务条款。

Neal Mohan当时指出，“从创作者的角度来看，当他们将用心制作的视频上传到我们平台后内心肯定是有所期待的，最基本的期待便是平台的服务条款将对他们的创作内容进行保护。我们平台的规则不允许用户下载未经授权的文本或视频，因此若Sora滥用我们平台视频进行训练是明显违反平台规则的行为”。

值得一提的是，Neal Mohan还透露谷歌训练自研大模型Gemini时使用了YouTube上的一些视频内容。但同时他也强调，“我们在使用这些内容之前，已经得到了创作者的授权，并遵循了YouTube与创作者之间的协议”。

据悉，除谷歌之外，日前有消息显示，全球最大的唱片公司之一索尼音乐集团方面也已向超过700家AI等领域相关公司发函，要求不得“未经授权使用公司旗下的资产进行模型训练”，包括专辑封面、元数据、音乐作品和歌词等。

同时索尼音乐方面还在其官网发布了一份题为《选择退出AI训练》的声明，要求已侵权的全球开发者立即停止使用侵权信息训练AI，并保留对过往侵权行为的追溯权。此外，据称索尼音乐还向苹果和Spotify致函，要求流媒体平台采取最佳的措施，保护艺术家和词曲作者，以避免那些未经授权的AI公司非法训练模型。

索尼音乐方面表示，该公司及艺术家“认识到AI的重大潜力和进展”，但在未经授权的情况下将版权内容用于AI训练、开发和商业化应用，是在“剥夺索尼获得适当补偿的权利”。

众力资讯网

谷歌称OpenAI若违规用YouTube数据，将采取行动

AI、AGI、AIGC是什么? 有什么特点?

聊点科技行叭