树欲静而风不止。尽管OpenAI创始人阿尔特曼近日说大模型时代迎来终结,但大模型给社会带来的影响才刚刚凸显。此次Reddit突然要向生成式AI大模型收数据费,也将不会是个例。

作者 | 言征

审校 | 千山

当地时间4月18日,知名社交媒体平台Reddit宣布将开始向过度使用其数据API的公司(虽然没有点名OpenAI、谷歌等)收费,此举似乎是为了改变免费为别人做嫁衣的局面:被用作大型语言模型的免费训练库。

1、事件回顾:停止免费

Reddit作为有着18年历史的新闻平台,用户可以在上面发帖、评论、交流各种话题。

Reddit说:“过去18年来,作为拥有最大在线人与人对话语料库之一的平台,我们有义务让我们的社区成为这些内容的管理者。”

为此,该公司宣布正在更新其各种开发工具和服务的使用条款,并将它们全部整合到一套开发人员条款中,包括其数据和广告API、嵌入条款等。据称这些条款将管理Reddit的所有开发人员服务。Reddit解释,这些是为了帮助开发人员通过允许访问Reddit上托管的帖子和其他信息来为Reddit用户构建应用程序和服务。


图片


图源:reddithelp.com

值得注意的是,在Reddit数据API条款中的第三条,明确的提出了费用和使用限制的问题。该公司认为,除了商用用途以外,学术界、研究人员和“社交聆听工具”也使用它来访问Reddit数据,但有些人过度使用它。Reddit会保留访问API收费的权利,费率会由Reddit独家确定。


图片


图源:reddithelp.com

至于具体的收费标准,Reddit还没有公布,但表示会分为不同的等级,根据使用者的规模和需求来区分。Reddit的一位发言人声称,它将在6月份分享更多关于在推出付费访问产品时如何授予许可和费用标准的信息。

2、创始人:现在是收紧政策的好时机

不可否认,Reddit作为优质的“大模型语料库”,自然被白嫖的几率非常大。

OpenAI的GPT系列,就使用了来自维基百科、图书馆、从Reddit帖子链接到的网页等的PB级信息。

虽然没有直接点名像谷歌和OpenAI这样的公司,但Reddit首席执行官兼联合创始人史蒂夫·霍夫曼,此前在一次外媒采访时就坦诚,Reddit“是进行真实对话的地方”,因此“Reddit的数据语料库非常有价值”。

“爬取Reddit,产生价值而不将任何价值返回给我们的用户是我们遇到的问题,”霍夫曼认为。“现在是我们收紧政策的好时机。我们认为这是公平的。”

果不其然,作为新条款的一部分,Reddit表示禁止“通过任何方式访问或使用Reddit服务和数据来训练大型语言、人工智能或其他算法模型”。


图片


图源:reddithelp.com

在Reddit的帮助页面上,涵盖了Reddit开发人员工具的商业用途和费用,包括“出售对在Reddit上训练的模型的访问权”只有在获得许可的情况下才被允许,并且可能需要支付相关费用。


图片


图源:reddithelp.com

Reddit没有提供任何线索来说明什么是“附加功能、更高的使用限制和更广泛的使用权限”,它表示这将是决定谁必须为数据API访问付费的因素,也没有提供任何线索关于这些第三方需要为特权付出多少。

3、矛盾的条款争议

更新的条款存在一个有趣的争议:内容归Redditor所有,但Reddit有权向合作伙伴提供用户的内容。

试图从近二十年的对话中抓取内容的行为,不在少数。Reddit更新其条款以“进一步 [澄清] 用户内容归在Reddit上创建和提交内容的redditor所有,未经许可不得使用”,这一点影响很大。

然而,Reddit的用户协议却也包括自己使用发帖人发布的内容的条款,包括“我们有权向与Reddit合作的其他公司、组织或个人提供您的内容。” 如果想要访问数据的一方获得了Reddit的许可,那么内容所有权是否是一个问题,就变得有点模糊了。

4、对于开发者的影响:速率限制

当被问及开发者在被要求付费之前,会考虑什么样的使用门槛时,Reddit表示,它始终对其API使用设置了速率限制。Reddit尚未透露下一步的限制计划,但GitHub文档最后一次更新是在2015年,表明它是每个客户端每分钟60个请求,没有提到批量限制。

Reddit的发言人透露,该公司在执行API使用限制或为限制增加的更高一级的“清理空间”方面,一直不太擅长。

Reddit表示,新规则不出意外的话将于6月19日生效。截至目前,数据API仍然可以免费访问通过Reddit开发者平台的适当用例。

5、拔出萝卜带出泥用于训练的数据版权纠纷

数据是新时代的石油,大模型就是将油加工成高级产品的炼丹炉。只不过这“石油”的归属和使用,却存在太多的争议空间。

首先是训练数据侵犯了用户和企业的版权。

此前,在文生图领域大火的Midjourney和Stability AI,因将它们的工具用于网络抓取的图像而被指控侵犯了数百万艺术家的权利,面临法律诉讼。

同样,库存图片供应商也对白嫖行为发起反击。据悉Getty Images已将Stability AI单独告上法庭,指控其未经许可使用其网站上数百万张图片来训练艺术生成模型Stable Diffusion。

不打招呼,就偷用了艺术家和平台的版权图片,被起诉在所难免。但是这些公司认为,他们已经重新利用人们的图像来创造新的东西并且这是对数据的合理使用。“请注意,我们会认真对待这些问题。任何认为这不是合理使用的人都不了解这项技术并且误解了法律,”Stability AI的一位发言人如是说。

其次,生成式AI的输出也有风险:大模型本身倾向于使用其他来源的图像和文本,包括版权内容(输入决定输出)。一些图像托管平台已经禁止使用AI生成的内容,因为他们担心会引起法律纠纷。

专家警告说,如果企业无意中将生成的AI工具所生成的受版权保护的内容,纳入他们销售的任何产品中,这些企业可能会面临风险。

不过,业内有一个可以借鉴的方案,就是Adobe Firefly。同样是生成式AI模型,它仅使用公司的免版税媒体库Adobe Stock,以及经过版权公开授权和公共领域内容,训练Firefly模型。

同时,未来用户将能够使用自己的内容训练和微调Firefly模型,使其输出具有特定的风格和设计语言。

而且,Adobe似乎在去年8月更新了其内容分析政策,并表示不会访问存储在用户设备本地的内容。

6、写在最后

树欲静而风不止。尽管OpenAI创始人阿尔特曼近日说大模型时代迎来终结,但大模型给社会带来的影响才刚刚凸显。此次Reddit突然要向生成式AI大模型收数据费,也将不会是个例。

不管是对话聊天,还是文生图,保管数据的平台都不得不卷入这场“生态战”。版权、隐私、报酬、安全等都是这场战斗的重要议题。