诉讼中指出,OpenAI和微软系统性地从互联网中窃取了3000亿个单词,包括数百万未经同意获取的个人信息。

随着ChatGPT风靡全球,其开发商OpenAI就接连不断地面临着越来越多的质疑与批评。近日,OpenAI就陷入了接连“吃官司”的状态之中。

6月29日,有16 名匿名人士向美国加利福尼亚州旧金山联邦法院提起诉讼,称 ChatGPT 在没有充分通知用户或获得同意的情况下收集和泄露了他们的个人信息,据此他们要求微软和 OpenAI 索赔 30 亿美元。

诉讼中指出,尽管制定了购买和使用个人信息的协议,但是OpenAI和微软系统性地从互联网中窃取了3000亿个单词,包括数百万未经同意获取的个人信息。

原告指控两家公司通过其 AI 产品“收集、存储、跟踪、共享和披露”数百万人的个人信息,包括产品详细信息、账户信息、姓名、联系方式、登录凭据、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天日志、cookie、搜索记录和其他在线活动。

诉状还称:就个人身份信息而言,被告未能充分地将其从学习模型中过滤掉,使数百万人面临着个人信息立即或以其他方式向世界各地的陌生人披露的风险。

诉讼还指控OpenAI违背了其初心,即以“最有可能造福整个人类的方式推进人工智能”。截至目前,不论是OpenAI官方还是微软官方都还未对该指控进行回复。

不过,该诉讼已经在全球引起了广泛关注,同时引发了广大网友对隐私、人工智能伦理和企业处理个人信息的担忧。

随后,在短短的一周内,OpenAI又接到两位作家Paul Tremblay和Mona Awad提起的诉讼,指控他们的受版权保护的著作被用来训练ChatGPT。

1689059153_64acff51092e55a2cfbce.png!small?16890591540401689059153_64acff51092e55a2cfbce.png!small?1689059154040

Paul Tremblay和Mona Awad称,ChatGPT 能为他们的书生成“非常准确”的摘要。所以他们坚称,只有在ChatGPT接受了他们著作的训练后,才有可能出现这么准确的摘要,而这个操作显然违反了版权法。

起诉书中预估,OpenAI 的训练数据中至少包含 30 万本书,其中很多来自侵权网站。

比如 OpenAI 在披露 GPT-3 训练数据情况时,就表示其中包含两个互联网图书语料库,大概占比为 15%。起诉作者认为这些数据就是来自影子图书馆网站的,比如 Library Genesis、Sci-Hub 等。

OpenAI已多次陷入数据风波

虽然目前的这些指控仍是原告方的“一面之词”。但这已经不是这家公司第一次陷入数据安全、个人信息泄露相关的指控了。

去年6月下旬,微软发布了一种可以自动生成计算机代码的新型人工智能技术。

该工具名为 Copilot,旨在让专业程序员更快地工作。当他们工作时,Copilot会给出代码建议,程序员可以直接将copilot展示的建议的代码块直接添加到自己的代码中,快速完成工作,这一工具也因此被很多媒体誉为“让程序员早下班的工具”。

然后去年 11 月,这款名为Copilot的代码助手,就被程序员们告上了法庭。

原告们认为Copilot嫌违反开源许可,使用他们贡献的代码训练 GitHub Copilot 和 OpenAI 的 Codex 机器学习模型,侵犯了众多原创代码作者的版权,同时还泄露了用户隐私,因此向法院提起诉讼,索赔达90亿美元。

这些案例无疑为隐私安全敲响了警钟,不仅是OpenAI,全球公司都必须对数据收集和使用持有负责任的态度。

如今,人工智能技术的快速发展让个人隐私问题面临着更加艰深的挑战,特别是在数据收集和使用方面。随着越来越多的个人数据被用于训练AI模型,如何切实做到确保数据的合法和透明使用变得至关重要。

企业在保护个人隐私方面扮演着关键角色。因此各企业在收集和使用个人数据时,都必须遵守隐私法规,并提供透明的数据使用方式,以确保人工智能技术的发展与个人权益的保护相平衡。


责任编辑:赵宁宁来源: FreeBuf.COM