当前OpenAI正在致力于识别API的输出,以防止潜在的误用、滥用,但潘多拉之匣已然开启。目前尚不清楚字节跳动这样的行为是否会进一步加剧中美之间高度紧张的关系,毕竟两国都将人工智能视为国家安全问题。

整理丨诺亚


外媒The Verge于北京时间今日凌晨报道,在生成式AI的疯狂竞赛中,字节跳动一直在秘密利用OpenAI的技术“走捷径”,直指字节跳动在中国使用GPT生成的数据来训练自己的大模型,违反了微软和OpenAI的开发者许可。不久后,OpenAI发言人Niko Felix发表声明,确认字节跳动的账户已被暂停并将做进一步调查。

1、“他们想确保一切都合法,但他们真的只是不想被抓住” 

外媒称,字节跳动此举违反了OpenAI的有关服务条款。该条款规定,其模型输出不能用于“开发任何与我们的产品和服务竞争的人工智能模型”。字节跳动正在通过微软购买OpenAI的使用权,微软也有同样的政策。


但是记者Alex Heath表示,从他看到的字节跳动内部文档可以证实,在几乎每个开发阶段,包括训练和评估模型,字节跳动都依赖OpenAI API来开发其基础大模型,代号为“种子计划(Project Seed)”。


报道提到,自从大约一年前字节跳动内部启动“种子计划”以来,它已成为一项高度优先的秘密计划。从事这项工作的员工必须签署单独的保密协议。参与其中的员工也很清楚此事曝光的影响。Alex Heath在飞书国际版Lark的内部沟通记录上看到过关于如何通过“数据脱敏”来“粉饰”证据的对话,“滥用如此猖獗,以至于种子计划的员工经常达到 API 访问的上限”。


内部文件显示,在种子计划的早期阶段,对于OpenAI平台的使用更为肆无忌惮。但几个月前,字节跳动命令该团队在“模型开发的任何阶段”停止使用GPT生成的文本。也就是在这个时候,字节跳动获得了中国监管部门的批准,通过AI大模型“豆包”让种子计划上线。


Alex称,尽管如此,这种API的使用方式仍然违反了OpenAI和微软的服务条款,包括评估在豆包背后的模型的性能。文中引用了一位声称对字节跳动内部情况有深入了解的爆料者的话,“他们说他们想确保一切都是合法的,但他们真的只是不想被抓住”。

2、OpenAI的回应:暂停账号,作进一步调查


对于该报道,来自字节跳动、微软以及OpenAI三方的发言人均给出了回应。


字节跳动发言人Jodi Seth在回应这篇报道中详细列出的事实时表示,GPT生成的数据在种子计划的早期开发中被用于注释模型,并且在今年年中左右就从字节跳动的训练数据中删除了它。


她提到:“字节跳动获得了微软使用GPT API的许可。”“我们使用GPT为非中国市场的产品和功能提供动力,但使用我们自主开发的模式为豆包提供动力,而豆包只在中国提供。”


微软发言人Frank Shaw则在一份声明中表示:“微软人工智能解决方案(如Azure OpenAI Service)是我们有限访问框架的一部分,这意味着所有客户必须申请并获得微软批准才能访问。”“我们还制定标准并提供资源,帮助我们的客户在遵守服务条款的情况下负责任地使用这些技术,并制定了适当的流程来检测滥用,并在公司违反我们的行为准则时停止访问权限。”


OpenAI发言人Niko Felix则向该报道的作者表示,确认字节跳动的账户已被暂停:“所有API客户必须遵守我们的使用政策,以确保我们的技术得到善用。虽然字节跳动对我们API的使用很少,但我们在进一步调查期间暂停了他们的账户。如果我们发现他们的使用不遵守这些政策,我们将要求他们做出必要的改变或终止他们的账户。”

3、灰色地带:疯狂竞赛中的铤而走险 

今年以来,在OpenAI掀起的这场生成式AI竞赛中,无论是巨头还是初创企业,都被卷入了某种“疯狂”的漩涡中。时不我待的焦虑感成为了每个人头上的紧箍咒。于是乎,灰色地带应运而生。


使用专有的人工智能模型(尤其是OpenAI的模型)来帮助构建竞争产品已经成为小公司的普遍做法。这通常被视为一个法律灰色地带,因为OpenAI和微软还没有公开对任何一个违规者做出“严惩”。正如Databricks负责生成式人工智能的副总裁Naveen Rao所说:“现在很多初创公司都在冒这个风险。”


外媒强调,在此次事件中,对于像字节跳动这样体量的公司来说,这种行为是非常不寻常的。这表明种子计划团队承受着快速交付的巨大压力。


据报道,种子计划正在开发的两款主打产品,一是豆包,目前在中国上线的AI聊天机器人,另一个是以商业为中心的机器人平台,正在开发中,将通过字节跳动的云部门销售。种子计划与TikTok无关,它是在中国的服务器上开发的。项目负责人是字节跳动的搜索主管朱文佳,他向公司最高工程负责人杨震原汇报工作。


虽然员工们被告知,种子计划的目标是像 OpenAI 一样,最终构建通用人工智能,但真正的目标似乎是尽快成为中国的 ChatGPT。该团队已接到命令,即在今年年底前与 GPT-3.5 的性能相匹敌,并在 2024 年年中之前与 GPT-4 相匹敌。当前的 Seed 模型大约有 2000 亿个参数。相比之下,GPT-3.5 有 1750 亿个参数,而GPT-4 的参数规模尚未公布。   


滥用GPT来打造竞争对手并非个案。今年早些时候,谷歌的一名研究人员曾辞职以示抗议,因为一些员工试图使用来自一个网站的数据,该网站包含人们上传的与ChatGPT的对话。虽然那次事件并没有发酵产生舆情,但也被内部视为耻辱。

4、衍生问题:大模型幻觉的加剧

当前OpenAI正在致力于识别API的输出,以防止潜在的误用、滥用,但潘多拉之匣已然开启。目前尚不清楚字节跳动这样的行为是否会进一步加剧中美之间高度紧张的关系,毕竟两国都将人工智能视为国家安全问题。


另一个必须关注的问题是,当大模型越来越多地帮助构建其他大模型时,在线信息的质量会发生什么变化。由于基础模型已经在非事实的、人工创建的数据上进行了训练,因此使用它们来构建更多的大模型只会放大幻觉问题。在钢丝上行走的同时又要警惕陷入更为浓稠的迷雾,人工智能的前路到底会走向何方?我们或许也只有在迷茫中继续前行,在更深度的博弈中寻找答案。


参考链接:

https://www.theverge.com/2023/12/15/24003151/bytedance-china-openai-microsoft-competitor-llm

https://www.theverge.com/2023/12/15/24003542/openai-suspends-bytedances-account-after-it-used-gpt-to-train-its-own-ai-model    

责任编辑:武晓燕来源: 51CTO技术栈