今天凌晨,OpenAI 发布了多模态预训练大模型 GPT-4。有兴趣的技术大大可以直接点击查看60P的《gpt-4技术报告》。

 

 

简单总结,GPT-4对比上一代3.5所取得飞行性的突破:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。而且GPT-4是在去年8月就已经完成的模型,至今的6个月微软在不断的调试安全性能,可见微软在该项技术上几乎已经确定了领先地位。

 

从AI从业者口中得知,GPT-4或许相比3.5版本,在日常的对话上并没有明显的进步,但是却在复杂的信息处理上飞跃了几个世代。比如SAT和奥数等,过去的3.5版本可能只能考到倒数10%的成绩,而现在则可以成功打败90%的人类。

 

另外,在识图上,GPT-4并非简单的识图,而是真正的理解图片的含义。说白了,你给它一张Html的页面草稿,然后GPT-4甚至可以直接生成页面的代码。比如在凌晨发布会中直播的例子:

 

给 GPT-4 一个长相奇怪的充电器的图片,问它为什么这很可笑?

 

 

GPT4的回答:这幅图的幽默之处在于,把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口是荒谬的。

 

 

在测试中,GPT-4可以读漫画、看梗图,理解人类的幽默感进而进行输出。

 

可以看出,这一次的GPT-4的更新虽然在用户侧只专注了几个方向,可是对于技术水平的跨度是“GPT的一大步”。官方也表示,GPT将会应用在对话,购物,反欺诈,金融,教育,保护文化遗产等多种领域。

 

 

最终,在笔者试着理解LLM之后发现,我们称之为物联网的生态(PC、手机、CTV、音箱、手表、VR、智能盒子等)会因为多模态LLM迎来全新的变革,地图导航软件或许你给它一张图就能给你指路、小x同学和小x小x也可以真的和人类开启对话。总而言之,既然LLM模型已经进化如此,2023的生态变革已经拉开序幕。