GPT-4 的模型在去年8月就炼出来了,但今天才发布,官方解释是需要大量测试和各种查漏补缺。我怀疑 @OpenAI 是担心 AI 进化太快人类接受不了 。。看了 Twitter 上的各种深度剖析,但纸上得来终觉浅,于是直接问了一下 ChatGPT,然后快速看了下论文,把自己领悟到的内容给大家摘要了七条🧵
1/7 能力惊人:就先前面 ChatGPT 自己回答的优势,GPT-4在许多任务上已达到人类水平(human-level)。在普通对话中,GPT-3.5与GPT-4区别不大。但在复杂任务中,GPT-4在可靠性、创造力和处理细节上更出色,在很多专业和学术考试上超越了 90% 的人类。这让我们的教育系统该如何应对?
2/7 视觉输入:传说了很久的多模态终于用图像的方式集成了,它把如少量样本(few-shot)和链式思维(CoT)结合进来了。GPT-4 可以从图片中读出笑话、理解图表与公式,看出不合情理的细节,这些都是人类视觉与语言的高级活动。这就是为什么需要在一个很牛逼的 LLM 之上做多模态,推理智商有保障😄
3/7 可超控性:让回答更加定制化与可控。在 GPT-4 中,开发者可以通过在“系统”消息中描述指令来定制 AI 的风格和任务,而不是每次都用对话的方式去要求 AI 扮演固定的表达、语气和风格。系统消息能在一定范围内大幅定制用户体验。很快普通用户也能在 ChatGPT 中体验这种可控性
4/7 高效训练:GPT-4模型庞大,训练成本高,同时需制药一样做很多的实验,如果这些实验都要在真实环境下跑一遍的话谁也承受不了。为此,OpenAI 搞了个 predictable scaling,就是可以用万分之一的成本来预测各个实验的结果(loss和human eval)。在最新一期 Indigo Live… https://twitter.com/i/web/status/1635905086110203904
5/7 众包评测:为了锻造 GPT-4 特意提供了一个开源的 OpenAI evals,就是把帮系统找茬的任务众包给各位开发者和爱好者了,用一个系统性的开源框架,既让大家有参与感,又能通过反馈来改进系统,一石二鸟。我们可以在发布的文档中看到 Stripe 的 Knowledge 维护就用到了这个众包评测
6/7 工程补漏:OpenAI 还发布了一个system card,估计是为了减少一本正经的胡说八道问题,给系统打了补丁,做预处理和后处理,后面还会开放代码把打补丁能力众包给大家。这标志着 LLM 终于从一个优雅简单的 next token prediction 科研时代进化到了要 Hack 复杂系统的工程时代
7/7 不再开放:论文里没有模型参数和数据规模,也不讲任何技术原理,解释说是为了大家好,怕大家学会了怎么做 GPT-4用来作恶。相信大家都懂的,代表 AI 最高水准的大模型竞赛已经进入工程化阶段,该保密的就得保密,护城河建起来。。😄