在OpenAI大走闭源之路,几乎已经要变成“CloseAI”的同时,其身后老板微软却搞起了开源。
【资料图】
4月13日,微软宣布开源DeepSpeed-Chat,号称可以通过这一项目将ChatGPT等大语言模型的训练速度提升15倍以上,并大幅降低成本。
事实上,训练速度和算力资源一直是大语言模型研发的一个难题。千亿参数的ChatGPT初始所需的算力就需要1万块当前最先进的AI芯片,英伟达A100来提供,成本高达1亿美元,而就算是训练一个参数不超百亿的类ChatGPT模型,也仍需要高成本的GPU集群。
DeepSpeed-Chat团队表示,该项目可以有效缓解上述问题,开源之后,也能让类ChatGPT模型更容易被缺少资金和酸锂资源的普通研究者使用。因此,消息一出,顿时引发了热议。
其实,微软早在2020年就开源了深度学习训练优化库Deep Speed,项目核心贡献者中有不少华人开发者。因此,此次的Deep Speed Chat也发布了中文博客,其中明确给出了在这一项目框架的加持下,各量级参数的大模型需要多长训练时间。
可以看到,基于多节点的A10080GB芯片的GPU集群配置,一个参数量为1750亿(即175B)的大模型仅需20个小时的时间,花费5000多美元。而在两年前,同样有1750亿参数量的GPT-3基于1024张80GB的A100进行训练时,仍需要1个月时间。
博客也提到,如果用DeepSpeed-Chat训练一个,13亿参数的小型模型(大约是2019年GPT-2的参数量级),总共也只需要2个多小时,能够在“咖啡或午餐休息时间”完成。
而能达到如此好的效果,是因为DeepSpeed-Chat是一种针对RLHF训练的深度学习系统。
所谓RLHF是指以强化学习方式依据人类反馈优化语言模型(Reinforcement Learning from Human Feedback),一种生成领域的新训练范式。这也是ChatGPT与常见大语言模型“预训练+微调”的训练方式截然不同的地方。
这种方式简单来说,就是大语言模型会根据人工反馈来调整自己的答案,具体来讲,人工会针对初期训练中的多个模型给出的不同答案进行排序,然后基于这些排序建立一个“奖惩机制”(reward),再用强化学习继续训练。
这种方法一方面使得ChatGPT最终生成的效果极佳,一方面也使得现有的深度学习系统在训练类ChatGPT模型时存在种种局限。而DeepSpeed-Chat则复刻了RLHF训练方式,使得模型能够利用DeepSpeed-Inference的各种优化,在RLHF中无缝地在推理和训练模式之间切换。
事实上,对于这一项目,也有观点认为,光有代码层面的设计,缺乏算力上的支持,仍然意义不大。对此,DeepSpeed项目的核心贡献者之一Zhewei Yao在知乎相关问题下表示,训练引擎、后端(backend)自然重要,但训练效率也一样。
“如果一个人的训练速度比别人慢10倍,那么别人可以尝试10次,而自己只能尝试一次。这样一来,双方最终成功的概率会有很大差距。因此,我们这次开源的目的有两个:一是为大家提供RLHF的训练流程;二是为大家提供更优秀的后端,以便大家在有限的时间内进行更多尝试。”
编译:南都记者杨博雯
人工智能
记者
标签: