喝杯咖啡就能训练大模型？微软开源项目将训练速度提升15倍世界快消息

首页资讯科技财经教育要闻企业行情材料品牌滚动

资讯

长春汽开区法院：锤炼法官助理过硬本领助力案结事了人和-最新消息

科技

2023-04-14 18:12:38 来源：南方都市报

在OpenAI大走闭源之路，几乎已经要变成“CloseAI”的同时，其身后老板微软却搞起了开源。

【资料图】

4月13日，微软宣布开源DeepSpeed-Chat，号称可以通过这一项目将ChatGPT等大语言模型的训练速度提升15倍以上，并大幅降低成本。

事实上，训练速度和算力资源一直是大语言模型研发的一个难题。千亿参数的ChatGPT初始所需的算力就需要1万块当前最先进的AI芯片，英伟达A100来提供，成本高达1亿美元，而就算是训练一个参数不超百亿的类ChatGPT模型，也仍需要高成本的GPU集群。

DeepSpeed-Chat团队表示，该项目可以有效缓解上述问题，开源之后，也能让类ChatGPT模型更容易被缺少资金和酸锂资源的普通研究者使用。因此，消息一出，顿时引发了热议。

其实，微软早在2020年就开源了深度学习训练优化库Deep Speed，项目核心贡献者中有不少华人开发者。因此，此次的Deep Speed Chat也发布了中文博客，其中明确给出了在这一项目框架的加持下，各量级参数的大模型需要多长训练时间。

可以看到，基于多节点的A10080GB芯片的GPU集群配置，一个参数量为1750亿(即175B)的大模型仅需20个小时的时间，花费5000多美元。而在两年前，同样有1750亿参数量的GPT-3基于1024张80GB的A100进行训练时，仍需要1个月时间。

博客也提到，如果用DeepSpeed-Chat训练一个，13亿参数的小型模型(大约是2019年GPT-2的参数量级)，总共也只需要2个多小时，能够在“咖啡或午餐休息时间”完成。

而能达到如此好的效果，是因为DeepSpeed-Chat是一种针对RLHF训练的深度学习系统。

所谓RLHF是指以强化学习方式依据人类反馈优化语言模型(Reinforcement Learning from Human Feedback)，一种生成领域的新训练范式。这也是ChatGPT与常见大语言模型“预训练+微调”的训练方式截然不同的地方。

这种方式简单来说，就是大语言模型会根据人工反馈来调整自己的答案，具体来讲，人工会针对初期训练中的多个模型给出的不同答案进行排序，然后基于这些排序建立一个“奖惩机制”(reward)，再用强化学习继续训练。

这种方法一方面使得ChatGPT最终生成的效果极佳，一方面也使得现有的深度学习系统在训练类ChatGPT模型时存在种种局限。而DeepSpeed-Chat则复刻了RLHF训练方式，使得模型能够利用DeepSpeed-Inference的各种优化，在RLHF中无缝地在推理和训练模式之间切换。

事实上，对于这一项目，也有观点认为，光有代码层面的设计，缺乏算力上的支持，仍然意义不大。对此，DeepSpeed项目的核心贡献者之一Zhewei Yao在知乎相关问题下表示，训练引擎、后端(backend)自然重要，但训练效率也一样。

“如果一个人的训练速度比别人慢10倍，那么别人可以尝试10次，而自己只能尝试一次。这样一来，双方最终成功的概率会有很大差距。因此，我们这次开源的目的有两个：一是为大家提供RLHF的训练流程；二是为大家提供更优秀的后端，以便大家在有限的时间内进行更多尝试。”

编译：南都记者杨博雯

人工智能

记者

标签：