低成本微调垂直领域专属 ChatGPT

code:

内容详情

本次分享将介绍如何低成本微调一个垂直领域专属 ChatGPT,来满足个人和中小企业的需求。首先,我们会介绍当前大模型发展的现状,包括其在现实领域中的广泛应用。

接下来会重点介绍我们最近研发的一个低成本微调全流程框架 LMFlow,支持用户方便地进行多种微调操作。典型案例包括仅需一张消费级显卡(例如 3090),即可在五个小时的时间内完成个性化指令微调。不仅如此,在特定的专家领域(以医疗为例),只需微调 6 个 A100 * 天,就能够获得和 ChatGPT 相当甚至更好的效果。

值得注意的是,ChatGPT 则具有 1750 亿的参数量,而这里性能相当的最小模型规模只有不到二十分之一,大大节约计算资源。同时我们会介绍最新的一个自动化评测基准 LMFlow Benchmark,基于 negative log likelihood 自动对微调模型进行评估,具有完全透明、自动化和灵活可扩展的优势。

LMFlow 的最终目的是帮助每个人都可以用尽量少的资源来训练一个专有领域的、个性化的大模型,以此来推进大模型的研究和应用落地。我们也欢迎更多开源爱好者、研究人员加入我们一起推动大模型微调的工作。

图片[1]-低成本微调垂直领域专属 ChatGPT-JieYingAI捷鹰AI

此外,我们还会介绍一种全新、高效、稳定的对齐算法——RAFT。PPO 等强化学习算法高度依赖反向梯度计算,导致训练代价较高,并且由于强化学习通常具有较多的超参数, 导致其训练过程具有较高的不稳定性。相比之下,RAFT 算法通过使用奖励模型对大规模生成模型的生成样本进行排序,筛选得到符合用户偏好和价值的样本,并基于这些样本微调一个对人类更友好的 AI 模型。

具体而言,RAFT 分为三个核心步骤:

在 RAFT 算法中,模型利用了更多次采样(当下采样后用以精调的样本一定时),和更少次梯度计算(因为大部分低质量数据被 reward 函数筛选掉了),让模型更加稳定和鲁棒。

同时,在某些情况下, 由于有监督微调本身对于超参数敏感性更低, 有更稳健的收敛性, 在相同 reward 情况下,RAFT可以拥有更好的困惑度(perplexity, 对应其生成多样性和流畅性更好)。

除了在语言模型上的对齐能力以外,我们还在扩散模型上验证了文生图的对齐能力,这是之前 PPO 算法无法做到的事情。

图片[2]-低成本微调垂直领域专属 ChatGPT-JieYingAI捷鹰AI

交流群

同时为了方便大家交流沟通,我们还建立了大语言模型相关的交流群,欢迎大家扫码加群,与大佬 1v1,赶紧加入我们吧~

图片[3]-低成本微调垂直领域专属 ChatGPT-JieYingAI捷鹰AI

往期回顾

5 月 25 日社区开放麦,来自悉尼大学的唐诗翔分享了《HumanBench:迈向以人为中心的通才模型》。内容包括:

超多干货,可以通过回放温习一下哦~

正在火热进行中,欢迎报名~

图片[4]-低成本微调垂直领域专属 ChatGPT-JieYingAI捷鹰AI

图片[5]-低成本微调垂直领域专属 ChatGPT-JieYingAI捷鹰AI

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享