清华二代60亿参数开源,中文排名第一,碾压GPT-4,推理加速42%
2023/6/30 11:57:01 主编:孟泽
清华六号B型又开始绕圈了! 新版本推理能力提升42%,最多支持32k上下文。
-6B 自 3 月份发布以来,在 AI 社区中爆发,并在 上获得了 29,800 颗星。
现在,第二代来了!
清华KEG与数据挖掘研究组(THUDM)发布中英双语对话模型-6B。
项目地址:THUDM/-6B
最新版本-6B增加了许多功能:
- 基础模型升级,性能更强大
- 支持8K-32k上下文
- 推理性能提高 42%
- 对学术研究完全开放,允许申请商业授权
值得一提的是,在中国C-Eval榜单中,它以71.1的成绩排名第一,碾压GPT-4。 最新版本-6B以51.7分排名第六。
-6B升级亮点
运-6B二代版本在保留第一代机型对话流畅、部署门槛低等诸多优良特性的基础上,增加了诸多新功能:
1、性能更强大
运-6B基础型在第一代型号的研制经验基础上进行了全面升级。
-6B采用GLM的混合目标函数,经过1.4T中英文标识符预训练和人类偏好对齐训练。
评测结果显示,与第一代模型相比,-6B在MMLU(+23%)、CEval(+33%)、GSM8K(+571%)、BBH(+60%)等数据集上的表现取得了显着的进步。 在同规模的开源机型中具有较强的竞争力。
2. 更长的背景
基于该技术,研究人员将基座模型的上下文长度从-6B的2K扩展到32K,并在对话阶段用8K的上下文长度进行训练,允许更多轮次的对话。
但目前版本的-6B对单轮超长文档的理解能力有限,后续迭代升级中将重点优化。
3. 更高效的推理
基于Multi-Query技术,-6B具有更高效的推理速度和更低的内存占用。
在官方模型的实现下,推理速度较第一代提升了42%。 INT4量化下,6G显存支持的对话长度从1K提升至8K。
4. 更开放的协议
-6B权重完全开放给学术研究,在获得官方书面许可后也允许商业使用。
影响
与原型号相比,运-6B在多维度能力上实现了巨大提升。
数理逻辑
知识推理
长文档理解
评价结果
研究团队选取了一些典型的中英文数据集进行评估。 以下是-6B模型在MMLU(英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文)上的评估结果。
C-评估
GSM8K
推理表现
-6B 使用多查询来提高生成速度。 生成2000个字符的平均速度对比如下:
Multi-Query还减少了生成过程中KV Cache的显存占用。
另外,-6B使用Mask进行对话训练,连续对话时可以复用前几轮的KV Cache,进一步优化了内存使用。
因此,使用6GB显存的显卡进行INT4量化推理时,第一代-6B模型最多可以生成1119个字符,并且会提示显存耗尽,而-6B至少可以生成8192个字符人物。
研究团队还测试了量化对模型性能的影响。 结果表明量化对模型性能具有可接受的影响。
指示
环境安装
首先你需要下载这个存储库:
然后使用pip安装依赖:pip -r .txt,其中推荐的库版本为4.30.2,torch建议使用2.0以上的版本以获得最佳的推理性能。
代码调用
-6B模型可以通过以下代码调用来生成对话框:
本地加载模型
在从 Face Hub 下载模型之前,需要先安装 Git LFS,然后运行:
如果下载速度慢,只能下载模型实现:
然后,手动下载模型参数文件并将该文件替换到本地-6b目录中。
地址:d//
模型下载到本地后,将上述代码中的THUDM / -6b替换为本地-6b文件夹的路径,即可将模型加载到本地。
参考:
0条评论