清华第二代 60 亿参数 ChatGLM2 开源,中文榜居首,碾压 GPT-4

浏览:22

清华二代60亿参数开源,中文排名第一,碾压GPT-4,推理加速42%

2023/6/30 11:57:01 主编:孟泽

清华六号B型又开始绕圈了! 新版本推理能力提升42%,最多支持32k上下文。

-6B 自 3 月份发布以来,在 AI 社区中爆发,并在 上获得了 29,800 颗星。

现在,第二代来了!

清华KEG与数据挖掘研究组(THUDM)发布中英双语对话模型-6B。

项目地址:THUDM/-6B

最新版本-6B增加了许多功能:

- 基础模型升级,性能更强大

- 支持8K-32k上下文

- 推理性能提高 42%

- 对学术研究完全开放,允许申请商业授权

值得一提的是,在中国C-Eval榜单中,它以71.1的成绩排名第一,碾压GPT-4。 最新版本-6B以51.7分排名第六。

-6B升级亮点

运-6B二代版本在保留第一代机型对话流畅、部署门槛低等诸多优良特性的基础上,增加了诸多新功能:

1、性能更强大

运-6B基础型在第一代型号的研制经验基础上进行了全面升级。

-6B采用GLM的混合目标函数,经过1.4T中英文标识符预训练和人类偏好对齐训练。

评测结果显示,与第一代模型相比,-6B在MMLU(+23%)、CEval(+33%)、GSM8K(+571%)、BBH(+60%)等数据集上的表现取得了显着的进步。 在同规模的开源机型中具有较强的竞争力。

2. 更长的背景

基于该技术,研究人员将基座模型的上下文长度从-6B的2K扩展到32K,并在对话阶段用8K的上下文长度进行训练,允许更多轮次的对话。

但目前版本的-6B对单轮超长文档的理解能力有限,后续迭代升级中将重点优化。

3. 更高效的推理

基于Multi-Query技术,-6B具有更高效的推理速度和更低的内存占用。

在官方模型的实现下,推理速度较第一代提升了42%。 INT4量化下,6G显存支持的对话长度从1K提升至8K。

4. 更开放的协议

-6B权重完全开放给学术研究,在获得官方书面许可后也允许商业使用。

影响

与原型号相比,运-6B在多维度能力上实现了巨大提升。

数理逻辑

知识推理

长文档理解

评价结果

研究团队选取了一些典型的中英文数据集进行评估。 以下是-6B模型在MMLU(英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文)上的评估结果。

C-评估

GSM8K

推理表现

-6B 使用多查询来提高生成速度。 生成2000个字符的平均速度对比如下:

Multi-Query还减少了生成过程中KV Cache的显存占用。

另外,-6B使用Mask进行对话训练,连续对话时可以复用前几轮的KV Cache,进一步优化了内存使用。

因此,使用6GB显存的显卡进行INT4量化推理时,第一代-6B模型最多可以生成1119个字符,并且会提示显存耗尽,而-6B至少可以生成8192个字符人物。

研究团队还测试了量化对模型性能的影响。 结果表明量化对模型性能具有可接受的影响。

指示

环境安装

首先你需要下载这个存储库:

然后使用pip安装依赖:pip -r .txt,其中推荐的库版本为4.30.2,torch建议使用2.0以上的版本以获得最佳的推理性能。

代码调用

-6B模型可以通过以下代码调用来生成对话框:

本地加载模型

在从 Face Hub 下载模型之前,需要先安装 Git LFS,然后运行:

如果下载速度慢,只能下载模型实现:

然后,手动下载模型参数文件并将该文件替换到本地-6b目录中。

地址:d//

模型下载到本地后,将上述代码中的THUDM / -6b替换为本地-6b文件夹的路径,即可将模型加载到本地。

参考:

声明: 唯一值得购 是一家中立的,致力于帮助广大网友在网购时能买到性价比更高商品的分享平台,每天为网友们提供丰富、准确、新鲜的网上商品、特价资讯等信息。本站信息大部分来自于网友爆料,如果您发现了优质的商品或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

暂时木有评论