Update README.md

This commit is contained in:
FlagBeta 2023-08-28 11:59:48 +00:00 committed by huggingface-web
parent b855082b51
commit 78e779680b
1 changed files with 12 additions and 7 deletions

View File

@ -14,7 +14,7 @@ Atom-7B完全开源可商用由Llama中文社区和AtomEcho原子回声
模型的部署、训练、微调等方法详见Llama中文社区GitHub仓库[**Llama2-Chinese**](https://github.com/FlagAlpha/Llama2-Chinese)。
## 中文数据
## 📝 中文数据
| 类型 | 描述 |
| ---------------------------------------------------------- | ------------------------------------------------------------ |
@ -28,7 +28,7 @@ Atom-7B完全开源可商用由Llama中文社区和AtomEcho原子回声
**我们也欢迎大家在[llama.family](https://llama.family)中贡献自己的数据,您的数据通过审核后会加入模型训练,也将影响模型未来的能力走向。**
## 中文词表
## 📚 中文词表
为了提高中文文本处理的效率我们针对Llama2模型的词表进行了深度优化。
@ -43,19 +43,24 @@ Atom-7B完全开源可商用由Llama中文社区和AtomEcho原子回声
最终成功地实现了一种既能提高中文处理效率又能保持Llama2原有性能的方法。
## 训练过程
## 📈 训练过程
**模型结构**基于当前最优秀的开源模型Llama2使用主流Decoder-only的标准Transformer网络结构支持4K的上下文长度Context Length为同尺寸模型中最长能满足更长的多轮对话、知识问答与摘要等需求模型应用场景更广泛。
**模型结构**
**FlashAttention-2高效训练**Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一相较于传统的注意力技术Attention它拥有更快速的速度以及更加优化的内存占用率。
基于当前最优秀的开源模型Llama2使用主流Decoder-only的标准Transformer网络结构支持4K的上下文长度Context Length为同尺寸模型中最长能满足更长的多轮对话、知识问答与摘要等需求模型应用场景更广泛。
**FlashAttention-2高效训练**
Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一相较于传统的注意力技术Attention它拥有更快速的速度以及更加优化的内存占用率。
**基于NTK的自适应上下文扩展技术**
**基于NTK的自适应上下文扩展技术**
- 可在不继续训练模型的情况下支持更长的上下文
- 本项目中模型默认支持4K上下文利用上述技术可扩展至18K+
- 经过微调可以支持到32K+
## 推理配置
## 💻 推理配置
实际应用中消费级显卡要比专业显卡便宜的多比如3090相比A10同样都是24G显存
对于消费级显卡直接FP32肯定放不下一般最基本的是FP16而INT8和INT4量化就很有用例如