Update README.md

This commit is contained in:
FlagBeta 2023-08-28 11:56:47 +00:00 committed by huggingface-web
parent 69f768ace1
commit b855082b51
1 changed files with 3 additions and 6 deletions

View File

@ -45,14 +45,11 @@ Atom-7B完全开源可商用由Llama中文社区和AtomEcho原子回声
## 训练过程
**模型结构**
**模型结构**基于当前最优秀的开源模型Llama2使用主流Decoder-only的标准Transformer网络结构支持4K的上下文长度Context Length为同尺寸模型中最长能满足更长的多轮对话、知识问答与摘要等需求模型应用场景更广泛。
基于当前最优秀的开源模型Llama2使用主流Decoder-only的标准Transformer网络结构支持4K的上下文长度Context Length为同尺寸模型中最长能满足更长的多轮对话、知识问答与摘要等需求模型应用场景更广泛
**FlashAttention-2高效训练**Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一相较于传统的注意力技术Attention它拥有更快速的速度以及更加优化的内存占用率
**FlashAttention-2高效训练**
Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一相较于传统的注意力技术Attention它拥有更快速的速度以及更加优化的内存占用率。
**基于NTK的自适应上下文扩展技术**
**基于NTK的自适应上下文扩展技术**
- 可在不继续训练模型的情况下支持更长的上下文
- 本项目中模型默认支持4K上下文利用上述技术可扩展至18K+
- 经过微调可以支持到32K+