Update README.md

2023-08-28 11:56:47 +00:00 · 2023-08-28 11:56:47 +00:00 · b855082b51
parent 69f768ace1
commit b855082b51
1 changed files with 3 additions and 6 deletions
--- a/README.md
+++ b/README.md
@ -45,14 +45,11 @@ Atom-7B完全开源可商用，由Llama中文社区和AtomEcho（原子回声）

 ## 训练过程

-**模型结构**
+**模型结构**：基于当前最优秀的开源模型Llama2，使用主流Decoder-only的标准Transformer网络结构，支持4K的上下文长度（Context Length），为同尺寸模型中最长，能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。

-基于当前最优秀的开源模型Llama2，使用主流Decoder-only的标准Transformer网络结构，支持4K的上下文长度（Context Length），为同尺寸模型中最长，能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。
+**FlashAttention-2高效训练**：Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时，内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一，相较于传统的注意力技术（Attention），它拥有更快速的速度以及更加优化的内存占用率。

-**FlashAttention-2高效训练**
-Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时，内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一，相较于传统的注意力技术（Attention），它拥有更快速的速度以及更加优化的内存占用率。
-
-**基于NTK的自适应上下文扩展技术**
+**基于NTK的自适应上下文扩展技术**：
 - 可在不继续训练模型的情况下支持更长的上下文
 - 本项目中模型默认支持4K上下文，利用上述技术可扩展至18K+
 - 经过微调可以支持到32K+