From 78e779680b620f35f9fc5bb4159d5da120593542 Mon Sep 17 00:00:00 2001
From: FlagBeta <FlagBeta@users.noreply.huggingface.co>
Date: Mon, 28 Aug 2023 11:59:48 +0000
Subject: [PATCH] Update README.md

---
 README.md | 19 ++++++++++++-------
 1 file changed, 12 insertions(+), 7 deletions(-)

diff --git a/README.md b/README.md
index 2912552..a5c1002 100644
--- a/README.md
+++ b/README.md
@@ -14,7 +14,7 @@ Atom-7B完全开源可商用，由Llama中文社区和AtomEcho（原子回声）
 模型的部署、训练、微调等方法详见Llama中文社区GitHub仓库：[**Llama2-Chinese**](https://github.com/FlagAlpha/Llama2-Chinese)。
 
 
-## 中文数据
+## 📝 中文数据
 
 | 类型                                                       | 描述                                                         |
 | ---------------------------------------------------------- | ------------------------------------------------------------ |
@@ -28,7 +28,7 @@ Atom-7B完全开源可商用，由Llama中文社区和AtomEcho（原子回声）
 **我们也欢迎大家在[llama.family](https://llama.family)中贡献自己的数据，您的数据通过审核后会加入模型训练，也将影响模型未来的能力走向。**
 
 
-## 中文词表
+## 📚 中文词表
 
 为了提高中文文本处理的效率，我们针对Llama2模型的词表进行了深度优化。
 
@@ -43,19 +43,24 @@ Atom-7B完全开源可商用，由Llama中文社区和AtomEcho（原子回声）
 最终，成功地实现了一种既能提高中文处理效率又能保持Llama2原有性能的方法。
 
 
-## 训练过程
+## 📈 训练过程
 
-**模型结构**：基于当前最优秀的开源模型Llama2，使用主流Decoder-only的标准Transformer网络结构，支持4K的上下文长度（Context Length），为同尺寸模型中最长，能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。
+**模型结构**
 
-**FlashAttention-2高效训练**：Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时，内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一，相较于传统的注意力技术（Attention），它拥有更快速的速度以及更加优化的内存占用率。
+基于当前最优秀的开源模型Llama2，使用主流Decoder-only的标准Transformer网络结构，支持4K的上下文长度（Context Length），为同尺寸模型中最长，能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。
+
+**FlashAttention-2高效训练**
+
+Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时，内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一，相较于传统的注意力技术（Attention），它拥有更快速的速度以及更加优化的内存占用率。
+
+**基于NTK的自适应上下文扩展技术**
 
-**基于NTK的自适应上下文扩展技术**：
 - 可在不继续训练模型的情况下支持更长的上下文
 - 本项目中模型默认支持4K上下文，利用上述技术可扩展至18K+
 - 经过微调可以支持到32K+
 
 
-## 推理配置
+## 💻 推理配置
 实际应用中，消费级显卡要比专业显卡便宜的多（比如3090相比A10，同样都是24G显存）。
 
 对于消费级显卡，直接FP32肯定放不下，一般最基本的是FP16，而INT8和INT4量化就很有用，例如：