initial commit

2022-07-19 13:50:39 +00:00 · 2022-07-19 13:50:39 +00:00 · a813850403
parent 063d2cad99
commit a813850403
6 changed files with 32 additions and 0 deletions
--- a/added_tokens.json
+++ b/added_tokens.json
@ -0,0 +1 @@
+{"<sep/>": 57522, "<s_iitcdip>": 57523, "<s_synthdog>": 57524}
--- a/config.json
+++ b/config.json
@ -0,0 +1,23 @@
+{
+  "align_long_axis": true,
+  "architectures": [
+    "DonutModel"
+  ],
+  "decoder_layer": 4,
+  "encoder_layer": [
+    2,
+    2,
+    14,
+    2
+  ],
+  "input_size": [
+    2560,
+    1920
+  ],
+  "max_length": 1536,
+  "max_position_embeddings": 1536,
+  "model_type": "donut",
+  "torch_dtype": "float32",
+  "transformers_version": "4.11.3",
+  "window_size": 10
+}
--- a/pytorch_model.bin
+++ b/pytorch_model.bin
@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d21e8b5e708168f4f9885d18f8bc95ad6950439e7ac518161828ff0b27b984e8
+size 1018458179
--- a/sentencepiece.bpe.model
+++ b/sentencepiece.bpe.model
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@ -0,0 +1 @@
+{"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true}, "additional_special_tokens": ["<s_iitcdip>", "<s_synthdog>"]}
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@ -0,0 +1 @@
+{"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "cls_token": "<s>", "pad_token": "<pad>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "sp_model_kwargs": {}, "special_tokens_map_file": null, "tokenizer_file": "/root/.cache/huggingface/transformers/213c2041358e63047b407f94cde1ae23904d31a3bceb57eab291028c1e949437.7135a4b25ac726e19641f0d68803ff02bad960d6319064f55fa9c536929b86fc", "name_or_path": "hyunwoongko/asian-bart-ecjk", "tokenizer_class": "XLMRobertaTokenizer"}
				`@ -0,0 +1 @@`
				`{"<sep/>": 57522, "<s_iitcdip>": 57523, "<s_synthdog>": 57524}`
				`@ -0,0 +1 @@`
				`{"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true}, "additional_special_tokens": ["<s_iitcdip>", "<s_synthdog>"]}`
				`@ -0,0 +1 @@`
				{"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "cls_token": "<s>", "pad_token": "<pad>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "sp_model_kwargs": {}, "special_tokens_map_file": null, "tokenizer_file": "/root/.cache/huggingface/transformers/213c2041358e63047b407f94cde1ae23904d31a3bceb57eab291028c1e949437.7135a4b25ac726e19641f0d68803ff02bad960d6319064f55fa9c536929b86fc", "name_or_path": "hyunwoongko/asian-bart-ecjk", "tokenizer_class": "XLMRobertaTokenizer"}