800 lines
17 KiB
JSON
800 lines
17 KiB
JSON
{
|
|
"version": "1.0",
|
|
"truncation": null,
|
|
"padding": null,
|
|
"added_tokens": [
|
|
{
|
|
"id": 0,
|
|
"special": true,
|
|
"content": "<|startoftext|>",
|
|
"single_word": false,
|
|
"lstrip": false,
|
|
"rstrip": false,
|
|
"normalized": true
|
|
},
|
|
{
|
|
"id": 1,
|
|
"special": true,
|
|
"content": "<|endoftext|>",
|
|
"single_word": false,
|
|
"lstrip": false,
|
|
"rstrip": false,
|
|
"normalized": false
|
|
}
|
|
],
|
|
"normalizer": null,
|
|
"pre_tokenizer": {
|
|
"type": "ByteLevel",
|
|
"add_prefix_space": false,
|
|
"trim_offsets": true
|
|
},
|
|
"post_processor": {
|
|
"type": "ByteLevel",
|
|
"add_prefix_space": true,
|
|
"trim_offsets": false
|
|
},
|
|
"decoder": {
|
|
"type": "ByteLevel",
|
|
"add_prefix_space": true,
|
|
"trim_offsets": true
|
|
},
|
|
"model": {
|
|
"type": "BPE",
|
|
"dropout": null,
|
|
"unk_token": null,
|
|
"continuing_subword_prefix": "",
|
|
"end_of_word_suffix": "</w>",
|
|
"fuse_unk": false,
|
|
"vocab": {
|
|
"<|startoftext|>": 0,
|
|
"<|endoftext|>": 1,
|
|
"!": 2,
|
|
"\"": 3,
|
|
"#": 4,
|
|
"$": 5,
|
|
"%": 6,
|
|
"&": 7,
|
|
"'": 8,
|
|
"(": 9,
|
|
")": 10,
|
|
"*": 11,
|
|
"+": 12,
|
|
",": 13,
|
|
"-": 14,
|
|
".": 15,
|
|
"/": 16,
|
|
"0": 17,
|
|
"1": 18,
|
|
"2": 19,
|
|
"3": 20,
|
|
"4": 21,
|
|
"5": 22,
|
|
"6": 23,
|
|
"7": 24,
|
|
"8": 25,
|
|
"9": 26,
|
|
":": 27,
|
|
";": 28,
|
|
"<": 29,
|
|
"=": 30,
|
|
">": 31,
|
|
"?": 32,
|
|
"@": 33,
|
|
"A": 34,
|
|
"B": 35,
|
|
"C": 36,
|
|
"D": 37,
|
|
"E": 38,
|
|
"F": 39,
|
|
"G": 40,
|
|
"H": 41,
|
|
"I": 42,
|
|
"J": 43,
|
|
"K": 44,
|
|
"L": 45,
|
|
"M": 46,
|
|
"N": 47,
|
|
"O": 48,
|
|
"P": 49,
|
|
"Q": 50,
|
|
"R": 51,
|
|
"S": 52,
|
|
"T": 53,
|
|
"U": 54,
|
|
"V": 55,
|
|
"W": 56,
|
|
"X": 57,
|
|
"Y": 58,
|
|
"Z": 59,
|
|
"[": 60,
|
|
"\\": 61,
|
|
"]": 62,
|
|
"^": 63,
|
|
"_": 64,
|
|
"`": 65,
|
|
"a": 66,
|
|
"b": 67,
|
|
"c": 68,
|
|
"d": 69,
|
|
"e": 70,
|
|
"f": 71,
|
|
"g": 72,
|
|
"h": 73,
|
|
"i": 74,
|
|
"j": 75,
|
|
"k": 76,
|
|
"l": 77,
|
|
"m": 78,
|
|
"n": 79,
|
|
"o": 80,
|
|
"p": 81,
|
|
"q": 82,
|
|
"r": 83,
|
|
"s": 84,
|
|
"t": 85,
|
|
"u": 86,
|
|
"v": 87,
|
|
"w": 88,
|
|
"x": 89,
|
|
"y": 90,
|
|
"z": 91,
|
|
"|": 92,
|
|
"}": 93,
|
|
"~": 94,
|
|
"¡": 95,
|
|
"¢": 96,
|
|
"£": 97,
|
|
"¤": 98,
|
|
"¥": 99
|
|
},
|
|
"merges": [
|
|
"Ġ t",
|
|
"Ġt h",
|
|
"Ġ a",
|
|
"Ġth e</w>",
|
|
"i n",
|
|
"Ġ o",
|
|
"Ġ ,</w>",
|
|
"Ġ s",
|
|
"e d</w>",
|
|
"Ġ w",
|
|
"e r",
|
|
"Ġ .</w>",
|
|
"Ġ i",
|
|
"r e",
|
|
"Ġ c",
|
|
"n d</w>",
|
|
"Ġ f",
|
|
"Ġ b",
|
|
"a t",
|
|
"Ġo f</w>",
|
|
"e r</w>",
|
|
"e n",
|
|
"a r",
|
|
"o r",
|
|
"i t",
|
|
"Ġ p",
|
|
"Ġ h",
|
|
"Ġa nd</w>",
|
|
"o n",
|
|
"in g</w>",
|
|
"a n",
|
|
"r o",
|
|
"Ġ m",
|
|
"Ġ d",
|
|
"e s</w>",
|
|
"Ġi n</w>",
|
|
"o n</w>",
|
|
"Ġt o</w>",
|
|
"o u",
|
|
"i s",
|
|
"Ġ a</w>",
|
|
"i c",
|
|
"Ġ T",
|
|
"a l",
|
|
"Ġ l",
|
|
"Ġ =</w>",
|
|
"Ġ re",
|
|
"Ġ \"</w>",
|
|
"e s",
|
|
"Ġ S",
|
|
"a s</w>",
|
|
"a l</w>",
|
|
"i l",
|
|
"e l",
|
|
"i on</w>",
|
|
"Ġ A",
|
|
"Ġ C",
|
|
"Ġ 1",
|
|
"Ġ Ċ</w>",
|
|
"u r",
|
|
"ĠT h",
|
|
"Ġ n",
|
|
"a s",
|
|
"Ġ @",
|
|
"e c",
|
|
"o m",
|
|
"a c",
|
|
"Ġ e",
|
|
"Ġw as</w>",
|
|
"Ġ M",
|
|
"o r</w>",
|
|
"a n</w>",
|
|
"a m",
|
|
"e n</w>",
|
|
"o l",
|
|
"Ġ in",
|
|
"Ġ g",
|
|
"Ġ '</w>",
|
|
"Ġ B",
|
|
"l y</w>",
|
|
"a t</w>",
|
|
"i v",
|
|
"t s</w>",
|
|
"ĠTh e</w>",
|
|
"u s",
|
|
"- @</w>",
|
|
"Ġ@ -@</w>",
|
|
"i s</w>",
|
|
"Ġ I",
|
|
"Ġw h",
|
|
"i g",
|
|
"Ġ H",
|
|
"Ġs t",
|
|
"o s",
|
|
"u n",
|
|
"t h",
|
|
"Ġ P",
|
|
"Ġw it",
|
|
"Ġth at</w>",
|
|
"i r",
|
|
"Ġa s</w>",
|
|
"e m",
|
|
"Ġo n</w>",
|
|
"r a",
|
|
"Ġf or</w>",
|
|
"Ġ R",
|
|
"e t",
|
|
"o w",
|
|
"Ġ 2",
|
|
"i d",
|
|
"Ġ D",
|
|
"l e</w>",
|
|
"Ġwit h</w>",
|
|
"l a",
|
|
"en t</w>",
|
|
"i m",
|
|
"Ġ F",
|
|
"e a",
|
|
"i on",
|
|
"Ġb y</w>",
|
|
"Ġ )</w>",
|
|
"Ġ (</w>",
|
|
"Ġa l",
|
|
"Ġc on",
|
|
"en t",
|
|
"Ġ W",
|
|
"Ġi s</w>",
|
|
"er e</w>",
|
|
"Ġ G",
|
|
"Ġ N",
|
|
"Ġ L",
|
|
"Ġh a",
|
|
"er s</w>",
|
|
"r i",
|
|
"t h</w>",
|
|
"t ed</w>",
|
|
"u c",
|
|
"Ġ J",
|
|
"Ġ1 9",
|
|
"e v",
|
|
"u l",
|
|
"Ġ v",
|
|
"c e</w>",
|
|
"at ion</w>",
|
|
"ro m</w>",
|
|
"Ġb e",
|
|
"Ġ E",
|
|
"i n</w>",
|
|
"Ġth e",
|
|
"Ġf rom</w>",
|
|
"Ġ O",
|
|
"t er</w>",
|
|
"Ġp ro",
|
|
"Ġa r",
|
|
"a d",
|
|
"Ġc om",
|
|
"i c</w>",
|
|
"a g",
|
|
"Ġh is</w>",
|
|
"Ġs h",
|
|
"Ġa t</w>",
|
|
"o v",
|
|
"i es</w>",
|
|
"o o",
|
|
"p p",
|
|
"s t",
|
|
"c h",
|
|
"Ġ r",
|
|
"Ġ2 0",
|
|
"a y</w>",
|
|
"i f",
|
|
"Ġw ere</w>",
|
|
"Ġc h",
|
|
"u t</w>",
|
|
"s t</w>",
|
|
"u t",
|
|
"d s</w>",
|
|
"o p",
|
|
"u m",
|
|
"Ġi t</w>",
|
|
"o c",
|
|
"t er",
|
|
"l e",
|
|
"ig h",
|
|
"u d",
|
|
"Ġe x",
|
|
"ion s</w>",
|
|
"at e</w>",
|
|
"it y</w>",
|
|
"at ed</w>",
|
|
"Ġ un",
|
|
"e p",
|
|
"q u",
|
|
"Ġn o",
|
|
"Ġ K",
|
|
"iv e</w>",
|
|
"is t",
|
|
"Ġo n",
|
|
"am e</w>",
|
|
"ou n",
|
|
"i r</w>",
|
|
"a b",
|
|
"Ġ â",
|
|
"in g",
|
|
"Ġh e</w>",
|
|
"l d</w>",
|
|
"u g",
|
|
"ic h</w>",
|
|
"Ġa n</w>",
|
|
"e d",
|
|
"Ġ k",
|
|
"Ġâ Ģ",
|
|
"Ġha d</w>",
|
|
"v e</w>",
|
|
"a in",
|
|
"Ġs e",
|
|
"t ion</w>",
|
|
"or e</w>",
|
|
"re s",
|
|
"Ġwh ich</w>",
|
|
"ĠI n</w>",
|
|
"o d",
|
|
"th er</w>",
|
|
"a k",
|
|
"Ġs p",
|
|
"a r</w>",
|
|
"Ġ y",
|
|
"ĠC h",
|
|
"on g</w>",
|
|
"Ġa c",
|
|
"es t</w>",
|
|
"Ġ U",
|
|
"a p",
|
|
"f f",
|
|
"al ly</w>",
|
|
"r it",
|
|
"ĠS t",
|
|
"u b",
|
|
"g e</w>",
|
|
"b er</w>",
|
|
"e t</w>",
|
|
"Ġb e</w>",
|
|
"e ar",
|
|
"Ġre c",
|
|
"er s",
|
|
"Ġf ir",
|
|
"o t",
|
|
"Ġar e</w>",
|
|
"Ġa n",
|
|
"c h</w>",
|
|
"o g",
|
|
"i a</w>",
|
|
"es t",
|
|
"in e</w>",
|
|
"il l",
|
|
"an d",
|
|
"e l</w>",
|
|
"ar y</w>",
|
|
"e w</w>",
|
|
"i d</w>",
|
|
"Ġf or",
|
|
"Ġ ;</w>",
|
|
"Ġcom p",
|
|
"Ġ V",
|
|
"Ġin c",
|
|
"t r",
|
|
"Ġ20 0",
|
|
"Ġthe ir</w>",
|
|
"u s</w>",
|
|
"Ġb ut</w>",
|
|
"r an",
|
|
"ic al</w>",
|
|
"Ġfir st</w>",
|
|
"Ġd e",
|
|
"Ġin t",
|
|
"Ġ ro",
|
|
"s o</w>",
|
|
"ĠâĢ ĵ</w>",
|
|
"Ġno t</w>",
|
|
"d ing</w>",
|
|
"f ter</w>",
|
|
"ur e</w>",
|
|
"Ġp ar",
|
|
"Ġ :</w>",
|
|
"i an</w>",
|
|
"Ġt w",
|
|
"ou ld</w>",
|
|
"Ġal so</w>",
|
|
"Ġi ts</w>",
|
|
"Ġw or",
|
|
"u m</w>",
|
|
"Ġo r</w>",
|
|
"os t</w>",
|
|
"0 0</w>",
|
|
"ou r",
|
|
"ar d</w>",
|
|
"Ġre s",
|
|
"m p",
|
|
"u e</w>",
|
|
"Ġa b",
|
|
"is h</w>",
|
|
"Ġcon t",
|
|
"Ġa d",
|
|
"ow n</w>",
|
|
"al l</w>",
|
|
"ou g",
|
|
"Ġh er</w>",
|
|
"as t</w>",
|
|
"Ġ en",
|
|
"om e</w>",
|
|
"al l",
|
|
"d ed</w>",
|
|
"o w</w>",
|
|
"Ġha ve</w>",
|
|
"Ġ us",
|
|
"ea r</w>",
|
|
"ac k</w>",
|
|
"d uc",
|
|
"i al</w>",
|
|
"s s",
|
|
"en ts</w>",
|
|
"a in</w>",
|
|
"t ing</w>",
|
|
"Ġon e</w>",
|
|
"es s",
|
|
"Ġh as</w>",
|
|
"igh t</w>",
|
|
"a v",
|
|
"Ġe v",
|
|
"ou t</w>",
|
|
"a y",
|
|
"en ce</w>",
|
|
"Ġbe en</w>",
|
|
"e w",
|
|
"Ġtw o</w>",
|
|
"Ġc l",
|
|
"d er</w>",
|
|
"im e</w>",
|
|
"k s</w>",
|
|
"es s</w>",
|
|
"is h",
|
|
". @</w>",
|
|
"Ġ@ .@</w>",
|
|
"Ġp la",
|
|
"Ġp l",
|
|
"Ġo r",
|
|
"u p</w>",
|
|
"m ent</w>",
|
|
"ur ing</w>",
|
|
"ol l",
|
|
"ĠI n",
|
|
"Ġth is</w>",
|
|
"Ġb ec",
|
|
"Ġcom m",
|
|
"Ġd is",
|
|
"at er</w>",
|
|
"ag e</w>",
|
|
"Ġa pp",
|
|
"ou s</w>",
|
|
"e y</w>",
|
|
"i l</w>",
|
|
"p er",
|
|
"ĠA l",
|
|
"ion al</w>",
|
|
"l ud",
|
|
"el y</w>",
|
|
"t t",
|
|
"il e</w>",
|
|
"i z",
|
|
"Ġ j",
|
|
"Ġwh o</w>",
|
|
"Ġa g",
|
|
"i b",
|
|
"Ġthe y</w>",
|
|
"f or",
|
|
"Ġo v",
|
|
"at h",
|
|
"e g",
|
|
"Ġs c",
|
|
"i p",
|
|
"Ġ20 1",
|
|
"Ġ 3",
|
|
"Ġp er",
|
|
"or y</w>",
|
|
"Ġd es",
|
|
"id e</w>",
|
|
"Ġs er",
|
|
"s e</w>",
|
|
"ĠH e</w>",
|
|
"la nd</w>",
|
|
"at ions</w>",
|
|
"r ic",
|
|
"i t</w>",
|
|
"re s</w>",
|
|
"er ed</w>",
|
|
"Ġp re",
|
|
"ĠS h",
|
|
"an ce</w>",
|
|
"or t</w>",
|
|
"an t</w>",
|
|
", @</w>",
|
|
"Ġ@ ,@</w>",
|
|
"el l</w>",
|
|
"Ġ Y",
|
|
"n ed</w>",
|
|
"el l",
|
|
"it e</w>",
|
|
"Ġinc lud",
|
|
"Ġre p",
|
|
"Ġa fter</w>",
|
|
"Ġs uc",
|
|
"re e</w>",
|
|
"an y</w>",
|
|
"i m</w>",
|
|
"or t",
|
|
"Ġ1 8",
|
|
"Ġs u",
|
|
"ad e</w>",
|
|
"ou r</w>",
|
|
"ĠU n",
|
|
"ĠI t</w>",
|
|
"i k",
|
|
"ĠM ar",
|
|
"em ber</w>",
|
|
"Ġ 1</w>",
|
|
"e en</w>",
|
|
"a nd</w>",
|
|
"Ġs ec",
|
|
"ic e</w>",
|
|
"Ġt ime</w>",
|
|
"ĠA n",
|
|
"Ġint o</w>",
|
|
"Ġf in",
|
|
"Ġo ther</w>",
|
|
"Ġa tt",
|
|
"il l</w>",
|
|
"re n",
|
|
"ac h",
|
|
"as s",
|
|
"er al</w>",
|
|
"es e</w>",
|
|
"s h",
|
|
"al s</w>",
|
|
"it ion</w>",
|
|
"oug h</w>",
|
|
"l es</w>",
|
|
"am p",
|
|
"Ġw ould</w>",
|
|
"Ġm ore</w>",
|
|
"ro ug",
|
|
"ri b",
|
|
"er y</w>",
|
|
"ac e</w>",
|
|
"Ġ A</w>",
|
|
"Ġpla y",
|
|
"it ed</w>",
|
|
"k ed</w>",
|
|
"is t</w>",
|
|
"i ed</w>",
|
|
"Ġ 2</w>",
|
|
"as ed</w>",
|
|
"ing s</w>",
|
|
"an g",
|
|
"a m</w>",
|
|
"i p</w>",
|
|
"Ġb o",
|
|
"ab le</w>",
|
|
"t y</w>",
|
|
"Ġch ar",
|
|
"Ġc ent",
|
|
"et w",
|
|
"at es</w>",
|
|
"ro p",
|
|
"Ġ I</w>",
|
|
"u nd</w>",
|
|
"ĠA m",
|
|
"c es</w>",
|
|
"o in",
|
|
"Ġin ter",
|
|
"u p",
|
|
"c t",
|
|
"on e</w>",
|
|
"Ġt ra",
|
|
"an t",
|
|
"ec t",
|
|
"Ġal l</w>",
|
|
"e f",
|
|
"Ġcon s",
|
|
"ub l",
|
|
"n ing</w>",
|
|
"an s</w>",
|
|
"Ġf e",
|
|
"us t</w>",
|
|
"Ġ 0",
|
|
"Ġre m",
|
|
"as e</w>",
|
|
"on g",
|
|
"Ġwh en</w>",
|
|
"e b",
|
|
"ĠW h",
|
|
"Ġe ar",
|
|
"ev er</w>",
|
|
"Ġov er</w>",
|
|
"Ġk n",
|
|
"a us",
|
|
"Ġp os",
|
|
"a d</w>",
|
|
"er m",
|
|
"Ġsh e</w>",
|
|
"Ġ ra",
|
|
"Ġd uring</w>",
|
|
"as on</w>",
|
|
"v i",
|
|
"Ġex p",
|
|
"Ġl ea",
|
|
"Ġ el",
|
|
"Ġ 4",
|
|
"Ġon ly</w>",
|
|
"o nd</w>",
|
|
"Ġd ec",
|
|
"Ġac c",
|
|
"Ġo ff",
|
|
"is s",
|
|
"Ġf l",
|
|
"ĠE n",
|
|
"o t</w>",
|
|
"en s",
|
|
"os e</w>",
|
|
"ak e</w>",
|
|
"o m</w>",
|
|
"Ġs ev",
|
|
"ac h</w>",
|
|
"etw een</w>",
|
|
"er n",
|
|
"Ġ 3</w>",
|
|
"Ġp r",
|
|
"Ġg ro",
|
|
"r uc",
|
|
"Ġd i",
|
|
"Ġ19 9",
|
|
"ĠA r",
|
|
"Ġg ame</w>",
|
|
"Ġh im</w>",
|
|
"oo k</w>",
|
|
"Ġ up</w>",
|
|
"Ġab out</w>",
|
|
"Ġre l",
|
|
"for m",
|
|
"Ġth ree</w>",
|
|
"at t",
|
|
"ĠC om",
|
|
"Ġs a",
|
|
"ear s</w>",
|
|
"Ġ 5",
|
|
"r y</w>",
|
|
"Ġi mp",
|
|
"Ġm ost</w>",
|
|
"f er",
|
|
"Ġp res",
|
|
"Ġf il",
|
|
"Ġb etween</w>",
|
|
"Ġbe g",
|
|
"p h",
|
|
"or s</w>",
|
|
"Ġth an</w>",
|
|
"Ġrec or",
|
|
"o b",
|
|
"er ic",
|
|
"at ing</w>",
|
|
"Ġth roug",
|
|
"k ing</w>",
|
|
"Ġo ut</w>",
|
|
"Ġn um",
|
|
"oo d</w>",
|
|
"oll ow",
|
|
"ac t",
|
|
"u il",
|
|
"Ġc re",
|
|
"ol og",
|
|
"at ional</w>",
|
|
"Ġpro duc",
|
|
"Ġwh ile</w>",
|
|
"Ġl ater</w>",
|
|
"Ġw rit",
|
|
"e x",
|
|
"Ġst ar",
|
|
"Ġsp ec",
|
|
"e e",
|
|
"ish ed</w>",
|
|
"Ġre g",
|
|
"is ion</w>",
|
|
"ou th</w>",
|
|
"Ġre le",
|
|
"Ġa ss",
|
|
"Ġse ason</w>",
|
|
"Ġm ade</w>",
|
|
"il y</w>",
|
|
"r u",
|
|
"o y",
|
|
"t ur",
|
|
"t e</w>",
|
|
"Ġ qu",
|
|
"Ġm ov",
|
|
"ur y</w>",
|
|
"ĠAm eric",
|
|
"em ent</w>",
|
|
"c c",
|
|
"ou nd</w>",
|
|
"Ġl ar",
|
|
"Ġfor m",
|
|
"ec t</w>",
|
|
"Ġde f",
|
|
"Ġm us",
|
|
"ĠP ar",
|
|
"Ġm e",
|
|
"Ġs ub",
|
|
"w ay</w>",
|
|
"o p</w>",
|
|
"o h",
|
|
"el d</w>",
|
|
"i e</w>",
|
|
"em p",
|
|
"am es</w>",
|
|
"er n</w>",
|
|
"Ġn or",
|
|
"iv ed</w>",
|
|
"ev el",
|
|
"Ġsuc h</w>",
|
|
"ar ds</w>",
|
|
"Ġin d",
|
|
"ik e</w>",
|
|
"Ġg en",
|
|
"er t",
|
|
"Ġy ear</w>",
|
|
"Ġus ed</w>",
|
|
"Ġn ew</w>",
|
|
"Ġ 5</w>",
|
|
"Ġal b",
|
|
"s p",
|
|
"y p",
|
|
"Ġwit h",
|
|
"Ġwh ere</w>",
|
|
"ic s</w>",
|
|
"ĠTh is</w>",
|
|
"Ġthe m</w>",
|
|
"w n</w>"
|
|
]
|
|
}
|
|
}
|