From 76a74407e77286774c52a157590fe89b4c6bc034 Mon Sep 17 00:00:00 2001 From: Nicolas Patry Date: Wed, 16 Feb 2022 18:17:38 +0100 Subject: [PATCH] Removing all merges. --- tokenizer.json | 649 +------------------------------------------------ 1 file changed, 1 insertion(+), 648 deletions(-) diff --git a/tokenizer.json b/tokenizer.json index c5fdc76..b063159 100644 --- a/tokenizer.json +++ b/tokenizer.json @@ -147,653 +147,6 @@ "¤": 98, "¥": 99 }, - "merges": [ - "Ġ t", - "Ġt h", - "Ġ a", - "Ġth e", - "i n", - "Ġ o", - "Ġ ,", - "Ġ s", - "e d", - "Ġ w", - "e r", - "Ġ .", - "Ġ i", - "r e", - "Ġ c", - "n d", - "Ġ f", - "Ġ b", - "a t", - "Ġo f", - "e r", - "e n", - "a r", - "o r", - "i t", - "Ġ p", - "Ġ h", - "Ġa nd", - "o n", - "in g", - "a n", - "r o", - "Ġ m", - "Ġ d", - "e s", - "Ġi n", - "o n", - "Ġt o", - "o u", - "i s", - "Ġ a", - "i c", - "Ġ T", - "a l", - "Ġ l", - "Ġ =", - "Ġ re", - "Ġ \"", - "e s", - "Ġ S", - "a s", - "a l", - "i l", - "e l", - "i on", - "Ġ A", - "Ġ C", - "Ġ 1", - "Ġ Ċ", - "u r", - "ĠT h", - "Ġ n", - "a s", - "Ġ @", - "e c", - "o m", - "a c", - "Ġ e", - "Ġw as", - "Ġ M", - "o r", - "a n", - "a m", - "e n", - "o l", - "Ġ in", - "Ġ g", - "Ġ '", - "Ġ B", - "l y", - "a t", - "i v", - "t s", - "ĠTh e", - "u s", - "- @", - "Ġ@ -@", - "i s", - "Ġ I", - "Ġw h", - "i g", - "Ġ H", - "Ġs t", - "o s", - "u n", - "t h", - "Ġ P", - "Ġw it", - "Ġth at", - "i r", - "Ġa s", - "e m", - "Ġo n", - "r a", - "Ġf or", - "Ġ R", - "e t", - "o w", - "Ġ 2", - "i d", - "Ġ D", - "l e", - "Ġwit h", - "l a", - "en t", - "i m", - "Ġ F", - "e a", - "i on", - "Ġb y", - "Ġ )", - "Ġ (", - "Ġa l", - "Ġc on", - "en t", - "Ġ W", - "Ġi s", - "er e", - "Ġ G", - "Ġ N", - "Ġ L", - "Ġh a", - "er s", - "r i", - "t h", - "t ed", - "u c", - "Ġ J", - "Ġ1 9", - "e v", - "u l", - "Ġ v", - "c e", - "at ion", - "ro m", - "Ġb e", - "Ġ E", - "i n", - "Ġth e", - "Ġf rom", - "Ġ O", - "t er", - "Ġp ro", - "Ġa r", - "a d", - "Ġc om", - "i c", - "a g", - "Ġh is", - "Ġs h", - "Ġa t", - "o v", - "i es", - "o o", - "p p", - "s t", - "c h", - "Ġ r", - "Ġ2 0", - "a y", - "i f", - "Ġw ere", - "Ġc h", - "u t", - "s t", - "u t", - "d s", - "o p", - "u m", - "Ġi t", - "o c", - "t er", - "l e", - "ig h", - "u d", - "Ġe x", - "ion s", - "at e", - "it y", - "at ed", - "Ġ un", - "e p", - "q u", - "Ġn o", - "Ġ K", - "iv e", - "is t", - "Ġo n", - "am e", - "ou n", - "i r", - "a b", - "Ġ â", - "in g", - "Ġh e", - "l d", - "u g", - "ic h", - "Ġa n", - "e d", - "Ġ k", - "Ġâ Ģ", - "Ġha d", - "v e", - "a in", - "Ġs e", - "t ion", - "or e", - "re s", - "Ġwh ich", - "ĠI n", - "o d", - "th er", - "a k", - "Ġs p", - "a r", - "Ġ y", - "ĠC h", - "on g", - "Ġa c", - "es t", - "Ġ U", - "a p", - "f f", - "al ly", - "r it", - "ĠS t", - "u b", - "g e", - "b er", - "e t", - "Ġb e", - "e ar", - "Ġre c", - "er s", - "Ġf ir", - "o t", - "Ġar e", - "Ġa n", - "c h", - "o g", - "i a", - "es t", - "in e", - "il l", - "an d", - "e l", - "ar y", - "e w", - "i d", - "Ġf or", - "Ġ ;", - "Ġcom p", - "Ġ V", - "Ġin c", - "t r", - "Ġ20 0", - "Ġthe ir", - "u s", - "Ġb ut", - "r an", - "ic al", - "Ġfir st", - "Ġd e", - "Ġin t", - "Ġ ro", - "s o", - "ĠâĢ ĵ", - "Ġno t", - "d ing", - "f ter", - "ur e", - "Ġp ar", - "Ġ :", - "i an", - "Ġt w", - "ou ld", - "Ġal so", - "Ġi ts", - "Ġw or", - "u m", - "Ġo r", - "os t", - "0 0", - "ou r", - "ar d", - "Ġre s", - "m p", - "u e", - "Ġa b", - "is h", - "Ġcon t", - "Ġa d", - "ow n", - "al l", - "ou g", - "Ġh er", - "as t", - "Ġ en", - "om e", - "al l", - "d ed", - "o w", - "Ġha ve", - "Ġ us", - "ea r", - "ac k", - "d uc", - "i al", - "s s", - "en ts", - "a in", - "t ing", - "Ġon e", - "es s", - "Ġh as", - "igh t", - "a v", - "Ġe v", - "ou t", - "a y", - "en ce", - "Ġbe en", - "e w", - "Ġtw o", - "Ġc l", - "d er", - "im e", - "k s", - "es s", - "is h", - ". @", - "Ġ@ .@", - "Ġp la", - "Ġp l", - "Ġo r", - "u p", - "m ent", - "ur ing", - "ol l", - "ĠI n", - "Ġth is", - "Ġb ec", - "Ġcom m", - "Ġd is", - "at er", - "ag e", - "Ġa pp", - "ou s", - "e y", - "i l", - "p er", - "ĠA l", - "ion al", - "l ud", - "el y", - "t t", - "il e", - "i z", - "Ġ j", - "Ġwh o", - "Ġa g", - "i b", - "Ġthe y", - "f or", - "Ġo v", - "at h", - "e g", - "Ġs c", - "i p", - "Ġ20 1", - "Ġ 3", - "Ġp er", - "or y", - "Ġd es", - "id e", - "Ġs er", - "s e", - "ĠH e", - "la nd", - "at ions", - "r ic", - "i t", - "re s", - "er ed", - "Ġp re", - "ĠS h", - "an ce", - "or t", - "an t", - ", @", - "Ġ@ ,@", - "el l", - "Ġ Y", - "n ed", - "el l", - "it e", - "Ġinc lud", - "Ġre p", - "Ġa fter", - "Ġs uc", - "re e", - "an y", - "i m", - "or t", - "Ġ1 8", - "Ġs u", - "ad e", - "ou r", - "ĠU n", - "ĠI t", - "i k", - "ĠM ar", - "em ber", - "Ġ 1", - "e en", - "a nd", - "Ġs ec", - "ic e", - "Ġt ime", - "ĠA n", - "Ġint o", - "Ġf in", - "Ġo ther", - "Ġa tt", - "il l", - "re n", - "ac h", - "as s", - "er al", - "es e", - "s h", - "al s", - "it ion", - "oug h", - "l es", - "am p", - "Ġw ould", - "Ġm ore", - "ro ug", - "ri b", - "er y", - "ac e", - "Ġ A", - "Ġpla y", - "it ed", - "k ed", - "is t", - "i ed", - "Ġ 2", - "as ed", - "ing s", - "an g", - "a m", - "i p", - "Ġb o", - "ab le", - "t y", - "Ġch ar", - "Ġc ent", - "et w", - "at es", - "ro p", - "Ġ I", - "u nd", - "ĠA m", - "c es", - "o in", - "Ġin ter", - "u p", - "c t", - "on e", - "Ġt ra", - "an t", - "ec t", - "Ġal l", - "e f", - "Ġcon s", - "ub l", - "n ing", - "an s", - "Ġf e", - "us t", - "Ġ 0", - "Ġre m", - "as e", - "on g", - "Ġwh en", - "e b", - "ĠW h", - "Ġe ar", - "ev er", - "Ġov er", - "Ġk n", - "a us", - "Ġp os", - "a d", - "er m", - "Ġsh e", - "Ġ ra", - "Ġd uring", - "as on", - "v i", - "Ġex p", - "Ġl ea", - "Ġ el", - "Ġ 4", - "Ġon ly", - "o nd", - "Ġd ec", - "Ġac c", - "Ġo ff", - "is s", - "Ġf l", - "ĠE n", - "o t", - "en s", - "os e", - "ak e", - "o m", - "Ġs ev", - "ac h", - "etw een", - "er n", - "Ġ 3", - "Ġp r", - "Ġg ro", - "r uc", - "Ġd i", - "Ġ19 9", - "ĠA r", - "Ġg ame", - "Ġh im", - "oo k", - "Ġ up", - "Ġab out", - "Ġre l", - "for m", - "Ġth ree", - "at t", - "ĠC om", - "Ġs a", - "ear s", - "Ġ 5", - "r y", - "Ġi mp", - "Ġm ost", - "f er", - "Ġp res", - "Ġf il", - "Ġb etween", - "Ġbe g", - "p h", - "or s", - "Ġth an", - "Ġrec or", - "o b", - "er ic", - "at ing", - "Ġth roug", - "k ing", - "Ġo ut", - "Ġn um", - "oo d", - "oll ow", - "ac t", - "u il", - "Ġc re", - "ol og", - "at ional", - "Ġpro duc", - "Ġwh ile", - "Ġl ater", - "Ġw rit", - "e x", - "Ġst ar", - "Ġsp ec", - "e e", - "ish ed", - "Ġre g", - "is ion", - "ou th", - "Ġre le", - "Ġa ss", - "Ġse ason", - "Ġm ade", - "il y", - "r u", - "o y", - "t ur", - "t e", - "Ġ qu", - "Ġm ov", - "ur y", - "ĠAm eric", - "em ent", - "c c", - "ou nd", - "Ġl ar", - "Ġfor m", - "ec t", - "Ġde f", - "Ġm us", - "ĠP ar", - "Ġm e", - "Ġs ub", - "w ay", - "o p", - "o h", - "el d", - "i e", - "em p", - "am es", - "er n", - "Ġn or", - "iv ed", - "ev el", - "Ġsuc h", - "ar ds", - "Ġin d", - "ik e", - "Ġg en", - "er t", - "Ġy ear", - "Ġus ed", - "Ġn ew", - "Ġ 5", - "Ġal b", - "s p", - "y p", - "Ġwit h", - "Ġwh ere", - "ic s", - "ĠTh is", - "Ġthe m", - "w n" - ] + "merges": [] } }