add tokenizer

2023-04-21 16:01:08 +08:00 · 2023-04-21 16:01:08 +08:00 · ac50ab9be5
parent 76bc815080
commit ac50ab9be5
2 changed files with 7 additions and 6 deletions
--- a/app.py
+++ b/app.py
@ -3,12 +3,6 @@ from languages import LANGUANGE_MAP
 import gradio as gr
 import torch
 from gradio.themes.utils import sizes
-
-#model_ckpt = "ivanlau/language-detection-fine-tuned-on-xlm-roberta-base"
-model_ckpt = "papluca/xlm-roberta-base-language-detection"
-model = AutoModelForSequenceClassification.from_pretrained(model_ckpt)
-tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
-
 theme = gr.themes.Default(radius_size=sizes.radius_none).set(
    block_label_text_color = '#4D63FF',
    block_title_text_color = '#4D63FF',
@ -18,6 +12,12 @@ theme = gr.themes.Default(radius_size=sizes.radius_none).set(
    button_primary_background_fill_hover='#EDEFFF',
 )

+#model_ckpt = "ivanlau/language-detection-fine-tuned-on-xlm-roberta-base"
+model_ckpt = "papluca/xlm-roberta-base-language-detection"
+model = AutoModelForSequenceClassification.from_pretrained(model_ckpt)
+tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
+
+

 def detect_language(sentence):
    tokenized_sentence = tokenizer(sentence, return_tensors='pt')
--- a/requirements.txt
+++ b/requirements.txt
@ -1,3 +1,4 @@
 gradio
 transformers
 torch
+sentencepiece