Fix decode method for torch tensor

2023-04-05 18:26:09 +08:00 · 2023-04-05 18:26:09 +08:00 · 23ad39b571
parent fdb7a601d8
commit 23ad39b571
1 changed files with 6 additions and 15 deletions
--- a/tokenization_chatglm.py
+++ b/tokenization_chatglm.py
@ -253,29 +253,20 @@ class ChatGLMTokenizer(PreTrainedTokenizer):
        return seq
-    def decode(
+    def _decode(
            self,
-            token_ids: Union[List[int], List[List[int]]],
+            token_ids: Union[int, List[int]],
            skip_special_tokens: bool = False,
            clean_up_tokenization_spaces: bool = True,
            spaces_between_special_tokens: bool = True,
            **kwargs
    ) -> str:
-        if not isinstance(token_ids, list):
+        if isinstance(token_ids, int):
            token_ids = [token_ids]
        if len(token_ids) == 0:
            return ""
-        if isinstance(token_ids[0], list):
+        if self.pad_token_id in token_ids:  # remove pad
-            tokens = []
+            token_ids = list(filter((self.pad_token_id).__ne__, token_ids))
-            for single_token_ids in token_ids:
+        return self.sp_tokenizer.decode(token_ids)
                if self.pad_token_id in single_token_ids:  # remove pad
                    single_token_ids = list(filter((self.pad_token_id).__ne__, single_token_ids))
                tokens.append(self.sp_tokenizer.decode(single_token_ids))
            return (tokens)
        else:
            if self.pad_token_id in token_ids:  # remove pad
                token_ids = list(filter((self.pad_token_id).__ne__, token_ids))
            return self.sp_tokenizer.decode(token_ids)
    def _convert_token_to_id(self, token):
        """ Converts a token (str) in an id using the vocab. """