add files

2021-10-24 17:23:41 +00:00 · 2021-10-24 17:23:41 +00:00 · c1c837b30e
parent 9d3e38f053
commit c1c837b30e
15 changed files with 150862 additions and 0 deletions
--- a/README.md
+++ b/README.md
@ -0,0 +1,46 @@
+---
+tags:
+- image-classification
+library_name: generic
+---
+
+## Example
+
+The model is by no means a state-of-the-art model, but nevertheless
+produces reasonable image captioning results. It was mainly fine-tuned 
+as a proof-of-concept for the 🤗 FlaxVisionEncoderDecoder Framework.
+
+The model can be used as follows:
+
+```python
+
+import requests
+from PIL import Image
+from transformers import ViTFeatureExtractor, AutoTokenizer, FlaxVisionEncoderDecoderModel
+
+loc = "ydshieh/vit-gpt2-coco-en"
+
+feature_extractor = ViTFeatureExtractor.from_pretrained(loc)
+tokenizer = AutoTokenizer.from_pretrained(loc)
+model = FlaxVisionEncoderDecoderModel.from_pretrained(loc)
+
+# We will verify our results on an image of cute cats
+url = "http://images.cocodataset.org/val2017/000000039769.jpg"
+with Image.open(requests.get(url, stream=True).raw) as img:
+    pixel_values = feature_extractor(images=img, return_tensors="np").pixel_values
+
+def generate_step(pixel_values):
+
+    output_ids = model.generate(pixel_values, max_length=16, num_beams=4).sequences
+    preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
+    preds = [pred.strip() for pred in preds]
+
+    return preds
+
+preds = generate_step(pixel_values)
+print(preds)
+
+# should produce
+# ['a cat laying on top of a couch next to another cat']
+
+```
--- a/config.json
+++ b/config.json
@ -0,0 +1,169 @@
+{
+  "architectures": [
+    "VisionEncoderDecoderModel"
+  ],
+  "bos_token_id": 50256,
+  "decoder": {
+    "_name_or_path": "",
+    "activation_function": "gelu_new",
+    "add_cross_attention": true,
+    "architectures": [
+      "GPT2LMHeadModel"
+    ],
+    "attn_pdrop": 0.1,
+    "bad_words_ids": null,
+    "bos_token_id": 50256,
+    "chunk_size_feed_forward": 0,
+    "decoder_start_token_id": 50256,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "embd_pdrop": 0.1,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 50256,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "is_decoder": true,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_epsilon": 1e-05,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "min_length": 0,
+    "model_type": "gpt2",
+    "n_ctx": 1024,
+    "n_embd": 768,
+    "n_head": 12,
+    "n_inner": null,
+    "n_layer": 12,
+    "n_positions": 1024,
+    "no_repeat_ngram_size": 0,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 50256,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "resid_pdrop": 0.1,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "scale_attn_weights": true,
+    "sep_token_id": null,
+    "summary_activation": null,
+    "summary_first_dropout": 0.1,
+    "summary_proj_to_labels": true,
+    "summary_type": "cls_index",
+    "summary_use_proj": true,
+    "task_specific_params": {
+      "text-generation": {
+        "do_sample": true,
+        "max_length": 50
+      }
+    },
+    "temperature": 1.0,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.11.0.dev0",
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 50257
+  },
+  "decoder_start_token_id": 50256,
+  "encoder": {
+    "_name_or_path": "",
+    "add_cross_attention": false,
+    "architectures": [
+      "ViTModel"
+    ],
+    "attention_probs_dropout_prob": 0.0,
+    "bad_words_ids": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.0,
+    "hidden_size": 768,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "image_size": 224,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "min_length": 0,
+    "model_type": "vit",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 12,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_channels": 3,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": null,
+    "patch_size": 16,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.11.0.dev0",
+    "use_bfloat16": false
+  },
+  "eos_token_id": 50256,
+  "is_encoder_decoder": true,
+  "model_type": "vision-encoder-decoder",
+  "pad_token_id": 50256,
+  "transformers_version": null
+}
--- a/events.out.tfevents.1633443513.t1v-n-bb5dfd23-w-0.8655.0.v2
+++ b/events.out.tfevents.1633443513.t1v-n-bb5dfd23-w-0.8655.0.v2
--- a/flax_model.msgpack
+++ b/flax_model.msgpack
--- a/generation_eval.json
+++ b/generation_eval.json
--- a/merges.txt
+++ b/merges.txt
--- a/pipeline.py
+++ b/pipeline.py
@ -0,0 +1,48 @@
+import os
+from typing import Dict, List, Any
+from PIL import Image
+import jax
+from transformers import ViTFeatureExtractor, AutoTokenizer, FlaxVisionEncoderDecoderModel
+
+
+class PreTrainedPipeline():
+
+    def __init__(self, path=""):
+
+        model_dir = os.path.join(path, "ckpt_epoch_3_step_6900")
+
+        self.model = FlaxVisionEncoderDecoderModel.from_pretrained(model_dir)
+        self.feature_extractor = ViTFeatureExtractor.from_pretrained(model_dir)
+        self.tokenizer = AutoTokenizer.from_pretrained(model_dir)
+
+        max_length = 16
+        num_beams = 4
+        self.gen_kwargs = {"max_length": max_length, "num_beams": num_beams}
+        
+        @jax.jit
+        def _generate(pixel_values):
+
+            output_ids = self.model.generate(pixel_values, **self.gen_kwargs).sequences
+            return output_ids
+
+        self.generate = _generate
+
+        # compile the model
+        image_path = os.path.join(path, 'val_000000039769.jpg')
+        image = Image.open(image_path)
+        self(image)
+        image.close()
+        
+    def __call__(self, inputs: "Image.Image") -> List[str]:
+        """
+        Args:
+        Return:
+        """
+
+        pixel_values = self.feature_extractor(images=inputs, return_tensors="np").pixel_values
+        
+        output_ids = self.generate(pixel_values)
+        preds = self.tokenizer.batch_decode(output_ids, skip_special_tokens=True)
+        preds = [pred.strip() for pred in preds]
+
+        return preds
--- a/preprocessor_config.json
+++ b/preprocessor_config.json
@ -0,0 +1,15 @@
+{
+  "do_normalize": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "size": 224
+}
--- a/report.txt
+++ b/report.txt
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,4 @@
+Pillow
+jax[cpu]
+flax
+git+https://github.com/ydshieh/transformers.git@flax_vision_encoder_decoder
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@ -0,0 +1 @@
+{"bos_token": "<|endoftext|>", "eos_token": "<|endoftext|>", "unk_token": "<|endoftext|>", "pad_token": "<|endoftext|>"}
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@ -0,0 +1 @@
+{"unk_token": "<|endoftext|>", "bos_token": "<|endoftext|>", "eos_token": "<|endoftext|>", "add_prefix_space": false, "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "gpt2", "tokenizer_class": "GPT2Tokenizer"}
--- a/val_000000039769.jpg
+++ b/val_000000039769.jpg
--- a/vocab.json
+++ b/vocab.json
				`@ -0,0 +1 @@`
				`{"bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "unk_token": "<\|endoftext\|>", "pad_token": "<\|endoftext\|>"}`
				`@ -0,0 +1 @@`
				`{"unk_token": "<\|endoftext\|>", "bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "add_prefix_space": false, "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "gpt2", "tokenizer_class": "GPT2Tokenizer"}`