Skip to content

SuperCoolGuy855/CLIP_mT5_Image_captioning

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Image Captioning with Meta-CLIP and MT5

Link dataset: https://huggingface.co/datasets/Skyler215/KTVIC

Results

Model ("MetaCLIP size"-"mT5 size") BLEU-1 BLEU-4 CIDEr METEOR ROUGE-L
b16-small 68.94 34.81 98.50 53.73 60.56
l14-large 69.98 36.77 103.12 55.19 62.19
h14-large 67.59 30.07 68.55 47.93 57.15

Train model

  1. Tải KTVIC dataset
  2. Cài đặt Java (nếu muốn evaluate CIDEr)
  3. Cài đặt pytorch 2.5.1 theo hướng dẫn trên website
  4. Cài đặt các thư viện cần thiết
pip install -r requirements.txt
  1. Search EDIT trong file clip_mt5_large_img_cap.py và chỉnh sửa cho phù hợp
  2. Chạy file
python clip_mt5_large_img_cap.py

Evaluate model

Model sẽ được evaluate trên tập test của KTVIC dataset sau mỗi epoch và kết quả sẽ được in trên terminal.

About

An Image Captioning model by combining CLIP as encoder and mT5 as decoder

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Languages