wit_kaggle

  • Mô tả :

Wikipedia - Cuộc thi Kaggle phù hợp với hình ảnh/chú thích.

Cuộc thi này do nhóm Nghiên cứu tại Wikimedia Foundation phối hợp với Google Research và một số cộng tác viên bên ngoài tổ chức. Cuộc thi này dựa trên bộ dữ liệu WIT do Google Research xuất bản như được trình bày chi tiết trong bài báo SIGIR này .

Trong cuộc thi này, bạn sẽ xây dựng một mô hình tự động truy xuất văn bản gần nhất với hình ảnh. Cụ thể, bạn sẽ đào tạo mô hình của mình để liên kết các hình ảnh nhất định với tiêu đề bài viết hoặc chú thích phức tạp, bằng nhiều ngôn ngữ. Các mô hình tốt nhất sẽ tính đến mức độ chi tiết về ngữ nghĩa của hình ảnh Wikipedia. Nếu thành công, bạn sẽ đóng góp vào khả năng truy cập của bách khoa toàn thư trực tuyến lớn nhất. Hàng triệu người đọc và biên tập viên Wikipedia sẽ có thể dễ dàng hiểu, tìm kiếm và mô tả phương tiện trên quy mô lớn hơn. Kết quả là, bạn sẽ đóng góp vào một mô hình mở để cải thiện việc học tập cho tất cả mọi người.

  • Trang chủ : https://www.kaggle.com/c/wikipedia-image-caption/code

  • Mã nguồn : tfds.vision_language.wit_kaggle.WitKaggle

  • Phiên bản :

    • 1.0.0 : Bản phát hành đầu tiên. Nó cung cấp bộ dữ liệu đào tạo và kiểm tra từ Wikipedia - Cuộc thi Kaggle đối sánh hình ảnh/chú thích ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      Mục tiêu của cuộc thi là xây dựng một mô hình tự động lấy văn bản gần nhất với hình ảnh. Cụ thể, mô hình phải được đào tạo để liên kết các hình ảnh nhất định với tiêu đề bài viết hoặc chú thích phức tạp, bằng nhiều ngôn ngữ. Các mô hình tốt nhất sẽ tính đến mức độ chi tiết về ngữ nghĩa của hình ảnh Wikipedia.

      Lưu ý rằng bản phát hành này không cung cấp sự thật cơ bản cho bộ thử nghiệm, vì nó chưa được cung cấp bởi cuộc thi Kaggle.

      Lưu ý rằng không phải tất cả các quan sát huấn luyện đều có dữ liệu hình ảnh tương ứng. Các hình ảnh được phát hành loại trừ tất cả các hình ảnh có chứa con người. Đối với các mẫu không được liên kết với dữ liệu hình ảnh, các tính năng hình ảnh sau được sử dụng: image là hình ảnh trống được mã hóa theo byte-64, phần embedding là một vectơ gồm 2048 số không.

      Các mẫu được phát hành cho cuộc thi có thể được tải dưới dạng: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Tối ưu hóa đường dẫn Beam để tránh những người đấu tranh, bỏ qua các hàng không có URL hình ảnh. Cũng đã thêm nhiều bộ đếm Beam.

    • 1.0.2 (mặc định): Sửa lỗi phân tích cú pháp các trường boolean.

  • Kích thước tải xuống : Unknown size

  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Tùy thuộc vào cấu hình được gọi, manual_dir sẽ chứa một số thư mục con sau:

    • tàu hỏa
    • tàu-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • image_pixels/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • kiểm tra
    • test.tsv.zip
    • image_data_test/
      • image_pixels/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

Cần đăng ký tại https://www.kaggle.com/c/wikipedia-image-caption/data để nhận các liên kết tải xuống tập dữ liệu.

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Các khóa được giám sát (Xem as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • trích dẫn :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extends_features (cấu hình mặc định)

  • Mô tả cấu hình : Các mẫu đào tạo cho cuộc thi Ghép hình ảnh/chú thích Wikipedia.

  • Kích thước tập dữ liệu : 1.16 TiB

  • Chia tách :

Tách ra ví dụ
'train_with_extended_features' 37.046.386
  • Cấu trúc tính năng :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
attribution_passes_lang_id tenxơ bool
chú thích_alt_text_description Chữ chuỗi
caption_attribution_description Chữ chuỗi
caption_reference_description Chữ chuỗi
chú thích_title_and_reference_description Chữ chuỗi
context_page_description Chữ chuỗi
bối cảnh_phần_mô tả Chữ chuỗi
nhúng tenxơ (2048,) phao32
hierarchical_section_title Chữ chuỗi
hình ảnh Hình ảnh (Không, Không có, 3) uint8
URL hình ảnh Chữ chuỗi
is_main_image tenxơ bool
ngôn ngữ Chữ chuỗi
siêu dữ liệu_url Chữ chuỗi
mime_type Chữ chuỗi
original_height tenxơ int32
original_width tenxơ int32
page_changed_recently tenxơ bool
trang_title Chữ chuỗi
trang_url Chữ chuỗi
phần_tiêu đề Chữ chuỗi

Hình dung

wit_kaggle/test_without_gold

  • Mô tả cấu hình : Các mẫu thử nghiệm (không có câu trả lời vàng) cho cuộc thi Ghép hình ảnh/chú thích trên Wikipedia.

  • Kích thước tập dữ liệu : 3.37 GiB

  • Chia tách :

Tách ra ví dụ
'test_without_gold' 92,366
  • Cấu trúc tính năng :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
chú thích_title_and_reference_description Chữ chuỗi
nhúng tenxơ (2048,) phao32
Tôi Chữ chuỗi
hình ảnh Hình ảnh (Không, Không có, 3) uint8
URL hình ảnh Chữ chuỗi
siêu dữ liệu_url Chữ chuỗi

Hình dung