wit_kaggle

  • Mô tả :

Wikipedia - Cuộc thi Phù hợp với Hình ảnh / Chú thích Kaggle.

Cuộc thi này do nhóm Nghiên cứu tại Wikimedia Foundation phối hợp với Google Research và một số cộng tác viên bên ngoài tổ chức. Cuộc thi này dựa trên tập dữ liệu WIT do Google Research xuất bản được trình bày chi tiết trong bài báo SIGIR này .

Trong cuộc thi này, bạn sẽ xây dựng một mô hình tự động lấy văn bản gần với hình ảnh nhất. Cụ thể, bạn sẽ đào tạo mô hình của mình để liên kết các hình ảnh nhất định với tiêu đề bài viết hoặc chú thích phức tạp, bằng nhiều ngôn ngữ. Các mô hình tốt nhất sẽ tính đến mức độ chi tiết ngữ nghĩa của hình ảnh Wikipedia. Nếu thành công, bạn sẽ đóng góp vào khả năng truy cập của bách khoa toàn thư trực tuyến lớn nhất. Hàng triệu người đọc Wikipedia và người lập trình sẽ có thể dễ dàng hiểu, tìm kiếm và mô tả phương tiện trên quy mô lớn hơn. Do đó, bạn sẽ đóng góp vào một mô hình mở để cải thiện việc học cho tất cả mọi người.

  • Trang chủ : https://www.kaggle.com/c/wikipedia-image-caption/code

  • Mã nguồn : tfds.vision_language.wit_kaggle.WitKaggle

  • Các phiên bản :

    • 1.0.0 : Bản phát hành ban đầu. Nó cung cấp tập dữ liệu huấn luyện và thử nghiệm từ cuộc thi Wikipedia - Hình ảnh / Phụ đề Khớp với Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      Mục tiêu của cuộc thi là xây dựng một mô hình tự động lấy văn bản gần với hình ảnh nhất. Cụ thể, mô hình sẽ được đào tạo để liên kết các hình ảnh đã cho với tiêu đề bài viết hoặc chú thích phức tạp, bằng nhiều ngôn ngữ. Các mô hình tốt nhất sẽ tính đến mức độ chi tiết ngữ nghĩa của hình ảnh Wikipedia.

      Lưu ý rằng bản phát hành này không cung cấp sự thật cơ bản cho bộ thử nghiệm, vì nó vẫn chưa được cung cấp bởi cuộc thi Kaggle.

      Lưu ý rằng không phải tất cả các quan sát huấn luyện đều có dữ liệu hình ảnh tương ứng. Các hình ảnh được phát hành loại trừ tất cả các hình ảnh có chứa con người. Đối với các mẫu không được liên kết với dữ liệu hình ảnh, các tính năng hình ảnh sau được sử dụng: image là hình ảnh trống được mã hóa byte-64, embedding là một vectơ gồm 2048 số không.

      Có thể tải các mẫu được phát hành cho cuộc thi dưới dạng: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 (mặc định): Tối ưu hóa đường dẫn Beam để tránh những người đấu tranh, bỏ qua các hàng không có URL hình ảnh. Đồng thời bổ sung thêm nhiều quầy Beam.

  • Kích thước tải xuống : Unknown size

  • Hướng dẫn tải xuống thủ công: Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Tùy thuộc vào cấu hình được gọi, manual_dir nên chứa một số thư mục con sau:

    • xe lửa
    • train- {0000x} -of-00005.tsv.zip
    • image_data_train /
      • image_pixels /
      • train_image_pixels_part-00 {000-199} .csv.gz
      • resnet_embeddings /
      • train_resnet_embeddings_part-00 {000-214} .csv.gz
    • kiểm tra
    • test.tsv.zip
    • image_data_test /
      • image_pixels /
      • test_image_pixels_part-0000 {0-4} .csv
      • resnet_embeddings /
      • test_resnet_embeddings_part-0000 {0-9} .csv

Cần đăng ký tại https://www.kaggle.com/c/wikipedia-image-caption/data để nhận liên kết tải xuống tập dữ liệu.

  • Khóa được giám sát (Xem as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • Trích dẫn :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle / train_with_extended_features (cấu hình mặc định)

  • Mô tả cấu hình : Các mẫu đào tạo cho cuộc thi Đối sánh hình ảnh / phụ đề trên Wikipedia.

  • Kích thước tập dữ liệu : Unknown size

  • Tự động lưu trong bộ nhớ đệm ( tài liệu ): Không xác định

  • Tách :

Tách ra Các ví dụ
  • Các tính năng :
FeaturesDict({
    'attribution_passes_lang_id': tf.bool,
    'caption_alt_text_description': Text(shape=(), dtype=tf.string),
    'caption_attribution_description': Text(shape=(), dtype=tf.string),
    'caption_reference_description': Text(shape=(), dtype=tf.string),
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'context_page_description': Text(shape=(), dtype=tf.string),
    'context_section_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'hierarchical_section_title': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'is_main_image': tf.bool,
    'language': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
    'mime_type': Text(shape=(), dtype=tf.string),
    'original_height': tf.int32,
    'original_width': tf.int32,
    'page_changed_recently': tf.bool,
    'page_title': Text(shape=(), dtype=tf.string),
    'page_url': Text(shape=(), dtype=tf.string),
    'section_title': Text(shape=(), dtype=tf.string),
})

wit_kaggle / test_without_gold

  • Mô tả cấu hình : Mẫu thử nghiệm (không có câu trả lời vàng) cho cuộc thi Đối sánh hình ảnh / phụ đề trên Wikipedia.

  • Kích thước tập dữ liệu : 3.37 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test_without_gold' 92.366
  • Các tính năng :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
})

Hình dung