mưu mẹo

  • Mô tả :

Tập dữ liệu Văn bản Hình ảnh (WIT) dựa trên Wikipedia là một tập dữ liệu đa ngôn ngữ đa phương thức lớn. WIT bao gồm một tập hợp 37,6 triệu ví dụ văn bản hình ảnh phong phú thực thể được tuyển chọn với 11,5 triệu hình ảnh độc đáo trên 108 ngôn ngữ Wikipedia. Kích thước của nó cho phép WIT được sử dụng như một tập dữ liệu đào tạo trước cho các mô hình học máy đa phương thức.

Tách ra Các ví dụ
'test' 210.166
'train' 37.046.386
'val' 261.024
  • Cấu trúc tính năng :
FeaturesDict({
    'attribution_passes_lang_id': tf.bool,
    'caption_alt_text_description': Text(shape=(), dtype=tf.string),
    'caption_attribution_description': Text(shape=(), dtype=tf.string),
    'caption_reference_description': Text(shape=(), dtype=tf.string),
    'context_page_description': Text(shape=(), dtype=tf.string),
    'context_section_description': Text(shape=(), dtype=tf.string),
    'hierarchical_section_title': Text(shape=(), dtype=tf.string),
    'image_url': Text(shape=(), dtype=tf.string),
    'is_main_image': tf.bool,
    'language': Text(shape=(), dtype=tf.string),
    'mime_type': Text(shape=(), dtype=tf.string),
    'original_height': tf.int32,
    'original_width': tf.int32,
    'page_changed_recently': tf.bool,
    'page_title': Text(shape=(), dtype=tf.string),
    'page_url': Text(shape=(), dtype=tf.string),
    'section_title': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
ghi công_cách_lang_id Tensor tf.bool
caption_alt_text_description Chữ tf.string
caption_attribution_description Chữ tf.string
caption_reference_description Chữ tf.string
context_page_description Chữ tf.string
context_section_description Chữ tf.string
hierarchical_section_title Chữ tf.string
URL hình ảnh Chữ tf.string
is_main_image Tensor tf.bool
ngôn ngữ Chữ tf.string
mime_type Chữ tf.string
original_height Tensor tf.int32
ban đầu Tensor tf.int32
page_changed_recently Tensor tf.bool
page_title Chữ tf.string
page_url Chữ tf.string
section_title Chữ tf.string
  • Trích dẫn :
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}