akal

  • Deskripsi :

Kumpulan Data Teks Gambar (WIT) berbasis Wikipedia adalah kumpulan data multimodal multibahasa yang besar. WIT terdiri dari kumpulan 37,6 juta contoh gambar-teks kaya entitas dengan 11,5 juta gambar unik di 108 bahasa Wikipedia. Ukurannya memungkinkan WIT untuk digunakan sebagai dataset prapelatihan untuk model pembelajaran mesin multimodal.

Membelah Contoh
'test' 210.166
'train' 37.046.386
'val' 261.024
  • Struktur fitur :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
atribusi_passes_lang_id Tensor bool
caption_alt_text_description Teks rangkaian
caption_attribution_description Teks rangkaian
keterangan_referensi_deskripsi Teks rangkaian
konteks_halaman_deskripsi Teks rangkaian
konteks_bagian_deskripsi Teks rangkaian
hirarkis_bagian_judul Teks rangkaian
image_url Teks rangkaian
is_main_image Tensor bool
bahasa Teks rangkaian
mime_type Teks rangkaian
tinggi_asli Tensor int32
lebar_asli Tensor int32
page_changed_recently Tensor bool
judul halaman Teks rangkaian
Halaman URL Teks rangkaian
bagian_judul Teks rangkaian
  • Kutipan :
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}