spirito

  • Descrizione :

Il set di dati WIT (Image Text) basato su Wikipedia è un grande set di dati multilingue multimodale. WIT è composto da un set curato di 37,6 milioni di esempi di immagini-testo ricchi di entità con 11,5 milioni di immagini uniche in 108 lingue di Wikipedia. Le sue dimensioni consentono a WIT di essere utilizzato come set di dati di pre-addestramento per modelli di machine learning multimodali.

Diviso Esempi
'test' 210.166
'train' 37.046.386
'val' 261.024
  • Struttura delle caratteristiche :
FeaturesDict({
   
'attribution_passes_lang_id': bool,
   
'caption_alt_text_description': Text(shape=(), dtype=string),
   
'caption_attribution_description': Text(shape=(), dtype=string),
   
'caption_reference_description': Text(shape=(), dtype=string),
   
'context_page_description': Text(shape=(), dtype=string),
   
'context_section_description': Text(shape=(), dtype=string),
   
'hierarchical_section_title': Text(shape=(), dtype=string),
   
'image_url': Text(shape=(), dtype=string),
   
'is_main_image': bool,
   
'language': Text(shape=(), dtype=string),
   
'mime_type': Text(shape=(), dtype=string),
   
'original_height': int32,
   
'original_width': int32,
   
'page_changed_recently': bool,
   
'page_title': Text(shape=(), dtype=string),
   
'page_url': Text(shape=(), dtype=string),
   
'section_title': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
attribution_passes_lang_id Tensore bool
caption_alt_text_description Testo corda
caption_attribution_description Testo corda
caption_reference_description Testo corda
descrizione_pagina_di_contesto Testo corda
descrizione_sezione_contesto Testo corda
hierarchical_section_title Testo corda
URL dell'immagine Testo corda
è_immagine_principale Tensore bool
linguaggio Testo corda
tipo_mimo Testo corda
altezza_originale Tensore int32
original_width Tensore int32
page_changed_recently Tensore bool
titolo della pagina Testo corda
page_url Testo corda
titolo_sezione Testo corda
  • Citazione :
@article{srinivasan2021wit,
  title
={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author
={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal
={arXiv preprint arXiv:2103.01913},
  year
={2021}
}