sagacidade

  • Descrição :

O conjunto de dados de texto de imagem baseado na Wikipédia (WIT) é um grande conjunto de dados multilíngue multimodal. O WIT é composto por um conjunto curado de 37,6 milhões de exemplos de imagens e textos ricos em entidades com 11,5 milhões de imagens exclusivas em 108 idiomas da Wikipédia. Seu tamanho permite que o WIT seja usado como um conjunto de dados de pré-treinamento para modelos de aprendizado de máquina multimodais.

Dividir Exemplos
'test' 210.166
'train' 37.046.386
'val' 261.024
  • Estrutura de recursos :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
attribution_passes_lang_id tensor bool
caption_alt_text_description Texto corda
caption_attribution_description Texto corda
caption_reference_description Texto corda
context_page_description Texto corda
context_section_description Texto corda
hierarchical_section_title Texto corda
imagem URL Texto corda
is_main_image tensor bool
Língua Texto corda
mime_type Texto corda
altura_original tensor int32
largura_original tensor int32
página_alterada_recentemente tensor bool
título da página Texto corda
URL da página Texto corda
Título da seção Texto corda
  • Citação :
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}