- Descrição :
O conjunto de dados de texto de imagem baseado na Wikipédia (WIT) é um grande conjunto de dados multilíngue multimodal. O WIT é composto por um conjunto curado de 37,6 milhões de exemplos de imagens e textos ricos em entidades com 11,5 milhões de imagens exclusivas em 108 idiomas da Wikipédia. Seu tamanho permite que o WIT seja usado como um conjunto de dados de pré-treinamento para modelos de aprendizado de máquina multimodais.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/google-research-datasets/wit/
Código -fonte:
tfds.vision_language.wit.Wit
Versões :
-
1.0.0
: versão inicial. Ele carrega o conjunto de dados WIT de https://storage.googleapis.com/gresearch/wit/ -
1.1.0
(padrão): Adicionadoval
e divisões detest
.
-
Tamanho do download :
25.20 GiB
Tamanho do conjunto de dados :
81.17 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 210.166 |
'train' | 37.046.386 |
'val' | 261.024 |
- Estrutura de recursos :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
attribution_passes_lang_id | tensor | bool | ||
caption_alt_text_description | Texto | corda | ||
caption_attribution_description | Texto | corda | ||
caption_reference_description | Texto | corda | ||
context_page_description | Texto | corda | ||
context_section_description | Texto | corda | ||
hierarchical_section_title | Texto | corda | ||
imagem URL | Texto | corda | ||
is_main_image | tensor | bool | ||
Língua | Texto | corda | ||
mime_type | Texto | corda | ||
altura_original | tensor | int32 | ||
largura_original | tensor | int32 | ||
página_alterada_recentemente | tensor | bool | ||
título da página | Texto | corda | ||
URL da página | Texto | corda | ||
Título da seção | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}