Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

sagacidade

Descrição :

O conjunto de dados de texto de imagem baseado na Wikipédia (WIT) é um grande conjunto de dados multilíngue multimodal. O WIT é composto por um conjunto curado de 37,6 milhões de exemplos de imagens e textos ricos em entidades com 11,5 milhões de imagens exclusivas em 108 idiomas da Wikipédia. Seu tamanho permite que o WIT seja usado como um conjunto de dados de pré-treinamento para modelos de aprendizado de máquina multimodais.

Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/google-research-datasets/wit/
Código -fonte: tfds.vision_language.wit.Wit
Versões :
- 1.0.0 : versão inicial. Ele carrega o conjunto de dados WIT de https://storage.googleapis.com/gresearch/wit/
- 1.1.0 (padrão): Adicionado val e divisões de test .
Tamanho do download : 25.20 GiB
Tamanho do conjunto de dados : 81.17 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'test'`	210.166
`'train'`	37.046.386
`'val'`	261.024

Estrutura de recursos :

FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})

Documentação do recurso:

Característica	Classe	Tipo D
	RecursosDict
attribution_passes_lang_id	tensor	bool
caption_alt_text_description	Texto	corda
caption_attribution_description	Texto	corda
caption_reference_description	Texto	corda
context_page_description	Texto	corda
context_section_description	Texto	corda
hierarchical_section_title	Texto	corda
imagem URL	Texto	corda
is_main_image	tensor	bool
Língua	Texto	corda
mime_type	Texto	corda
altura_original	tensor	int32
largura_original	tensor	int32
página_alterada_recentemente	tensor	bool
título da página	Texto	corda
URL da página	Texto	corda
Título da seção	Texto	corda

Chaves supervisionadas (Consulte as_supervised doc ): None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):

Citação :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

sagacidade Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

sagacidade