- Descrição :
Wikipedia - Competição Kaggle de correspondência de imagens/legendas.
Esta competição é organizada pela equipe de pesquisa da Wikimedia Foundation em colaboração com o Google Research e alguns colaboradores externos. Esta competição é baseada no conjunto de dados WIT publicado pelo Google Research, conforme detalhado neste documento SIGIR .
Nesta competição, você construirá um modelo que recupera automaticamente o texto mais próximo de uma imagem. Especificamente, você treinará seu modelo para associar determinadas imagens a títulos de artigos ou legendas complexas, em vários idiomas. Os melhores modelos serão responsáveis pela granularidade semântica das imagens da Wikipédia. Se for bem-sucedido, você estará contribuindo para a acessibilidade da maior enciclopédia online. Os milhões de leitores e editores da Wikipédia poderão entender, pesquisar e descrever mídia em escala com mais facilidade. Como resultado, você contribuirá para um modelo aberto para melhorar a aprendizagem para todos.
Página inicial : https://www.kaggle.com/c/wikipedia-image-caption/code
Código -fonte:
tfds.vision_language.wit_kaggle.WitKaggle
Versões :
1.0.0
: versão inicial. Ele fornece os conjuntos de dados de treinamento e teste da competição Wikipedia - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).O objetivo da competição é construir um modelo que recupere automaticamente o texto mais próximo de uma imagem. Especificamente, o modelo deve ser treinado para associar determinadas imagens a títulos de artigos ou legendas complexas, em vários idiomas. Os melhores modelos serão responsáveis pela granularidade semântica das imagens da Wikipédia.
Observe que esta versão não fornece a verdade básica para o conjunto de teste, pois ainda não foi fornecida pela competição Kaggle.
Observe que nem todas as observações de treinamento possuem dados de imagem correspondentes. As imagens liberadas excluem todas as imagens contendo seres humanos. Para amostras que não estão associadas a dados de imagem, os seguintes recursos de imagem são usados:
image
é uma imagem em branco codificada em bytes 64,embedding
é um vetor de 2048 zeros.As amostras liberadas para a competição podem ser carregadas como:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: Otimize o pipeline do Beam para evitar lutadores, ignorando linhas sem um URL de imagem. Também foram adicionados mais contadores de Feixe.1.0.2
(padrão): Corrige a análise de campos booleanos.
Tamanho do download :
Unknown size
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Dependendo da configuração chamada, manual_dir deve conter alguns dos seguintes subdiretórios:- Comboio
- train-{0000x}-of-00005.tsv.zip
- image_data_train/
- image_pixels/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- teste
- teste.tsv.zip
- image_data_test/
- image_pixels/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
O registro em https://www.kaggle.com/c/wikipedia-image-caption/data é necessário para obter os links para baixar o conjunto de dados.
Armazenado em cache automaticamente ( documentação ): Não
Chaves supervisionadas (Consulte
as_supervised
doc ):('image_url', 'caption_title_and_reference_description')
Citação :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (configuração padrão)
Descrição da configuração : amostras de treinamento para a competição Wikipedia-Image/Caption Matching.
Tamanho do conjunto de dados :
1.16 TiB
Divisões :
Dividir | Exemplos |
---|---|
'train_with_extended_features' | 37.046.386 |
- Estrutura de recursos :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Funcionalidade | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
attribution_passes_lang_id | tensor | bool | ||
caption_alt_text_description | Texto | fragmento | ||
caption_attribution_description | Texto | fragmento | ||
caption_reference_description | Texto | fragmento | ||
caption_title_and_reference_description | Texto | fragmento | ||
context_page_description | Texto | fragmento | ||
context_section_description | Texto | fragmento | ||
incorporação | tensor | (2048,) | float32 | |
hierarchical_section_title | Texto | fragmento | ||
imagem | Imagem | (Nenhuma, Nenhuma, 3) | uint8 | |
imagem URL | Texto | fragmento | ||
is_main_image | tensor | bool | ||
língua | Texto | fragmento | ||
metadata_url | Texto | fragmento | ||
mime_type | Texto | fragmento | ||
altura_original | tensor | int32 | ||
largura_original | tensor | int32 | ||
página_alterada_recentemente | tensor | bool | ||
título da página | Texto | fragmento | ||
URL da página | Texto | fragmento | ||
Título da seção | Texto | fragmento |
- Figura ( tfds.show_examples ):
- Exemplos ( tfds.as_dataframe ):
wit_kaggle/test_without_gold
Descrição da configuração : amostras de teste (sem respostas de ouro) para a competição Wikipedia-Image/Caption Matching.
Tamanho do conjunto de dados :
3.37 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test_without_gold' | 92.366 |
- Estrutura de recursos :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Funcionalidade | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
caption_title_and_reference_description | Texto | fragmento | ||
incorporação | tensor | (2048,) | float32 | |
Eu iria | Texto | fragmento | ||
imagem | Imagem | (Nenhuma, Nenhuma, 3) | uint8 | |
imagem URL | Texto | fragmento | ||
metadata_url | Texto | fragmento |
- Figura ( tfds.show_examples ):
- Exemplos ( tfds.as_dataframe ):