wit_kaggle

  • Descrição :

Wikipedia - Competição Kaggle de correspondência de imagens/legendas.

Esta competição é organizada pela equipe de pesquisa da Wikimedia Foundation em colaboração com o Google Research e alguns colaboradores externos. Esta competição é baseada no conjunto de dados WIT publicado pelo Google Research, conforme detalhado neste documento SIGIR .

Nesta competição, você construirá um modelo que recupera automaticamente o texto mais próximo de uma imagem. Especificamente, você treinará seu modelo para associar determinadas imagens a títulos de artigos ou legendas complexas, em vários idiomas. Os melhores modelos serão responsáveis ​​pela granularidade semântica das imagens da Wikipédia. Se for bem-sucedido, você estará contribuindo para a acessibilidade da maior enciclopédia online. Os milhões de leitores e editores da Wikipédia poderão entender, pesquisar e descrever mídia em escala com mais facilidade. Como resultado, você contribuirá para um modelo aberto para melhorar a aprendizagem para todos.

  • Página inicial : https://www.kaggle.com/c/wikipedia-image-caption/code

  • Código -fonte: tfds.vision_language.wit_kaggle.WitKaggle

  • Versões :

    • 1.0.0 : versão inicial. Ele fornece os conjuntos de dados de treinamento e teste da competição Wikipedia - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      O objetivo da competição é construir um modelo que recupere automaticamente o texto mais próximo de uma imagem. Especificamente, o modelo deve ser treinado para associar determinadas imagens a títulos de artigos ou legendas complexas, em vários idiomas. Os melhores modelos serão responsáveis ​​pela granularidade semântica das imagens da Wikipédia.

      Observe que esta versão não fornece a verdade básica para o conjunto de teste, pois ainda não foi fornecida pela competição Kaggle.

      Observe que nem todas as observações de treinamento possuem dados de imagem correspondentes. As imagens liberadas excluem todas as imagens contendo seres humanos. Para amostras que não estão associadas a dados de imagem, os seguintes recursos de imagem são usados: image é uma imagem em branco codificada em bytes 64, embedding é um vetor de 2048 zeros.

      As amostras liberadas para a competição podem ser carregadas como: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Otimize o pipeline do Beam para evitar lutadores, ignorando linhas sem um URL de imagem. Também foram adicionados mais contadores de Feixe.

    • 1.0.2 (padrão): Corrige a análise de campos booleanos.

  • Tamanho do download : Unknown size

  • Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    Dependendo da configuração chamada, manual_dir deve conter alguns dos seguintes subdiretórios:

    • Comboio
    • train-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • image_pixels/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • teste
    • teste.tsv.zip
    • image_data_test/
      • image_pixels/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

O registro em https://www.kaggle.com/c/wikipedia-image-caption/data é necessário para obter os links para baixar o conjunto de dados.

  • Armazenado em cache automaticamente ( documentação ): Não

  • Chaves supervisionadas (Consulte as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • Citação :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (configuração padrão)

  • Descrição da configuração : amostras de treinamento para a competição Wikipedia-Image/Caption Matching.

  • Tamanho do conjunto de dados : 1.16 TiB

  • Divisões :

Dividir Exemplos
'train_with_extended_features' 37.046.386
  • Estrutura de recursos :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Funcionalidade Aula Forma Tipo D Descrição
RecursosDict
attribution_passes_lang_id tensor bool
caption_alt_text_description Texto fragmento
caption_attribution_description Texto fragmento
caption_reference_description Texto fragmento
caption_title_and_reference_description Texto fragmento
context_page_description Texto fragmento
context_section_description Texto fragmento
incorporação tensor (2048,) float32
hierarchical_section_title Texto fragmento
imagem Imagem (Nenhuma, Nenhuma, 3) uint8
imagem URL Texto fragmento
is_main_image tensor bool
língua Texto fragmento
metadata_url Texto fragmento
mime_type Texto fragmento
altura_original tensor int32
largura_original tensor int32
página_alterada_recentemente tensor bool
título da página Texto fragmento
URL da página Texto fragmento
Título da seção Texto fragmento

Visualização

wit_kaggle/test_without_gold

  • Descrição da configuração : amostras de teste (sem respostas de ouro) para a competição Wikipedia-Image/Caption Matching.

  • Tamanho do conjunto de dados : 3.37 GiB

  • Divisões :

Dividir Exemplos
'test_without_gold' 92.366
  • Estrutura de recursos :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Funcionalidade Aula Forma Tipo D Descrição
RecursosDict
caption_title_and_reference_description Texto fragmento
incorporação tensor (2048,) float32
Eu iria Texto fragmento
imagem Imagem (Nenhuma, Nenhuma, 3) uint8
imagem URL Texto fragmento
metadata_url Texto fragmento

Visualização