wit_kaggle

  • Descrizione :

Wikipedia - Concorso Kaggle corrispondente a immagine/didascalia.

Questo concorso è organizzato dal team di ricerca della Wikimedia Foundation in collaborazione con Google Research e alcuni collaboratori esterni. Questo concorso si basa sul set di dati WIT pubblicato da Google Research come dettagliato in questo documento SIGIR .

In questa competizione, costruirai un modello che recupera automaticamente il testo più vicino a un'immagine. Nello specifico, addestrerai il tuo modello per associare determinate immagini a titoli di articoli o didascalie complesse, in più lingue. I migliori modelli terranno conto della granularità semantica delle immagini di Wikipedia. In caso di successo, contribuirai all'accessibilità della più grande enciclopedia online. I milioni di lettori ed editori di Wikipedia saranno in grado di comprendere, cercare e descrivere più facilmente i media su larga scala. Di conseguenza, contribuirai a un modello aperto per migliorare l'apprendimento per tutti.

  • Pagina iniziale : https://www.kaggle.com/c/wikipedia-image-caption/code

  • Codice sorgente : tfds.vision_language.wit_kaggle.WitKaggle

  • Versioni :

    • 1.0.0 : Versione iniziale. Fornisce il treno e i set di dati di prova dalla competizione Kaggle di Wikipedia - Image/Caption Matching ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      L'obiettivo del concorso è costruire un modello che recuperi automaticamente il testo più vicino a un'immagine. In particolare, il modello dovrebbe essere addestrato per associare determinate immagini a titoli di articoli o didascalie complesse, in più lingue. I migliori modelli terranno conto della granularità semantica delle immagini di Wikipedia.

      Si noti che questa versione non fornisce la verità di base per il set di test, poiché non è stata ancora fornita dalla competizione Kaggle.

      Si noti che non tutte le osservazioni di addestramento hanno dati immagine corrispondenti. Le immagini rilasciate escludono tutte le immagini che contengono esseri umani. Per i campioni che non sono associati ai dati dell'immagine, vengono utilizzate le seguenti caratteristiche dell'immagine: image è un'immagine vuota codificata byte-64, l' embedding è un vettore di 2048 zeri.

      I campioni rilasciati per la competizione possono essere caricati come: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Ottimizza la pipeline Beam per evitare problemi, ignorando le righe senza un URL immagine. Aggiunti anche altri segnalini Raggio.

    • 1.0.2 (impostazione predefinita): corregge l'analisi dei campi booleani.

  • Dimensioni del download : Unknown size

  • Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in download_config.manual_dir (il valore predefinito ~/tensorflow_datasets/downloads/manual/ ):
    A seconda della configurazione richiamata, manual_dir dovrebbe contenere alcune delle seguenti sottodirectory:

    • treno
    • treno-{0000x}-di-00005.tsv.zip
    • image_data_treno/
      • pixel_immagine/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • test
    • test.tsv.zip
    • image_data_test/
      • pixel_immagine/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

La registrazione su https://www.kaggle.com/c/wikipedia-image-caption/data è necessaria per ottenere i collegamenti per scaricare il set di dati.

  • Cache automatica ( documentazione ): No

  • Chiavi supervisionate (vedi as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • Citazione :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (configurazione predefinita)

  • Descrizione della configurazione : esempi di formazione per il concorso Wikipedia-Image/Caption Matching.

  • Dimensione del set di dati: 1.16 TiB

  • Divisioni :

Diviso Esempi
'train_with_extended_features' 37.046.386
  • Struttura delle caratteristiche :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
attribution_passes_lang_id Tensore bool
caption_alt_text_description Testo corda
caption_attribution_description Testo corda
caption_reference_description Testo corda
caption_title_and_reference_description Testo corda
descrizione_pagina_di_contesto Testo corda
descrizione_sezione_contesto Testo corda
incorporamento Tensore (2048,) galleggiante32
hierarchical_section_title Testo corda
Immagine Immagine (Nessuno, Nessuno, 3) uint8
URL dell'immagine Testo corda
è_immagine_principale Tensore bool
linguaggio Testo corda
URL_metadati Testo corda
tipo_mimo Testo corda
altezza_originale Tensore int32
original_width Tensore int32
page_changed_recently Tensore bool
titolo della pagina Testo corda
page_url Testo corda
titolo_sezione Testo corda

Visualizzazione

wit_kaggle/test_senza_oro

  • Descrizione della configurazione : campioni di prova (senza risposte gold) per il concorso Wikipedia-Image/Caption Matching.

  • Dimensione del set di dati: 3.37 GiB

  • Divisioni :

Diviso Esempi
'test_without_gold' 92.366
  • Struttura delle caratteristiche :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
caption_title_and_reference_description Testo corda
incorporamento Tensore (2048,) galleggiante32
id Testo corda
Immagine Immagine (Nessuno, Nessuno, 3) uint8
URL dell'immagine Testo corda
URL_metadati Testo corda

Visualizzazione