wit_kaggle

  • Descriptif :

Wikipédia - Concours Kaggle d'association d'images et de légendes.

Ce concours est organisé par l' équipe de recherche de la Wikimedia Foundation en collaboration avec Google Research et quelques collaborateurs externes. Ce concours est basé sur l'ensemble de données WIT publié par Google Research, comme détaillé dans cet article SIGIR .

Dans ce concours, vous construirez un modèle qui récupère automatiquement le texte le plus proche d'une image. Plus précisément, vous entraînerez votre modèle à associer des images données à des titres d'articles ou à des légendes complexes, dans plusieurs langues. Les meilleurs modèles rendront compte de la granularité sémantique des images Wikipédia. En cas de succès, vous contribuerez à l'accessibilité de la plus grande encyclopédie en ligne. Les millions de lecteurs et d'éditeurs de Wikipédia pourront plus facilement comprendre, rechercher et décrire les médias à grande échelle. En conséquence, vous contribuerez à un modèle ouvert pour améliorer l'apprentissage pour tous.

  • Page d' accueil : https://www.kaggle.com/c/wikipedia-image-caption/code

  • Code source : tfds.vision_language.wit_kaggle.WitKaggle

  • Versions :

    • 1.0.0 : Version initiale. Il fournit les ensembles de données d'entraînement et de test du concours Wikipedia - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      Le but du concours est de construire un modèle qui récupère automatiquement le texte le plus proche d'une image. Plus précisément, le modèle doit être formé pour associer des images données à des titres d'articles ou à des légendes complexes, dans plusieurs langues. Les meilleurs modèles rendront compte de la granularité sémantique des images Wikipédia.

      Notez que cette version ne fournit pas la vérité de terrain pour l'ensemble de test, car elle n'a pas encore été fournie par le concours Kaggle.

      Notez que toutes les observations d'entraînement n'ont pas de données d'image correspondantes. Les images publiées excluent toutes les images contenant des humains. Pour les échantillons qui ne sont pas associés à des données d'image, les caractéristiques d'image suivantes sont utilisées : image est une image vierge codée en 64 octets, l' embedding est un vecteur de 2048 zéros.

      Les échantillons publiés pour le concours peuvent être chargés comme : tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Optimiser le pipeline Beam pour éviter les lutteurs, en ignorant les lignes sans URL d'image. Également ajouté plus de compteurs de faisceau.

    • 1.0.2 (par défaut) : corrige l'analyse des champs booléens.

  • Taille du téléchargement : Unknown size

  • Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données source dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
    Selon la configuration appelée, manual_dir doit contenir certains des sous-répertoires suivants :

    • train
    • train-{0000x}-de-00005.tsv.zip
    • image_data_train/
      • image_pixels/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • test
    • test.tsv.zip
    • image_data_test/
      • image_pixels/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

L'inscription sur https://www.kaggle.com/c/wikipedia-image-caption/data est nécessaire pour obtenir les liens permettant de télécharger l'ensemble de données.

  • Mise en cache automatique ( documentation ): Non

  • Clés supervisées (Voir as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • Citation :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (configuration par défaut)

  • Description de la configuration : Exemples d'entraînement pour le concours Wikipedia-Image/Caption Matching.

  • Taille du jeu de données : 1.16 TiB

  • Fractionnements :

Diviser Exemples
'train_with_extended_features' 37 046 386
  • Structure des fonctionnalités :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
attribution_passes_lang_id Tenseur bourdonner
caption_alt_text_description Texte chaîne de caractères
caption_attribution_description Texte chaîne de caractères
légende_reference_description Texte chaîne de caractères
caption_title_and_reference_description Texte chaîne de caractères
context_page_description Texte chaîne de caractères
context_section_description Texte chaîne de caractères
incorporation Tenseur (2048,) float32
titre_section_hiérarchique Texte chaîne de caractères
image Image (Aucun, Aucun, 3) uint8
URL de l'image Texte chaîne de caractères
est_main_image Tenseur bourdonner
Langue Texte chaîne de caractères
metadata_url Texte chaîne de caractères
type_mime Texte chaîne de caractères
hauteur_d'origine Tenseur int32
largeur_originale Tenseur int32
page_changed_recently Tenseur bourdonner
titre de la page Texte chaîne de caractères
L'URL de la page Texte chaîne de caractères
section titre Texte chaîne de caractères

Visualisation

wit_kaggle/test_sans_or

  • Description de la configuration : Échantillons de test (sans réponses dorées) pour le concours Wikipedia-Image/Caption Matching.

  • Taille du jeu de données : 3.37 GiB

  • Fractionnements :

Diviser Exemples
'test_without_gold' 92 366
  • Structure des fonctionnalités :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
caption_title_and_reference_description Texte chaîne de caractères
incorporation Tenseur (2048,) float32
identifiant Texte chaîne de caractères
image Image (Aucun, Aucun, 3) uint8
URL de l'image Texte chaîne de caractères
metadata_url Texte chaîne de caractères

Visualisation