- Descriptif :
Wikipédia - Concours Kaggle d'association d'images et de légendes.
Ce concours est organisé par l' équipe de recherche de la Wikimedia Foundation en collaboration avec Google Research et quelques collaborateurs externes. Ce concours est basé sur l'ensemble de données WIT publié par Google Research, comme détaillé dans cet article SIGIR .
Dans ce concours, vous construirez un modèle qui récupère automatiquement le texte le plus proche d'une image. Plus précisément, vous entraînerez votre modèle à associer des images données à des titres d'articles ou à des légendes complexes, dans plusieurs langues. Les meilleurs modèles rendront compte de la granularité sémantique des images Wikipédia. En cas de succès, vous contribuerez à l'accessibilité de la plus grande encyclopédie en ligne. Les millions de lecteurs et d'éditeurs de Wikipédia pourront plus facilement comprendre, rechercher et décrire les médias à grande échelle. En conséquence, vous contribuerez à un modèle ouvert pour améliorer l'apprentissage pour tous.
Page d' accueil : https://www.kaggle.com/c/wikipedia-image-caption/code
Code source :
tfds.vision_language.wit_kaggle.WitKaggle
Versions :
1.0.0
: Version initiale. Il fournit les ensembles de données d'entraînement et de test du concours Wikipedia - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).Le but du concours est de construire un modèle qui récupère automatiquement le texte le plus proche d'une image. Plus précisément, le modèle doit être formé pour associer des images données à des titres d'articles ou à des légendes complexes, dans plusieurs langues. Les meilleurs modèles rendront compte de la granularité sémantique des images Wikipédia.
Notez que cette version ne fournit pas la vérité de terrain pour l'ensemble de test, car elle n'a pas encore été fournie par le concours Kaggle.
Notez que toutes les observations d'entraînement n'ont pas de données d'image correspondantes. Les images publiées excluent toutes les images contenant des humains. Pour les échantillons qui ne sont pas associés à des données d'image, les caractéristiques d'image suivantes sont utilisées :
image
est une image vierge codée en 64 octets, l'embedding
est un vecteur de 2048 zéros.Les échantillons publiés pour le concours peuvent être chargés comme :
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: Optimiser le pipeline Beam pour éviter les lutteurs, en ignorant les lignes sans URL d'image. Également ajouté plus de compteurs de faisceau.1.0.2
(par défaut) : corrige l'analyse des champs booléens.
Taille du téléchargement :
Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données source dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Selon la configuration appelée, manual_dir doit contenir certains des sous-répertoires suivants :- train
- train-{0000x}-de-00005.tsv.zip
- image_data_train/
- image_pixels/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- test
- test.tsv.zip
- image_data_test/
- image_pixels/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
L'inscription sur https://www.kaggle.com/c/wikipedia-image-caption/data est nécessaire pour obtenir les liens permettant de télécharger l'ensemble de données.
Mise en cache automatique ( documentation ): Non
Clés supervisées (Voir
as_supervised
doc ):('image_url', 'caption_title_and_reference_description')
Citation :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (configuration par défaut)
Description de la configuration : Exemples d'entraînement pour le concours Wikipedia-Image/Caption Matching.
Taille du jeu de données :
1.16 TiB
Fractionnements :
Diviser | Exemples |
---|---|
'train_with_extended_features' | 37 046 386 |
- Structure des fonctionnalités :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
attribution_passes_lang_id | Tenseur | bourdonner | ||
caption_alt_text_description | Texte | chaîne de caractères | ||
caption_attribution_description | Texte | chaîne de caractères | ||
légende_reference_description | Texte | chaîne de caractères | ||
caption_title_and_reference_description | Texte | chaîne de caractères | ||
context_page_description | Texte | chaîne de caractères | ||
context_section_description | Texte | chaîne de caractères | ||
incorporation | Tenseur | (2048,) | float32 | |
titre_section_hiérarchique | Texte | chaîne de caractères | ||
image | Image | (Aucun, Aucun, 3) | uint8 | |
URL de l'image | Texte | chaîne de caractères | ||
est_main_image | Tenseur | bourdonner | ||
Langue | Texte | chaîne de caractères | ||
metadata_url | Texte | chaîne de caractères | ||
type_mime | Texte | chaîne de caractères | ||
hauteur_d'origine | Tenseur | int32 | ||
largeur_originale | Tenseur | int32 | ||
page_changed_recently | Tenseur | bourdonner | ||
titre de la page | Texte | chaîne de caractères | ||
L'URL de la page | Texte | chaîne de caractères | ||
section titre | Texte | chaîne de caractères |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
wit_kaggle/test_sans_or
Description de la configuration : Échantillons de test (sans réponses dorées) pour le concours Wikipedia-Image/Caption Matching.
Taille du jeu de données :
3.37 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test_without_gold' | 92 366 |
- Structure des fonctionnalités :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
caption_title_and_reference_description | Texte | chaîne de caractères | ||
incorporation | Tenseur | (2048,) | float32 | |
identifiant | Texte | chaîne de caractères | ||
image | Image | (Aucun, Aucun, 3) | uint8 | |
URL de l'image | Texte | chaîne de caractères | ||
metadata_url | Texte | chaîne de caractères |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):