- Descriptif :
Phrases de Wikipédia avec des étendues saillantes étiquetées.
Page d' accueil : https://www.tensorflow.org/datasets/catalog/salient_span_wikipedia
Code source :
tfds.datasets.salient_span_wikipedia.Builder
Versions :
-
1.0.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
Unknown size
Mise en cache automatique ( documentation ): Non
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{guu2020realm,
title={REALM: Retrieval-Augmented Language Model Pre-Training},
author={Kelvin Guu and Kenton Lee and Zora Tung and Panupong Pasupat and Ming-Wei Chang},
year={2020},
journal = {arXiv e-prints},
archivePrefix = {arXiv},
eprint={2002.08909},
}
salient_span_wikipedia/sentences (configuration par défaut)
Description de la configuration : les exemples sont des phrases individuelles contenant des entités.
Taille du jeu de données :
20.57 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 82 291 706 |
- Structure des fonctionnalités :
FeaturesDict({
'spans': Sequence({
'limit': int32,
'start': int32,
'type': string,
}),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
s'étend | Séquence | |||
étendues/limite | Tenseur | int32 | ||
durées/début | Tenseur | int32 | ||
portées/type | Tenseur | chaîne de caractères | ||
texte | Texte | chaîne de caractères | ||
Titre | Texte | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
salient_span_wikipedia/documents
Description de la configuration : Exemples de documents complets.
Taille du jeu de données :
16.52 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 13 353 718 |
- Structure des fonctionnalités :
FeaturesDict({
'sentences': Sequence({
'limit': int32,
'start': int32,
}),
'spans': Sequence({
'limit': int32,
'start': int32,
'type': string,
}),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
Phrases | Séquence | |||
peines/limite | Tenseur | int32 | ||
phrases/début | Tenseur | int32 | ||
s'étend | Séquence | |||
étendues/limite | Tenseur | int32 | ||
durées/début | Tenseur | int32 | ||
portées/type | Tenseur | chaîne de caractères | ||
texte | Texte | chaîne de caractères | ||
Titre | Texte | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):