- Beschreibung:
GAP ist ein nach Geschlechtern ausgewogener Datensatz mit 8.908 mit Koreferenzen gekennzeichneten Paaren von (mehrdeutiges Pronomen, vorangegangener Name), die aus Wikipedia entnommen und von Google AI Language zur Bewertung der Koreferenzauflösung in praktischen Anwendungen veröffentlicht wurden.
Homepage: https://github.com/google-research-datasets/gap-coreference
Quellcode:
tfds.text.Gap
Versionen:
-
0.1.0
(Standard): Kein Release Notes.
-
Downloadgröße:
2.29 MiB
Dataset Größe:
Unknown size
Auto-cached ( Dokumentation ): Unbekannt
Splits:
Teilt | Beispiele |
---|---|
'test' | 2.000 |
'train' | 2.000 |
'validation' | 454 |
- Eigenschaften:
FeaturesDict({
'A': Text(shape=(), dtype=tf.string),
'A-coref': tf.bool,
'A-offset': tf.int32,
'B': Text(shape=(), dtype=tf.string),
'B-coref': tf.bool,
'B-offset': tf.int32,
'ID': Text(shape=(), dtype=tf.string),
'Pronoun': Text(shape=(), dtype=tf.string),
'Pronoun-offset': tf.int32,
'Text': Text(shape=(), dtype=tf.string),
'URL': Text(shape=(), dtype=tf.string),
})
Betreute Tasten (Siehe
as_supervised
doc ):None
Figur ( tfds.show_examples ): nicht unterstützt.
Beispiele ( tfds.as_dataframe ):
- Zitat:
@article{DBLP:journals/corr/abs-1810-05201,
author = {Kellie Webster and
Marta Recasens and
Vera Axelrod and
Jason Baldridge},
title = {Mind the {GAP:} {A} Balanced Corpus of Gendered Ambiguous Pronouns},
journal = {CoRR},
volume = {abs/1810.05201},
year = {2018},
url = {http://arxiv.org/abs/1810.05201},
archivePrefix = {arXiv},
eprint = {1810.05201},
timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1810-05201},
bibsource = {dblp computer science bibliography, https://dblp.org}
}