- תיאור :
GAP הוא מערך נתונים מאוזן בין המינים המכיל 8,908 צמדים עם תווית coreference (כינוי מעורפל, שם קדום), שנדגמו מוויקיפדיה ושוחררו על ידי Google AI Language לצורך הערכת רזולוציית coreference ביישומים מעשיים.
דף הבית : https://github.com/google-research-datasets/gap-coreference
קוד מקור :
tfds.text.Gap
גרסאות :
-
0.1.0
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
2.29 MiB
גודל ערכת נתונים :
Unknown size
שמור אוטומטי במטמון ( תיעוד ): לא ידוע
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 2,000 |
'validation' | 454 |
- מבנה תכונה :
FeaturesDict({
'A': Text(shape=(), dtype=tf.string),
'A-coref': tf.bool,
'A-offset': tf.int32,
'B': Text(shape=(), dtype=tf.string),
'B-coref': tf.bool,
'B-offset': tf.int32,
'ID': Text(shape=(), dtype=tf.string),
'Pronoun': Text(shape=(), dtype=tf.string),
'Pronoun-offset': tf.int32,
'Text': Text(shape=(), dtype=tf.string),
'URL': Text(shape=(), dtype=tf.string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
א | טֶקסט | tf.string | ||
A-coref | מוֹתֵחַ | tf.bool | ||
א-קיזוז | מוֹתֵחַ | tf.int32 | ||
ב | טֶקסט | tf.string | ||
B-coref | מוֹתֵחַ | tf.bool | ||
קיזוז B | מוֹתֵחַ | tf.int32 | ||
תְעוּדַת זֶהוּת | טֶקסט | tf.string | ||
כנוי | טֶקסט | tf.string | ||
כינוי היסט | מוֹתֵחַ | tf.int32 | ||
טֶקסט | טֶקסט | tf.string | ||
כתובת אתר | טֶקסט | tf.string |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{DBLP:journals/corr/abs-1810-05201,
author = {Kellie Webster and
Marta Recasens and
Vera Axelrod and
Jason Baldridge},
title = {Mind the {GAP:} {A} Balanced Corpus of Gendered Ambiguous Pronouns},
journal = {CoRR},
volume = {abs/1810.05201},
year = {2018},
url = {http://arxiv.org/abs/1810.05201},
archivePrefix = {arXiv},
eprint = {1810.05201},
timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1810-05201},
bibsource = {dblp computer science bibliography, https://dblp.org}
}