doc_nli

  • תיאור :

DocNLI הוא מערך נתונים בקנה מידה גדול להסקת שפה טבעית ברמת המסמך (NLI). DocNLI משתנה ממגוון רחב של בעיות NLP ומכסה ז'אנרים מרובים של טקסט. הנחות היסוד תמיד נשארות בפירוט המסמך, בעוד שההשערות משתנות באורכן ממשפטים בודדים ועד לקטעים עם מאות מילים. בניגוד לכמה מערכי נתונים NLI קיימים ברמת המשפט, ל-DocNLI יש חפצים מוגבלים למדי.

לְפַצֵל דוגמאות
'test' 267,086
'train' 942,314
'validation' 234,258
  • מבנה תכונה :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
הַשׁעָרָה טֶקסט חוּט
תווית ClassLabel int64
הַנָחַת יְסוֹד טֶקסט חוּט
  • ציטוט :
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}