irc_disentanglement

  • תיאור :

מערך הנתונים של IRC Disentanglement מכיל למעלה מ-77,563 הודעות מערוץ ה-IRC של אובונטו.

התכונות כוללות מזהה הודעה, טקסט הודעה וחותמת זמן. יעד הוא רשימה של הודעות שההודעה הנוכחית עונה להן. כל רשומה מכילה רשימה של הודעות מיום אחד של צ'אט IRC.

לְפַצֵל דוגמאות
'test' 10
'train' 153
'validation' 10
  • מבנה תכונה :
FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=string),
        'parents': Sequence(Text(shape=(), dtype=string)),
        'text': Text(shape=(), dtype=string),
        'timestamp': Text(shape=(), dtype=string),
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
יְוֹם סדר פעולות
יום/מזהה טֶקסט חוּט
יום/הורים רצף (טקסט) (אף אחד,) חוּט
יום/טקסט טֶקסט חוּט
יום/חותמת זמן טֶקסט חוּט
  • ציטוט :
@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}