irc_disentanglement

  • الوصف :

تحتوي مجموعة بيانات IRC Disentanglement على أكثر من 77563 رسالة من قناة Ubuntu IRC.

تتضمن الميزات معرف الرسالة ونص الرسالة والطابع الزمني. الهدف هو قائمة الرسائل التي ترد عليها الرسالة الحالية. يحتوي كل سجل على قائمة من الرسائل من يوم واحد من دردشة IRC.

انشق، مزق أمثلة
'test' 10
'train' 153
'validation' 10
  • هيكل الميزة :
FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=string),
        'parents': Sequence(Text(shape=(), dtype=string)),
        'text': Text(shape=(), dtype=string),
        'timestamp': Text(shape=(), dtype=string),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
يوم تسلسل
يوم / معرف نص سلسلة
اليوم / الوالدين تسلسل (نص) (لا أحد،) سلسلة
اليوم / النص نص سلسلة
اليوم / الطابع الزمني نص سلسلة
  • الاقتباس :
@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}