irc_disentanglement

  • Açıklama :

IRC Disentanglement veri seti, Ubuntu IRC kanalından 77.563'ün üzerinde mesaj içerir.

Özellikler mesaj kimliğini, mesaj metnini ve zaman damgasını içerir. Hedef, mevcut mesajın yanıtladığı mesajların listesidir. Her kayıt, bir günlük IRC sohbetinden gelen mesajların bir listesini içerir.

Bölmek örnekler
'test' 10
'train' 153
'validation' 10
  • Özellik yapısı :
FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=string),
        'parents': Sequence(Text(shape=(), dtype=string)),
        'text': Text(shape=(), dtype=string),
        'timestamp': Text(shape=(), dtype=string),
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
gün Sekans
gün/kimlik Metin sicim
gün/ebeveynler Sıra(Metin) (Hiçbiri,) sicim
gün/metin Metin sicim
gün/zaman damgası Metin sicim
  • Alıntı :
@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}