irc_disentanglement

  • Deskripsi :

Dataset IRC Disentanglement berisi lebih dari 77.563 pesan dari saluran IRC Ubuntu.

Fitur termasuk id pesan, teks pesan, dan stempel waktu. Target adalah daftar pesan yang dibalas oleh pesan saat ini. Setiap catatan berisi daftar pesan dari satu hari obrolan IRC.

Membelah Contoh
'test' 10
'train' 153
'validation' 10
  • Struktur fitur :
FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=string),
        'parents': Sequence(Text(shape=(), dtype=string)),
        'text': Text(shape=(), dtype=string),
        'timestamp': Text(shape=(), dtype=string),
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
hari Urutan
hari/hari Teks rangkaian
hari/orang tua Urutan (Teks) (Tidak ada,) rangkaian
hari/teks Teks rangkaian
hari/stempel waktu Teks rangkaian
  • Kutipan :
@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}