irc_disentanglement

  • Mô tả:

Bộ dữ liệu IRC Disentanglement chứa hơn 77.563 thông báo từ kênh IRC của Ubuntu.

Các tính năng bao gồm id tin nhắn, văn bản tin nhắn và dấu thời gian. Target là danh sách các tin nhắn mà tin nhắn hiện tại trả lời. Mỗi bản ghi chứa một danh sách các tin nhắn từ một ngày trò chuyện IRC.

Tách ra Các ví dụ
'test' 10
'train' 153
'validation' 10
  • Các tính năng:
FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=tf.string),
        'parents': Sequence(Text(shape=(), dtype=tf.string)),
        'text': Text(shape=(), dtype=tf.string),
        'timestamp': Text(shape=(), dtype=tf.string),
    }),
})
  • Trích dẫn:
@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}