- Mô tả:
Bộ dữ liệu IRC Disentanglement chứa hơn 77.563 thông báo từ kênh IRC của Ubuntu.
Các tính năng bao gồm id tin nhắn, văn bản tin nhắn và dấu thời gian. Target là danh sách các tin nhắn mà tin nhắn hiện tại trả lời. Mỗi bản ghi chứa một danh sách các tin nhắn từ một ngày trò chuyện IRC.
Trang chủ: https://jkk.name/irc-disentanglement
Source code:
tfds.text.IrcDisentanglement
phiên bản:
-
2.0.0
(mặc định): Không có ghi chú phát hành.
-
Dung lượng tải về:
113.53 MiB
Dataset kích thước:
26.59 MiB
Tự động lưu trữ ( tài liệu ): Có
tách:
Tách ra | Các ví dụ |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- Các tính năng:
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=tf.string),
'parents': Sequence(Text(shape=(), dtype=tf.string)),
'text': Text(shape=(), dtype=tf.string),
'timestamp': Text(shape=(), dtype=tf.string),
}),
})
Phím giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn:
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}