- Mô tả :
Tập dữ liệu IRC Disentanglement chứa hơn 77.563 thông báo từ kênh IRC của Ubuntu.
Các tính năng bao gồm id tin nhắn, văn bản tin nhắn và dấu thời gian. Mục tiêu là danh sách các tin nhắn mà tin nhắn hiện tại trả lời. Mỗi bản ghi chứa một danh sách các tin nhắn từ một ngày trò chuyện IRC.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://jkk.name/irc-disentanglement
Mã nguồn :
tfds.datasets.irc_disentanglement.Builder
Phiên bản :
-
2.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
113.53 MiB
Kích thước tập dữ liệu :
26.59 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- Cấu trúc tính năng :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
ngày | Sự phối hợp | |||
ngày/mã | Chữ | sợi dây | ||
ngày/bố mẹ | Trình tự (Văn bản) | (Không có,) | sợi dây | |
ngày/văn bản | Chữ | sợi dây | ||
ngày/dấu thời gian | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}