- Mô tả:
Tập dữ liệu này chứa ~ 3M thông báo từ reddit. Mọi thư đều được gắn nhãn siêu dữ liệu. Nhiệm vụ là dự đoán id của thông báo mẹ của nó trong luồng tương ứng. Mỗi bản ghi chứa một danh sách các tin nhắn từ một chuỗi. Các bản ghi trùng lặp và bị hỏng sẽ bị xóa khỏi tập dữ liệu.
Các tính năng là: - id - id tin nhắn - văn bản - văn bản tin nhắn - tác giả - tác giả tin nhắn - create_utc - tin nhắn UTC dấu thời gian - link_id - id của bài đăng mà nhận xét liên quan đến Mục tiêu: - parent_id - id của tin nhắn chính trong chuỗi hiện tại
Trang chủ: https://github.com/henghuiz/MaskedHierarchicalTransformer
Source code:
tfds.text.RedditDisentanglement
phiên bản:
-
2.0.0
(mặc định): Không có ghi chú phát hành.
-
Dung lượng tải về:
Unknown size
Kích thước tập dữ liệu:
Unknown size
Hướng dẫn tải về Hướng dẫn sử dụng: Bộ dữ liệu này đòi hỏi bạn phải tải về dữ liệu nguồn bằng tay vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Tải https://github.com/henghuiz/MaskedHierarchicalTransformer, giải nén và chạy raw_data.zip generate_dataset.py với các thông tin api reddit bạn. Sau đó đặt train.csv, val.csv và test.csv từ thư mục đầu ra vào thư mục thủ công.Tự động lưu trữ ( tài liệu ): Unknown
tách:
Tách ra | Các ví dụ |
---|
- Các tính năng:
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=tf.string),
'created_utc': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'link_id': Text(shape=(), dtype=tf.string),
'parent_id': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
}),
})
Phím giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
Trích dẫn:
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}