- Mô tả :
Bộ dữ liệu này chứa ~3 triệu tin nhắn từ reddit. Mỗi tin nhắn được gắn nhãn với siêu dữ liệu. Nhiệm vụ là dự đoán id của thông báo gốc của nó trong luồng tương ứng. Mỗi bản ghi chứa một danh sách các tin nhắn từ một chuỗi. Các bản ghi trùng lặp và bị hỏng sẽ bị xóa khỏi tập dữ liệu.
Các tính năng là:
- id - id tin nhắn
- văn bản - văn bản tin nhắn
- tác giả - tác giả tin nhắn
- created_utc - dấu thời gian UTC của tin nhắn
- link_id - id của bài đăng mà nhận xét liên quan đến
Mục tiêu:
parent_id - id của tin nhắn gốc trong chuỗi hiện tại
Trang chủ : https://github.com/henghuiz/MaskedHierarchicalTransformer
Mã nguồn :
tfds.datasets.reddit_disentanglement.Builder
Phiên bản :
-
2.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
Unknown size
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Tải xuống https://github.com/henghuiz/MaskedHierarchicalTransformer, giải nén raw_data.zip và chạy generate_dataset.py bằng thông tin đăng nhập api reddit của bạn. Sau đó đặt train.csv, val.csv và test.csv từ thư mục đầu ra vào thư mục thủ công.Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không xác định
Chia tách :
Tách ra | ví dụ |
---|
- Cấu trúc tính năng :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
chủ đề | Sự nối tiếp | |||
chủ đề/tác giả | Chữ | chuỗi | ||
chủ đề/created_utc | Chữ | chuỗi | ||
chủ đề/id | Chữ | chuỗi | ||
chủ đề/link_id | Chữ | chuỗi | ||
chủ đề/parent_id | Chữ | chuỗi | ||
chủ đề/văn bản | Chữ | chuỗi |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
trích dẫn :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}