reddit_disentanglement

Mô tả :

Bộ dữ liệu này chứa ~3 triệu tin nhắn từ reddit. Mỗi tin nhắn được gắn nhãn với siêu dữ liệu. Nhiệm vụ là dự đoán id của thông báo gốc của nó trong luồng tương ứng. Mỗi bản ghi chứa một danh sách các tin nhắn từ một chuỗi. Các bản ghi trùng lặp và bị hỏng sẽ bị xóa khỏi tập dữ liệu.

Các tính năng là:

id - id tin nhắn
văn bản - văn bản tin nhắn
tác giả - tác giả tin nhắn
created_utc - dấu thời gian UTC của tin nhắn
link_id - id của bài đăng mà nhận xét liên quan đến

Mục tiêu:

parent_id - id của tin nhắn gốc trong chuỗi hiện tại
Trang chủ : https://github.com/henghuiz/MaskedHierarchicalTransformer
Mã nguồn : tfds.datasets.reddit_disentanglement.Builder
Phiên bản :
- 2.0.0 (mặc định): Không có ghi chú phát hành.
Kích thước tải xuống : Unknown size
Kích thước tập dữ liệu : Unknown size
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
Tải xuống https://github.com/henghuiz/MaskedHierarchicalTransformer, giải nén raw_data.zip và chạy generate_dataset.py bằng thông tin đăng nhập api reddit của bạn. Sau đó đặt train.csv, val.csv và test.csv từ thư mục đầu ra vào thư mục thủ công.
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không xác định
Chia tách :

Tách ra	ví dụ

Cấu trúc tính năng :

FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
chủ đề	Sự nối tiếp
chủ đề/tác giả	Chữ	chuỗi
chủ đề/created_utc	Chữ	chuỗi
chủ đề/id	Chữ	chuỗi
chủ đề/link_id	Chữ	chuỗi
chủ đề/parent_id	Chữ	chuỗi
chủ đề/văn bản	Chữ	chuỗi

Các khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
trích dẫn :

@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}

reddit_disentanglement Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

reddit_disentanglement