reddit_disentanglement

  • Mô tả:

Tập dữ liệu này chứa ~ 3M thông báo từ reddit. Mọi thư đều được gắn nhãn siêu dữ liệu. Nhiệm vụ là dự đoán id của thông báo mẹ của nó trong luồng tương ứng. Mỗi bản ghi chứa một danh sách các tin nhắn từ một chuỗi. Các bản ghi trùng lặp và bị hỏng sẽ bị xóa khỏi tập dữ liệu.

Các tính năng là: - id - id tin nhắn - văn bản - văn bản tin nhắn - tác giả - tác giả tin nhắn - create_utc - tin nhắn UTC dấu thời gian - link_id - id của bài đăng mà nhận xét liên quan đến Mục tiêu: - parent_id - id của tin nhắn chính trong chuỗi hiện tại

  • Trang chủ: https://github.com/henghuiz/MaskedHierarchicalTransformer

  • Source code: tfds.text.RedditDisentanglement

  • phiên bản:

    • 2.0.0 (mặc định): Không có ghi chú phát hành.
  • Dung lượng tải về: Unknown size

  • Kích thước tập dữ liệu: Unknown size

  • Hướng dẫn tải về Hướng dẫn sử dụng: Bộ dữ liệu này đòi hỏi bạn phải tải về dữ liệu nguồn bằng tay vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Tải https://github.com/henghuiz/MaskedHierarchicalTransformer, giải nén và chạy raw_data.zip generate_dataset.py với các thông tin api reddit bạn. Sau đó đặt train.csv, val.csv và test.csv từ thư mục đầu ra vào thư mục thủ công.

  • Tự động lưu trữ ( tài liệu ): Unknown

  • tách:

Tách ra Các ví dụ
  • Các tính năng:
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=tf.string),
        'created_utc': Text(shape=(), dtype=tf.string),
        'id': Text(shape=(), dtype=tf.string),
        'link_id': Text(shape=(), dtype=tf.string),
        'parent_id': Text(shape=(), dtype=tf.string),
        'text': Text(shape=(), dtype=tf.string),
    }),
})
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}