wikihow

  • Mô tả :

WikiHow là một tập dữ liệu quy mô lớn mới sử dụng cơ sở kiến ​​thức WikiHow ( http://www.wikihow.com/ ) trực tuyến.

Có hai tính năng: - văn bản: wikihow trả lời văn bản. - headline: dòng in đậm như phần tóm tắt.

Có hai phiên bản riêng biệt: - tất cả: bao gồm phần nối tất cả các đoạn văn dưới dạng các bài báo và các dòng in đậm là phần tóm tắt tài liệu tham khảo. - sep: gồm từng đoạn và phần tóm tắt của nó.

Tải xuống "wikihowAll.csv" và "wikihowSep.csv" từ https://github.com/mahnazkoupaee/WikiHow-Dataset và đặt chúng vào thư mục thủ công https://www.tensorflow.org/datasets/api_docs/python/tfds/ tải xuống / DownloadConfig Train / xác nhận / phân tách thử nghiệm được cung cấp bởi các tác giả. Xử lý trước được áp dụng để loại bỏ các bài viết ngắn (độ dài tóm tắt <độ dài bài viết 0,75) và xóa các dấu phẩy thừa.

  • Trang chủ : https://github.com/mahnazkoupaee/WikiHow-Dataset

  • Mã nguồn : tfds.summarization.Wikihow

  • Các phiên bản :

    • 1.2.0 (mặc định): Không có ghi chú phát hành.
  • Kích thước tải xuống : 5.21 MiB

  • Kích thước tập dữ liệu : Unknown size

  • Hướng dẫn tải xuống thủ công: Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Các liên kết đến tệp có thể được tìm thấy trên https://github.com/mahnazkoupaee/WikiHow-Dataset Vui lòng tải xuống cả wikihowAll.csv và wikihowSep.csv.

  • Tự động lưu trong bộ nhớ đệm ( tài liệu ): Không xác định

  • Khóa được giám sát (Xem as_supervised doc ): ('text', 'headline')

  • Hình ( tfds.show_examples ): Không được hỗ trợ.

  • Ví dụ ( tfds.as_dataframe ): Thiếu.

  • Trích dẫn :

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow / all (cấu hình mặc định)

  • Mô tả cấu hình : Sử dụng cách nối tất cả các đoạn văn làm bài báo và các dòng in đậm làm phần tóm tắt tham khảo

  • Tách :

Tách ra Các ví dụ
'test' 5.577
'train' 157.252
'validation' 5.599
  • Cấu trúc tính năng :
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
tiêu đề Chữ tf.string
chữ Chữ tf.string
Tiêu đề Chữ tf.string

wikihow / sep

  • Mô tả cấu hình : sử dụng từng đoạn văn và phần tóm tắt của nó.

  • Tách :

Tách ra Các ví dụ
'test' 37.800
'train' 1.060.732
'validation' 37.932
  • Cấu trúc tính năng :
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
tiêu đề Chữ tf.string
tổng quát Chữ tf.string
sectionLabel Chữ tf.string
chữ Chữ tf.string
Tiêu đề Chữ tf.string