wikihow

 • Mô tả :

WikiHow là một tập dữ liệu quy mô lớn mới sử dụng cơ sở kiến ​​thức WikiHow ( http://www.wikihow.com/ ) trực tuyến.

Có hai tính năng: - văn bản: wikihow trả lời văn bản. - headline: dòng in đậm như phần tóm tắt.

Có hai phiên bản riêng biệt: - tất cả: bao gồm phần nối tất cả các đoạn văn dưới dạng các bài báo và các dòng in đậm là phần tóm tắt tài liệu tham khảo. - sep: gồm từng đoạn và phần tóm tắt của nó.

Tải xuống "wikihowAll.csv" và "wikihowSep.csv" từ https://github.com/mahnazkoupaee/WikiHow-Dataset và đặt chúng vào thư mục thủ công https://www.tensorflow.org/datasets/api_docs/python/tfds/ tải xuống / DownloadConfig Train / xác nhận / phân tách thử nghiệm được cung cấp bởi các tác giả. Xử lý trước được áp dụng để loại bỏ các bài viết ngắn (độ dài tóm tắt <độ dài bài viết 0,75) và xóa các dấu phẩy thừa.

 • Trang chủ : https://github.com/mahnazkoupaee/WikiHow-Dataset

 • Mã nguồn : tfds.summarization.Wikihow

 • Các phiên bản :

  • 1.2.0 (mặc định): Không có ghi chú phát hành.
 • Kích thước tải xuống : 5.21 MiB

 • Kích thước tập dữ liệu : Unknown size

 • Hướng dẫn tải xuống thủ công: Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
  Các liên kết đến tệp có thể được tìm thấy trên https://github.com/mahnazkoupaee/WikiHow-Dataset Vui lòng tải xuống cả wikihowAll.csv và wikihowSep.csv.

 • Tự động lưu trong bộ nhớ đệm ( tài liệu ): Không xác định

 • Khóa được giám sát (Xem as_supervised doc ): ('text', 'headline')

 • Hình ( tfds.show_examples ): Không được hỗ trợ.

 • Ví dụ ( tfds.as_dataframe ): Thiếu.

 • Trích dẫn :

@misc{koupaee2018wikihow,
  title={WikiHow: A Large Scale Text Summarization Dataset},
  author={Mahnaz Koupaee and William Yang Wang},
  year={2018},
  eprint={1810.09305},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

wikihow / all (cấu hình mặc định)

 • Mô tả cấu hình : Sử dụng cách nối tất cả các đoạn văn làm bài báo và các dòng in đậm làm phần tóm tắt tham khảo

 • Tách :

Tách ra Các ví dụ
'test' 5.577
'train' 157.252
'validation' 5.599
 • Cấu trúc tính năng :
FeaturesDict({
  'headline': Text(shape=(), dtype=tf.string),
  'text': Text(shape=(), dtype=tf.string),
  'title': Text(shape=(), dtype=tf.string),
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
tiêu đề Chữ tf.string
chữ Chữ tf.string
Tiêu đề Chữ tf.string

wikihow / sep

 • Mô tả cấu hình : sử dụng từng đoạn văn và phần tóm tắt của nó.

 • Tách :

Tách ra Các ví dụ
'test' 37.800
'train' 1.060.732
'validation' 37.932
 • Cấu trúc tính năng :
FeaturesDict({
  'headline': Text(shape=(), dtype=tf.string),
  'overview': Text(shape=(), dtype=tf.string),
  'sectionLabel': Text(shape=(), dtype=tf.string),
  'text': Text(shape=(), dtype=tf.string),
  'title': Text(shape=(), dtype=tf.string),
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
tiêu đề Chữ tf.string
tổng quát Chữ tf.string
sectionLabel Chữ tf.string
chữ Chữ tf.string
Tiêu đề Chữ tf.string