- Mô tả :
WikiHow là một tập dữ liệu quy mô lớn mới sử dụng cơ sở kiến thức WikiHow ( http://www.wikihow.com/ ) trực tuyến.
Có hai tính năng: - văn bản: wikihow trả lời văn bản. - headline: dòng in đậm như phần tóm tắt.
Có hai phiên bản riêng biệt: - tất cả: bao gồm phần nối tất cả các đoạn văn dưới dạng các bài báo và các dòng in đậm là phần tóm tắt tài liệu tham khảo. - sep: gồm từng đoạn và phần tóm tắt của nó.
Tải xuống "wikihowAll.csv" và "wikihowSep.csv" từ https://github.com/mahnazkoupaee/WikiHow-Dataset và đặt chúng vào thư mục thủ công https://www.tensorflow.org/datasets/api_docs/python/tfds/ tải xuống / DownloadConfig Train / xác nhận / phân tách thử nghiệm được cung cấp bởi các tác giả. Xử lý trước được áp dụng để loại bỏ các bài viết ngắn (độ dài tóm tắt <độ dài bài viết 0,75) và xóa các dấu phẩy thừa.
Trang chủ : https://github.com/mahnazkoupaee/WikiHow-Dataset
Mã nguồn :
tfds.summarization.Wikihow
Các phiên bản :
-
1.2.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
5.21 MiB
Kích thước tập dữ liệu :
Unknown size
Hướng dẫn tải xuống thủ công: Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Các liên kết đến tệp có thể được tìm thấy trên https://github.com/mahnazkoupaee/WikiHow-Dataset Vui lòng tải xuống cả wikihowAll.csv và wikihowSep.csv.Tự động lưu trong bộ nhớ đệm ( tài liệu ): Không xác định
Khóa được giám sát (Xem
as_supervised
doc ):('text', 'headline')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
Trích dẫn :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow / all (cấu hình mặc định)
Mô tả cấu hình : Sử dụng cách nối tất cả các đoạn văn làm bài báo và các dòng in đậm làm phần tóm tắt tham khảo
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 5.577 |
'train' | 157.252 |
'validation' | 5.599 |
- Cấu trúc tính năng :
FeaturesDict({
'headline': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
tiêu đề | Chữ | tf.string | ||
chữ | Chữ | tf.string | ||
Tiêu đề | Chữ | tf.string |
wikihow / sep
Mô tả cấu hình : sử dụng từng đoạn văn và phần tóm tắt của nó.
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 37.800 |
'train' | 1.060.732 |
'validation' | 37.932 |
- Cấu trúc tính năng :
FeaturesDict({
'headline': Text(shape=(), dtype=tf.string),
'overview': Text(shape=(), dtype=tf.string),
'sectionLabel': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
tiêu đề | Chữ | tf.string | ||
tổng quát | Chữ | tf.string | ||
sectionLabel | Chữ | tf.string | ||
chữ | Chữ | tf.string | ||
Tiêu đề | Chữ | tf.string |