- توضیحات :
BookSum: مجموعهای از مجموعههای داده برای خلاصهسازی روایت طولانی
این پیاده سازی در حال حاضر فقط از خلاصه کتاب و فصل پشتیبانی می کند.
GitHub: https://github.com/salesforce/booksum
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/salesforce/booksum
کد منبع :
tfds.datasets.booksum.Builder
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
اندازه دانلود :
Unknown size
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض~/tensorflow_datasets/downloads/manual/
):1) به https://github.com/salesforce/booksum بروید و مراحل 1-3 را اجرا کنید. کل پروژه
booksum
git را در پوشه manual قرار دهید. 2) کتاب های فصلی را از https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip دانلود کرده و در پوشه دستی از حالت فشرده خارج کنید.
پوشه دستی باید شامل دایرکتوری های زیر باشد:
- `booksum/`
- `all_chapterized_books/`
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که
shuffle_files=False
(قطار)ساختار ویژگی :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
سند | متن | رشته | ||
خلاصه | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('document', 'summary')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
booksum/book (پیکربندی پیش فرض)
توضیحات پیکربندی : خلاصه سازی در سطح کتاب
حجم مجموعه داده :
208.81 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- مثالها ( tfds.as_dataframe ):
کتاب مجموعه/فصل
توضیحات پیکربندی : خلاصه در سطح فصل
حجم مجموعه داده :
216.71 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1083 |
'train' | 6,524 |
'validation' | 891 |
- مثالها ( tfds.as_dataframe ):