- توضیحات :
BookSum: مجموعهای از مجموعههای داده برای خلاصهسازی روایت طولانی
این پیاده سازی در حال حاضر فقط از خلاصه کتاب و فصل پشتیبانی می کند.
GitHub: https://github.com/salesforce/booksum
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/salesforce/booksum
کد منبع :
tfds.datasets.booksum.Builderنسخه ها :
-
1.0.0(پیش فرض): انتشار اولیه.
-
اندازه دانلود :
Unknown sizeدستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir(پیشفرض~/tensorflow_datasets/downloads/manual/):1) به https://github.com/salesforce/booksum بروید و مراحل 1-3 را اجرا کنید. کل پروژه
booksumgit را در پوشه manual قرار دهید. 2) کتاب های فصلی را از https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip دانلود کرده و در پوشه دستی از حالت فشرده خارج کنید.
پوشه دستی باید شامل دایرکتوری های زیر باشد:
- `booksum/`
- `all_chapterized_books/`
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که
shuffle_files=False(قطار)ساختار ویژگی :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| FeaturesDict | ||||
| سند | متن | رشته | ||
| خلاصه | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_superviseddoc ):('document', 'summary')شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
booksum/book (پیکربندی پیش فرض)
توضیحات پیکربندی : خلاصه سازی در سطح کتاب
حجم مجموعه داده :
208.81 MiBتقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- مثالها ( tfds.as_dataframe ):
کتاب مجموعه/فصل
توضیحات پیکربندی : خلاصه در سطح فصل
حجم مجموعه داده :
216.71 MiBتقسیم ها :
| شکاف | مثال ها |
|---|---|
'test' | 1083 |
'train' | 6,524 |
'validation' | 891 |
- مثالها ( tfds.as_dataframe ):