کتاب جمع

  • توضیحات :

BookSum: مجموعه‌ای از مجموعه‌های داده برای خلاصه‌سازی روایت طولانی

این پیاده سازی در حال حاضر فقط از خلاصه کتاب و فصل پشتیبانی می کند.

GitHub: https://github.com/salesforce/booksum

پوشه دستی باید شامل دایرکتوری های زیر باشد:

- `booksum/`
- `all_chapterized_books/`
  • ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)

  • ساختار ویژگی :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
سند متن رشته
خلاصه متن رشته
  • کلیدهای نظارت شده (نگاه کنید به as_supervised doc ): ('document', 'summary')

  • شکل ( tfds.show_examples ): پشتیبانی نمی شود.

  • نقل قول :

@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/book (پیکربندی پیش فرض)

  • توضیحات پیکربندی : خلاصه سازی در سطح کتاب

  • حجم مجموعه داده : 208.81 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 46
'train' 312
'validation' 45

کتاب مجموعه/فصل

  • توضیحات پیکربندی : خلاصه در سطح فصل

  • حجم مجموعه داده : 216.71 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 1083
'train' 6,524
'validation' 891