- תיאור :
BookSum: אוסף של מערכי נתונים לסיכום סיפורי ארוך צורה
יישום זה תומך כרגע רק בסיכומי ספרים ופרק.
GitHub: https://github.com/salesforce/booksum
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/salesforce/booksum
קוד מקור :
tfds.datasets.booksum.Builderגרסאות :
-
1.0.0(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
Unknown sizeהוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל
download_config.manual_dir(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/):1) עבור אל https://github.com/salesforce/booksum, והפעל את שלבים 1-3. מקם את כל פרויקט
booksumgit בתיקייה הידנית. 2) הורד את הספרים עם הפרקים מ- https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip ופתח את הדחוס לתיקיה הידנית.
התיקיה הידנית צריכה להכיל את הספריות הבאות:
- `booksum/`
- `all_chapterized_books/`
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False(רכבת)מבנה תכונה :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
| תכונה | מעמד | צוּרָה | Dtype | תיאור |
|---|---|---|---|---|
| FeaturesDict | ||||
| מסמך | טֶקסט | חוּט | ||
| סיכום | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_superviseddoc ):('document', 'summary')איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
סכום ספרים/ספר (תצורת ברירת מחדל)
תיאור תצורה : סיכום ברמת הספר
גודל מערך נתונים :
208.81 MiBפיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- דוגמאות ( tfds.as_dataframe ):
סכום ספרים/פרק
תיאור תצורה : סיכום ברמת הפרק
גודל ערכת נתונים:
216.71 MiBפיצולים :
| לְפַצֵל | דוגמאות |
|---|---|
'test' | 1,083 |
'train' | 6,524 |
'validation' | 891 |
- דוגמאות ( tfds.as_dataframe ):