- תיאור :
BookSum: אוסף של מערכי נתונים לסיכום סיפורי ארוך צורה
יישום זה תומך כרגע רק בסיכומי ספרים ופרק.
GitHub: https://github.com/salesforce/booksum
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/salesforce/booksum
קוד מקור :
tfds.datasets.booksum.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
Unknown size
הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל
download_config.manual_dir
(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/
):1) עבור אל https://github.com/salesforce/booksum, והפעל את שלבים 1-3. מקם את כל פרויקט
booksum
git בתיקייה הידנית. 2) הורד את הספרים עם הפרקים מ- https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip ופתח את הדחוס לתיקיה הידנית.
התיקיה הידנית צריכה להכיל את הספריות הבאות:
- `booksum/`
- `all_chapterized_books/`
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)מבנה תכונה :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
מסמך | טֶקסט | חוּט | ||
סיכום | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('document', 'summary')
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
סכום ספרים/ספר (תצורת ברירת מחדל)
תיאור תצורה : סיכום ברמת הספר
גודל מערך נתונים :
208.81 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- דוגמאות ( tfds.as_dataframe ):
סכום ספרים/פרק
תיאור תצורה : סיכום ברמת הפרק
גודל ערכת נתונים:
216.71 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,083 |
'train' | 6,524 |
'validation' | 891 |
- דוגמאות ( tfds.as_dataframe ):