- 설명 :
BookSum: 긴 형식의 내러티브 요약을 위한 데이터 집합 모음
이 구현은 현재 책 및 장 요약만 지원합니다.
GitHub: https://github.com/salesforce/booksum
소스 코드 :
tfds.datasets.booksum.Builder
버전 :
-
1.0.0
(기본값): 최초 릴리스.
-
다운로드 크기 :
Unknown size
수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로
download_config.manual_dir
해야 합니다(기본값은~/tensorflow_datasets/downloads/manual/
).1) https://github.com/salesforce/booksum으로 이동하여 1~3단계를 실행합니다. 전체
booksum
git 프로젝트를 manual 폴더에 넣습니다. 2) https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip 에서 챕터화된 책을 다운로드하고 manual 폴더에 압축을 풉니다.
manual 폴더에는 다음 디렉토리가 포함되어야 합니다.
- `booksum/`
- `all_chapterized_books/`
자동 캐싱 ( 문서 ): 예(테스트, 검증),
shuffle_files=False
인 경우에만(훈련)기능 구조 :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
문서 | 텍스트 | 끈 | ||
요약 | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):('document', 'summary')
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
booksum/book (기본 구성)
구성 설명 : 책 수준 요약
데이터 세트 크기 :
208.81 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- 예 ( tfds.as_dataframe ):
서적/챕터
구성 설명 : 장 수준 요약
데이터 세트 크기 :
216.71 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,083 |
'train' | 6,524 |
'validation' | 891 |
- 예 ( tfds.as_dataframe ):