북섬

  • 설명 :

BookSum: 긴 형식의 내러티브 요약을 위한 데이터 집합 모음

이 구현은 현재 책 및 장 요약만 지원합니다.

GitHub: https://github.com/salesforce/booksum

manual 폴더에는 다음 디렉토리가 포함되어야 합니다.

- `booksum/`
- `all_chapterized_books/`
  • 자동 캐싱 ( 문서 ): 예(테스트, 검증), shuffle_files=False 인 경우에만(훈련)

  • 기능 구조 :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
문서 텍스트
요약 텍스트
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/book (기본 구성)

  • 구성 설명 : 책 수준 요약

  • 데이터 세트 크기 : 208.81 MiB

  • 분할 :

나뉘다
'test' 46
'train' 312
'validation' 45

서적/챕터

  • 구성 설명 : 장 수준 요약

  • 데이터 세트 크기 : 216.71 MiB

  • 분할 :

나뉘다
'test' 1,083
'train' 6,524
'validation' 891