- 설명 :
SAMSum Corpus에는 수동으로 주석이 달린 요약이 포함된 16,000개 이상의 채팅 대화가 포함되어 있습니다.
두 가지 기능이 있습니다.
- 대화: 대화의 텍스트.
- 요약: 사람이 작성한 대화 요약.
id: 예시의 아이디.
소스 코드 :
tfds.datasets.samsum.Builder
버전 :
-
1.0.0
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
Unknown size
데이터 세트 크기 :
10.71 MiB
수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로
download_config.manual_dir
해야 합니다(기본값은~/tensorflow_datasets/downloads/manual/
).
https://arxiv.org/src/1911.12237v2/anc/corpus.7z를 다운로드하고 압축을 풀고 train.json, val.json 및 test.json을 매뉴얼 폴더에 넣습니다.자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 819 |
'train' | 14,732 |
'validation' | 818 |
- 기능 구조 :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
대화 | 텍스트 | 끈 | ||
ID | 텍스트 | 끈 | ||
요약 | 텍스트 | 끈 |
감독 키 (
as_supervised
문서 참조):('dialogue', 'summary')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}