reddit_tifu

설명 :

Reddit 데이터 세트, 여기서 TIFU는 subbreddit /r/tifu의 이름을 나타냅니다. 간행물에 정의된 대로 "짧은" 스타일은 제목을 요약으로 사용하고 "긴" 스타일은 tldr을 요약으로 사용합니다.

기능에는 다음이 포함됩니다.

문서: tldr 없이 텍스트를 게시합니다.
tldr: tldr 라인.
제목: tldr 없이 잘린 제목.
ups: upvotes.
점수: 점수.
num_comments: 댓글 수.
upvote_ratio: 찬성 비율.
추가 문서 : 코드가 있는 논문에서 탐색
홈페이지 : https://github.com/ctr4si/MMN
소스 코드 : tfds.datasets.reddit_tifu.Builder
버전 :
- 1.1.0 : 빈 문서 및 요약 문자열을 제거합니다.
- 1.1.1 : PEGASUS( https://arxiv.org/abs/1912.08777 )에서 사용되는 기차, 개발 및 테스트(80/10/10) 분할을 별도의 구성으로 추가합니다. 이들은 tfds 분할 기능을 사용하여 무작위로 생성되었으며 Reddit Tifu Long의 결과가 재현 가능하고 비교 가능하도록 릴리스되었습니다. 또한 데이터 포인트에 id 를 추가합니다.
- 1.1.2 (기본값): 수정된 분할이 업로드되었습니다.
기능 구조 :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})

기능 문서 :

특징	수업	D타입
	풍모Dict
서류	텍스트	끈
ID	텍스트	끈
num_comments	텐서	float32
점수	텐서	float32
제목	텍스트	끈
tldr	텍스트	끈
기복	텐서	float32
upvote_ratio	텐서	float32

그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :

@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short(기본 구성)

구성 설명 : 제목을 요약으로 사용.
다운로드 크기 : 639.54 MiB
데이터 세트 크기 : 141.46 MiB
자동 캐시 됨( 문서 ): shuffle_files=False (트레인)인 경우에만
분할 :

나뉘다	예
`'train'`	79,740

감독된 키 ( as_supervised 문서 참조): ('documents', 'title')
예 ( tfds.as_dataframe ):

reddit_tifu/긴

구성 설명 : 요약으로 TLDR 사용.
다운로드 크기 : 639.54 MiB
데이터 세트 크기 : 93.10 MiB
자동 캐시 ( 문서 ): 예
분할 :

나뉘다	예
`'train'`	42,139

감독 키 ( as_supervised 문서 참조): ('documents', 'tldr')
예 ( tfds.as_dataframe ):

reddit_tifu/long_split

구성 설명 : TLDR을 요약으로 사용하고 학습/테스트/개발 분할을 반환합니다.
다운로드 크기 : 639.94 MiB
데이터 세트 크기 : 93.10 MiB
자동 캐시 ( 문서 ): 예
분할 :

나뉘다	예
`'test'`	4,214
`'train'`	33,711
`'validation'`	4,214

감독 키 ( as_supervised 문서 참조): ('documents', 'tldr')
예 ( tfds.as_dataframe ):

reddit_tifu 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

reddit_tifu/short(기본 구성)

reddit_tifu/긴

reddit_tifu/long_split

reddit_tifu