요약 화면

  • 설명 :

SummScreen 요약 데이터 세트, 비익명화, 비토큰화 버전.

학습/평가/테스트 분할 및 필터링은 최종 토큰화된 데이터 세트를 기반으로 하지만 제공되는 기록 및 요약은 토큰화되지 않은 텍스트를 기반으로 합니다.

두 가지 기능이 있습니다.

@article{DBLP:journals/corr/abs-2104-07091,
  author    
= {Mingda Chen and
               
Zewei Chu and
               
Sam Wiseman and
               
Kevin Gimpel},
  title    
= {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal  
= {CoRR},
  volume    
= {abs/2104.07091},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2104.07091},
  archivePrefix
= {arXiv},
  eprint    
= {2104.07091},
  timestamp
= {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    
= {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd(기본 구성)

  • 구성 설명 : ForeverDreaming

  • 데이터 세트 크기 : 132.99 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 337
'train' 3,673
'validation' 338
  • 기능 구조 :
FeaturesDict({
   
'episode_number': Text(shape=(), dtype=string),
   
'episode_title': Text(shape=(), dtype=string),
   
'recap': Text(shape=(), dtype=string),
   
'show_title': Text(shape=(), dtype=string),
   
'transcript': Text(shape=(), dtype=string),
   
'transcript_author': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
episode_number 텍스트
episode_title 텍스트
요약 텍스트
show_title 텍스트
성적 증명서 텍스트
transcript_author 텍스트

요약 화면/tms

  • 구성 설명 : TVMegaSite

  • 데이터 세트 크기 : 592.53 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 1,793
'train' 18,915
'validation' 1,795
  • 기능 구조 :
FeaturesDict({
   
'episode_summary': Text(shape=(), dtype=string),
   
'recap': Text(shape=(), dtype=string),
   
'recap_author': Text(shape=(), dtype=string),
   
'show_title': Text(shape=(), dtype=string),
   
'transcript': Text(shape=(), dtype=string),
   
'transcript_author': Tensor(shape=(None,), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
episode_summary 텍스트
요약 텍스트
recap_author 텍스트
show_title 텍스트
성적 증명서 텍스트
transcript_author 텐서 (없음,)