サムスクリーン

  • 説明:

SummScreen 要約データセット、非匿名化、非トークン化バージョン。

トレーニング/検証/テストの分割とフィルタリングは最終的なトークン化されたデータセットに基づいていますが、提供されるトランスクリプトと要約はトークン化されていないテキストに基づいています。

次の 2 つの機能があります。

@article{DBLP:journals/corr/abs-2104-07091,
  author    
= {Mingda Chen and
               
Zewei Chu and
               
Sam Wiseman and
               
Kevin Gimpel},
  title    
= {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal  
= {CoRR},
  volume    
= {abs/2104.07091},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2104.07091},
  archivePrefix
= {arXiv},
  eprint    
= {2104.07091},
  timestamp
= {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    
= {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (デフォルト設定)

  • 構成の説明: ForeverDreaming

  • データセットのサイズ: 132.99 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 337
'train' 3,673
'validation' 338
  • 機能構造:
FeaturesDict({
   
'episode_number': Text(shape=(), dtype=string),
   
'episode_title': Text(shape=(), dtype=string),
   
'recap': Text(shape=(), dtype=string),
   
'show_title': Text(shape=(), dtype=string),
   
'transcript': Text(shape=(), dtype=string),
   
'transcript_author': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
エピソード番号文章ストリング
episode_title文章ストリング
要約文章ストリング
show_title文章ストリング
トランスクリプト文章ストリング
トランスクリプト_著者文章ストリング

サムスクリーン/tms

  • 構成の説明: TVMegaSite

  • データセットサイズ: 592.53 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 1,793
'train' 18,915
'validation' 1,795
  • 機能構造:
FeaturesDict({
   
'episode_summary': Text(shape=(), dtype=string),
   
'recap': Text(shape=(), dtype=string),
   
'recap_author': Text(shape=(), dtype=string),
   
'show_title': Text(shape=(), dtype=string),
   
'transcript': Text(shape=(), dtype=string),
   
'transcript_author': Tensor(shape=(None,), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
episode_summary文章ストリング
要約文章ストリング
recap_author文章ストリング
show_title文章ストリング
トランスクリプト文章ストリング
トランスクリプト_著者テンソル(なし、)ストリング