суммарный экран

  • Описание :

Набор данных SummScreen Summarization, не анонимная, не токенизированная версия.

Разделения и фильтрация обучения/оценки/тестирования основаны на окончательном токенизированном наборе данных, но предоставленные стенограммы и резюме основаны на немаркированном тексте.

Есть две особенности:

  • Стенограмма: полные стенограммы эпизодов, каждая строка диалога разделена новой строкой.
  • recap: Резюме или краткое изложение эпизодов.

  • Домашняя страница : https://github.com/mingdachen/SummScreen

  • Исходный код : tfds.datasets.summscreen.Builder

  • Версии :

    • 1.0.0 (по умолчанию): Первоначальный выпуск.
  • Размер загрузки : 841.27 MiB

  • Контролируемые ключи (см. as_supervised doc ): ('transcript', 'recap')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Цитата :

@article{DBLP:journals/corr/abs-2104-07091,
  author    
= {Mingda Chen and
               
Zewei Chu and
               
Sam Wiseman and
               
Kevin Gimpel},
  title    
= {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal  
= {CoRR},
  volume    
= {abs/2104.07091},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2104.07091},
  archivePrefix
= {arXiv},
  eprint    
= {2104.07091},
  timestamp
= {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    
= {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (конфигурация по умолчанию)

  • Описание конфига: ForeverDreaming

  • Размер набора данных : 132.99 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 337
'train' 3673
'validation' 338
  • Структура функции :
FeaturesDict({
   
'episode_number': Text(shape=(), dtype=string),
   
'episode_title': Text(shape=(), dtype=string),
   
'recap': Text(shape=(), dtype=string),
   
'show_title': Text(shape=(), dtype=string),
   
'transcript': Text(shape=(), dtype=string),
   
'transcript_author': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
эпизод_номер Текст нить
эпизод_название Текст нить
резюмировать Текст нить
показать заголовок Текст нить
стенограмма Текст нить
расшифровка_автор Текст нить

суммарный экран/тмс

  • Описание конфигурации : TVMegaSite

  • Размер набора данных : 592.53 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 1793
'train' 18 915
'validation' 1795
  • Структура функции :
FeaturesDict({
   
'episode_summary': Text(shape=(), dtype=string),
   
'recap': Text(shape=(), dtype=string),
   
'recap_author': Text(shape=(), dtype=string),
   
'show_title': Text(shape=(), dtype=string),
   
'transcript': Text(shape=(), dtype=string),
   
'transcript_author': Tensor(shape=(None,), dtype=string),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
эпизод_резюме Текст нить
резюмировать Текст нить
recap_author Текст нить
показать заголовок Текст нить
стенограмма Текст нить
расшифровка_автор Тензор (Никто,) нить