سامشاش

  • الوصف :

مجموعة بيانات تلخيص SummScreen ، إصدار غير مجهول الهوية وغير مرمز.

تستند عمليات تقسيم وتصفية التدريب / Val / الاختبار إلى مجموعة البيانات الرمزية النهائية ، لكن النصوص والملخصات المقدمة تستند إلى النص غير المنطوق.

هناك نوعان من الميزات:

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Summscreen / fd (التكوين الافتراضي)

  • وصف التكوين : ForeverDreaming

  • حجم مجموعة البيانات : 132.99 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 337
'train' 3،673
'validation' 338
  • هيكل الميزة :
FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
episode_number نص سلسلة
episode_title نص سلسلة
خلاصة نص سلسلة
show_title نص سلسلة
نسخة طبق الأصل نص سلسلة
نسخة مؤلف نص سلسلة

Summscreen / tms

  • وصف التكوين : TVMegaSite

  • حجم مجموعة البيانات : 592.53 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،793
'train' 18،915
'validation' 1795
  • هيكل الميزة :
FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الحلقة_ملخص نص سلسلة
خلاصة نص سلسلة
recap_author نص سلسلة
show_title نص سلسلة
نسخة طبق الأصل نص سلسلة
نسخة مؤلف موتر (لا أحد،) سلسلة