समस्क्रीन

विवरण :

SummScreen सारांश डेटासेट, गैर-अनामीकृत, गैर-टोकन संस्करण।

ट्रेन/वैल/टेस्ट स्प्लिट और फ़िल्टरिंग अंतिम टोकनयुक्त डेटासेट पर आधारित होते हैं, लेकिन प्रदान किए गए ट्रांसक्रिप्ट और रिकैप्स अनटोकेनाइज़्ड टेक्स्ट पर आधारित होते हैं।

दो विशेषताएं हैं:

प्रतिलेख: पूर्ण एपिसोड प्रतिलेख, संवाद की प्रत्येक पंक्ति को न्यूलाइन द्वारा अलग किया गया
रीकैप: एपिसोड का रीकैप या सारांश
होमपेज : https://github.com/mingdachen/SummScreen
स्रोत कोड : tfds.datasets.summscreen.Builder
संस्करण :
- 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
डाउनलोड आकार : 841.27 MiB
पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): ('transcript', 'recap')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

समस्क्रीन/एफडी (डिफ़ॉल्ट कॉन्फ़िगरेशन)

कॉन्फिग विवरण : फॉरएवरड्रीमिंग
डेटासेट का आकार : 132.99 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'test'`	337
`'train'`	3,673
`'validation'`	338

फ़ीचर संरचना :

FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
प्रकरण क्रमांक	लेख	डोरी
प्रकरण_शीर्षक	लेख	डोरी
संक्षिप्त	लेख	डोरी
शीर्षक दिखाओ	लेख	डोरी
प्रतिलिपि	लेख	डोरी
transcript_author	लेख	डोरी

उदाहरण ( tfds.as_dataframe ):

समस्क्रीन/टीएमएस

कॉन्फ़िग विवरण : TVMegaSite
डेटासेट का आकार : 592.53 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :

विभाजित करना	उदाहरण
`'test'`	1,793
`'train'`	18,915
`'validation'`	1,795

फ़ीचर संरचना :

FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
episode_summary	लेख		डोरी
संक्षिप्त	लेख		डोरी
recap_author	लेख		डोरी
शीर्षक दिखाओ	लेख		डोरी
प्रतिलिपि	लेख		डोरी
transcript_author	टेन्सर	(कोई भी नहीं,)	डोरी

उदाहरण ( tfds.as_dataframe ):