- विवरण :
SummScreen सारांश डेटासेट, गैर-अनामीकृत, गैर-टोकन संस्करण।
ट्रेन/वैल/टेस्ट स्प्लिट और फ़िल्टरिंग अंतिम टोकनयुक्त डेटासेट पर आधारित होते हैं, लेकिन प्रदान किए गए ट्रांसक्रिप्ट और रिकैप्स अनटोकेनाइज़्ड टेक्स्ट पर आधारित होते हैं।
दो विशेषताएं हैं:
- प्रतिलेख: पूर्ण एपिसोड प्रतिलेख, संवाद की प्रत्येक पंक्ति को न्यूलाइन द्वारा अलग किया गया
रीकैप: एपिसोड का रीकैप या सारांश
स्रोत कोड :
tfds.datasets.summscreen.Builderसंस्करण :
-
1.0.0(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
841.27 MiBपर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):('transcript', 'recap')चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
समस्क्रीन/एफडी (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फिग विवरण : फॉरएवरड्रीमिंग
डेटासेट का आकार :
132.99 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 337 |
'train' | 3,673 |
'validation' | 338 |
- फ़ीचर संरचना :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| प्रकरण क्रमांक | लेख | डोरी | ||
| प्रकरण_शीर्षक | लेख | डोरी | ||
| संक्षिप्त | लेख | डोरी | ||
| शीर्षक दिखाओ | लेख | डोरी | ||
| प्रतिलिपि | लेख | डोरी | ||
| transcript_author | लेख | डोरी |
- उदाहरण ( tfds.as_dataframe ):
समस्क्रीन/टीएमएस
कॉन्फ़िग विवरण : TVMegaSite
डेटासेट का आकार :
592.53 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 1,793 |
'train' | 18,915 |
'validation' | 1,795 |
- फ़ीचर संरचना :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| episode_summary | लेख | डोरी | ||
| संक्षिप्त | लेख | डोरी | ||
| recap_author | लेख | डोरी | ||
| शीर्षक दिखाओ | लेख | डोरी | ||
| प्रतिलिपि | लेख | डोरी | ||
| transcript_author | टेन्सर | (कोई भी नहीं,) | डोरी |
- उदाहरण ( tfds.as_dataframe ):