- বর্ণনা :
SummScreen সংক্ষিপ্তকরণ ডেটাসেট, অ-বেনামী, অ-টোকেনাইজড সংস্করণ।
ট্রেন/ভাল/পরীক্ষা বিভাজন এবং ফিল্টারিং চূড়ান্ত টোকেনাইজড ডেটাসেটের উপর ভিত্তি করে, কিন্তু প্রদত্ত প্রতিলিপি এবং রিক্যাপগুলি অটোকেনাইজড পাঠ্যের উপর ভিত্তি করে।
দুটি বৈশিষ্ট্য আছে:
- ট্রান্সক্রিপ্ট: সম্পূর্ণ পর্বের প্রতিলিপি, কথোপকথনের প্রতিটি লাইন নতুন লাইন দ্বারা পৃথক করা হয়েছে
recap: recaps বা পর্বের সারাংশ
সোর্স কোড :
tfds.datasets.summscreen.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড
841.27 MiB
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('transcript', 'recap')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
সামস্ক্রিন/এফডি (ডিফল্ট কনফিগারেশন)
কনফিগ বিবরণ : ForeverDreaming
ডেটাসেটের আকার :
132.99 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 337 |
'train' | ৩,৬৭৩ |
'validation' | ৩৩৮ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
পর্ব_সংখ্যা | পাঠ্য | স্ট্রিং | ||
episode_title | পাঠ্য | স্ট্রিং | ||
সংকলন | পাঠ্য | স্ট্রিং | ||
শিরোনাম দেখান | পাঠ্য | স্ট্রিং | ||
প্রতিলিপি | পাঠ্য | স্ট্রিং | ||
প্রতিলিপি_লেখক | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
summscreen/tms
কনফিগ বিবরণ : TVMegaSite
ডেটাসেটের আকার :
592.53 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,793 |
'train' | 18,915 |
'validation' | 1,795 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
episode_summary | পাঠ্য | স্ট্রিং | ||
সংকলন | পাঠ্য | স্ট্রিং | ||
recap_author | পাঠ্য | স্ট্রিং | ||
শিরোনাম দেখান | পাঠ্য | স্ট্রিং | ||
প্রতিলিপি | পাঠ্য | স্ট্রিং | ||
প্রতিলিপি_লেখক | টেনসর | (কোনটিই নয়,) | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):