- বর্ণনা :
CNN/DailyMail অ-বেনামী সংক্ষিপ্তকরণ ডেটাসেট।
দুটি বৈশিষ্ট্য রয়েছে: - নিবন্ধ: সংবাদ নিবন্ধের পাঠ্য, সংক্ষিপ্ত করার জন্য নথি হিসাবে ব্যবহৃত হয় - হাইলাইটস: প্রতিটি হাইলাইটের সাথে এবং তার চারপাশে হাইলাইটের যোগ করা পাঠ্য, যা লক্ষ্য সারাংশ
সোর্স কোড :
tfds.summarization.CnnDailymail
সংস্করণ :
-
1.0.0
: নতুন স্প্লিট API ( https://tensorflow.org/datasets/splits ) 2.0.0
: নতুন লাইন দিয়ে টার্গেট বাক্য আলাদা করুন। (নতুন লাইন বিভাজকদের ভবিষ্যদ্বাণী করা মডেলটি সারাংশ-স্তরের ROUGE ব্যবহার করে মূল্যায়ন করা সহজ করে তোলে।)3.0.0
: কেসড সংস্করণ ব্যবহার করা।3.1.0
: সরানো হয়েছে BuilderConfig3.2.0
: যুক্ত বাক্যের আগে অতিরিক্ত স্থান সরান। এটি ROUGE স্কোরকে প্রভাবিত করবে না কারণ যতিচিহ্ন সরানো হয়েছে।3.3.0
: প্রকাশক বৈশিষ্ট্য যোগ করুন।3.4.0
(ডিফল্ট): ID বৈশিষ্ট্য যোগ করুন।
-
ডাউনলোডের আকার :
558.32 MiB
ডেটাসেটের আকার :
1.29 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 11,490 |
'train' | 287,113 |
'validation' | 13,368 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'article': Text(shape=(), dtype=string),
'highlights': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'publisher': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
নিবন্ধ | পাঠ্য | স্ট্রিং | ||
হাইলাইট | পাঠ্য | স্ট্রিং | ||
আইডি | পাঠ্য | স্ট্রিং | ||
প্রকাশক | পাঠ্য | স্ট্রিং |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc হিসাবে):('article', 'highlights')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{DBLP:journals/corr/SeeLM17,
author = {Abigail See and
Peter J. Liu and
Christopher D. Manning},
title = {Get To The Point: Summarization with Pointer-Generator Networks},
journal = {CoRR},
volume = {abs/1704.04368},
year = {2017},
url = {http://arxiv.org/abs/1704.04368},
archivePrefix = {arXiv},
eprint = {1704.04368},
timestamp = {Mon, 13 Aug 2018 16:46:08 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/SeeLM17},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
@inproceedings{hermann2015teaching,
title={Teaching machines to read and comprehend},
author={Hermann, Karl Moritz and Kocisky, Tomas and Grefenstette, Edward and Espeholt, Lasse and Kay, Will and Suleyman, Mustafa and Blunsom, Phil},
booktitle={Advances in neural information processing systems},
pages={1693--1701},
year={2015}
}