- विवरण :
इस बड़े पैमाने के मीडिया साक्षात्कार डेटासेट में अमूर्त सारांश के साथ 463.6K प्रतिलेख शामिल हैं, जो साक्षात्कार प्रतिलेखों और एनपीआर और सीएनएन से अवलोकन / विषय विवरण से एकत्र किए गए हैं।
कृपया इस डेटासेट के अपने उपयोग को केवल शोध के उद्देश्य तक सीमित रखें।
और कृपया हमारे पेपर का हवाला दें: MediaSum: डायलॉग समराइज़ेशन के लिए एक बड़े पैमाने पर मीडिया इंटरव्यू डेटासेट
नीति
हमने मीडिया स्रोतों से केवल सार्वजनिक रूप से उपलब्ध प्रतिलेख डेटा का उपयोग किया है और उनके केवल-अनुसंधान-उद्देश्य दिशानिर्देश का पालन करते हैं।
जैसा कि मीडिया और मेहमानों के पक्षपातपूर्ण विचार हो सकते हैं, प्रतिलिपि और सारांश में उन्हें शामिल करने की संभावना होगी। प्रतिलेख और सारांश की सामग्री केवल मीडिया और मेहमानों के विचारों को दर्शाती है, और इसे विवेक के साथ देखा जाना चाहिए।
स्रोत कोड :
tfds.datasets.media_sum.Builderसंस्करण :
-
1.0.0(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
Unknown sizeडेटासेट का आकार :
4.11 GiBमैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/) में डाउनलोड करना होगा:
मैन्युअल_डीआईआर में फाइलें होनी चाहिए:- news_dialogue.json
- train_val_test_split.json
फ़ाइलों को डेटासेट के GitHub पेज से डाउनलोड और निकाला जा सकता है: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 10,000 |
'train' | 443,596 |
'val' | 10,000 |
- फ़ीचर संरचना :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| तारीख | मूलपाठ | डोरी | ||
| पहचान | मूलपाठ | डोरी | ||
| कार्यक्रम | मूलपाठ | डोरी | ||
| वक्ता | अनुक्रम (पाठ) | (कोई नहीं,) | डोरी | |
| सारांश | मूलपाठ | डोरी | ||
| यूआरएल | मूलपाठ | डोरी | ||
| उत्तर | अनुक्रम (पाठ) | (कोई नहीं,) | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervisedदस्तावेज़ देखें):('utt', 'summary')चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}