मीडिया_सम

विवरण :

इस बड़े पैमाने के मीडिया साक्षात्कार डेटासेट में अमूर्त सारांश के साथ 463.6K प्रतिलेख शामिल हैं, जो साक्षात्कार प्रतिलेखों और एनपीआर और सीएनएन से अवलोकन / विषय विवरण से एकत्र किए गए हैं।

कृपया इस डेटासेट के अपने उपयोग को केवल शोध के उद्देश्य तक सीमित रखें।

और कृपया हमारे पेपर का हवाला दें: MediaSum: डायलॉग समराइज़ेशन के लिए एक बड़े पैमाने पर मीडिया इंटरव्यू डेटासेट

नीति

हमने मीडिया स्रोतों से केवल सार्वजनिक रूप से उपलब्ध प्रतिलेख डेटा का उपयोग किया है और उनके केवल-अनुसंधान-उद्देश्य दिशानिर्देश का पालन करते हैं।

जैसा कि मीडिया और मेहमानों के पक्षपातपूर्ण विचार हो सकते हैं, प्रतिलिपि और सारांश में उन्हें शामिल करने की संभावना होगी। प्रतिलेख और सारांश की सामग्री केवल मीडिया और मेहमानों के विचारों को दर्शाती है, और इसे विवेक के साथ देखा जाना चाहिए।

होमपेज : https://github.com/zcgzcgzcg1/MediaSum
स्रोत कोड : tfds.datasets.media_sum.Builder
संस्करण :
- 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
डाउनलोड आकार : Unknown size
डेटासेट का आकार : 4.11 GiB
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:
मैन्युअल_डीआईआर में फाइलें होनी चाहिए:
- news_dialogue.json
- train_val_test_split.json

फ़ाइलों को डेटासेट के GitHub पेज से डाउनलोड और निकाला जा सकता है: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :

विभाजित करना	उदाहरण
`'test'`	10,000
`'train'`	443,596
`'val'`	10,000

फ़ीचर संरचना :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
तारीख	मूलपाठ		डोरी
पहचान	मूलपाठ		डोरी
कार्यक्रम	मूलपाठ		डोरी
वक्ता	अनुक्रम (पाठ)	(कोई नहीं,)	डोरी
सारांश	मूलपाठ		डोरी
यूआरएल	मूलपाठ		डोरी
उत्तर	अनुक्रम (पाठ)	(कोई नहीं,)	डोरी

पर्यवेक्षित कुंजियाँ ( as_supervised दस्तावेज़ देखें): ('utt', 'summary')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):

उद्धरण :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

मीडिया_सम संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.

नीति

मीडिया_सम