- विवरण :
इस डेटासेट में reddit के ~3M संदेश हैं। प्रत्येक संदेश को मेटाडेटा के साथ लेबल किया गया है। कार्य संबंधित थ्रेड में इसके मूल संदेश की आईडी की भविष्यवाणी करना है। प्रत्येक रिकॉर्ड में एक थ्रेड से संदेशों की एक सूची होती है। डुप्लिकेट और टूटे हुए रिकॉर्ड डेटासेट से हटा दिए जाते हैं।
विशेषताएं हैं:
- आईडी - संदेश आईडी
- पाठ - संदेश पाठ
- लेखक - संदेश लेखक
- create_utc - संदेश UTC टाइमस्टैम्प
- link_id - उस पोस्ट की आईडी जिससे टिप्पणी संबंधित है
लक्ष्य:
parent_id - वर्तमान थ्रेड में मूल संदेश की आईडी
होमपेज : https://github.com/henghuiz/MaskedHierarchicalTransformer
स्रोत कोड :
tfds.datasets.reddit_disentanglement.Builderसंस्करण :
-
2.0.0(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
Unknown sizeडेटासेट का आकार :
Unknown sizeमैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/) में डाउनलोड करना होगा:
https://github.com/henghuiz/MaskedHierarchicalTransformer डाउनलोड करें, raw_data.zip को डीकंप्रेस करें और अपने reddit api क्रेडेंशियल्स के साथ generate_dataset.py चलाएं। फिर मैन्युअल फ़ोल्डर में आउटपुट निर्देशिका से train.csv, val.csv और test.csv डालें।ऑटो-कैश्ड ( दस्तावेज़ीकरण ): अज्ञात
विभाजन :
| विभाजित करना | उदाहरण |
|---|
- फ़ीचर संरचना :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| धागा | क्रम | |||
| धागा/लेखक | मूलपाठ | डोरी | ||
| थ्रेड/बनाया_utc | मूलपाठ | डोरी | ||
| थ्रेड/आईडी | मूलपाठ | डोरी | ||
| थ्रेड/लिंक_आईडी | मूलपाठ | डोरी | ||
| धागा/parent_id | मूलपाठ | डोरी | ||
| धागा / पाठ | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):Noneचित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ): गुम।
उद्धरण :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}