reddit_disentanglement

  • विवरण :

इस डेटासेट में reddit के ~3M संदेश हैं। प्रत्येक संदेश को मेटाडेटा के साथ लेबल किया गया है। कार्य संबंधित थ्रेड में इसके मूल संदेश की आईडी की भविष्यवाणी करना है। प्रत्येक रिकॉर्ड में एक थ्रेड से संदेशों की एक सूची होती है। डुप्लिकेट और टूटे हुए रिकॉर्ड डेटासेट से हटा दिए जाते हैं।

विशेषताएं हैं:

  • आईडी - संदेश आईडी
  • पाठ - संदेश पाठ
  • लेखक - संदेश लेखक
  • create_utc - संदेश UTC टाइमस्टैम्प
  • link_id - उस पोस्ट की आईडी जिससे टिप्पणी संबंधित है

लक्ष्य:

  • parent_id - वर्तमान थ्रेड में मूल संदेश की आईडी

  • होमपेज : https://github.com/henghuiz/MaskedHierarchicalTransformer

  • स्रोत कोड : tfds.datasets.reddit_disentanglement.Builder

  • संस्करण :

    • 2.0.0 (डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
  • डाउनलोड आकार : Unknown size

  • डेटासेट का आकार : Unknown size

  • मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:
    https://github.com/henghuiz/MaskedHierarchicalTransformer डाउनलोड करें, raw_data.zip को डीकंप्रेस करें और अपने reddit api क्रेडेंशियल्स के साथ generate_dataset.py चलाएं। फिर मैन्युअल फ़ोल्डर में आउटपुट निर्देशिका से train.csv, val.csv और test.csv डालें।

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): अज्ञात

  • विभाजन :

विभाजित करना उदाहरण
  • फ़ीचर संरचना :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
धागा क्रम
धागा/लेखक मूलपाठ डोरी
थ्रेड/बनाया_utc मूलपाठ डोरी
थ्रेड/आईडी मूलपाठ डोरी
थ्रेड/लिंक_आईडी मूलपाठ डोरी
धागा/parent_id मूलपाठ डोरी
धागा / पाठ मूलपाठ डोरी
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उदाहरण ( tfds.as_dataframe ): गुम।

  • उद्धरण :

@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}