reddit_disentanglement

  • বর্ণনা :

এই ডেটাসেটে reddit থেকে ~3M বার্তা রয়েছে৷ প্রতিটি বার্তা মেটাডেটা দিয়ে লেবেল করা হয়. কাজটি সংশ্লিষ্ট থ্রেডে এর মূল বার্তাটির আইডি পূর্বাভাস দেওয়া। প্রতিটি রেকর্ডে একটি থ্রেড থেকে বার্তাগুলির একটি তালিকা রয়েছে। ডুপ্লিকেটেড এবং ভাঙা রেকর্ড ডেটাসেট থেকে মুছে ফেলা হয়।

বৈশিষ্ট্য হল:

  • আইডি - মেসেজ আইডি
  • পাঠ্য - বার্তা পাঠ্য
  • লেখক - বার্তা লেখক
  • create_utc - বার্তা UTC টাইমস্ট্যাম্প
  • link_id - মন্তব্যটি সম্পর্কিত পোস্টের আইডি

লক্ষ্য:

  • parent_id - বর্তমান থ্রেডে অভিভাবক বার্তার আইডি

  • হোমপেজ : https://github.com/henghuiz/MaskedHierarchicalTransformer

  • সোর্স কোড : tfds.datasets.reddit_disentanglement.Builder

  • সংস্করণ :

    • 2.0.0 (ডিফল্ট): কোনো রিলিজ নোট নেই।
  • ডাউনলোড আকার : Unknown size

  • ডেটাসেটের আকার : Unknown size

  • ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা download_config.manual_dir করতে হবে ( ~/tensorflow_datasets/downloads/manual/ ডিফল্ট):
    https://github.com/henghuiz/MaskedHierarchicalTransformer ডাউনলোড করুন, raw_data.zip ডিকম্প্রেস করুন এবং আপনার reddit api শংসাপত্রের সাথে generate_dataset.py চালান। তারপর আউটপুট ডিরেক্টরি থেকে train.csv, val.csv এবং test.csv ম্যানুয়াল ফোল্ডারে রাখুন।

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): অজানা

  • বিভাজন :

বিভক্ত উদাহরণ
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
থ্রেড ক্রম
থ্রেড/লেখক পাঠ্য স্ট্রিং
থ্রেড/created_utc পাঠ্য স্ট্রিং
থ্রেড/আইডি পাঠ্য স্ট্রিং
থ্রেড/লিঙ্ক_আইডি পাঠ্য স্ট্রিং
থ্রেড/parent_id পাঠ্য স্ট্রিং
থ্রেড/টেক্সট পাঠ্য স্ট্রিং
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদাহরণ ( tfds.as_dataframe ): অনুপস্থিত।

  • উদ্ধৃতি :

@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}