reddit_disentanglement

  • توضیحات :

این مجموعه داده حاوی 3 میلیون پیام از reddit است. هر پیام با متادیتا برچسب گذاری شده است. وظیفه پیش بینی شناسه پیام والد آن در رشته مربوطه است. هر رکورد حاوی لیستی از پیام های یک رشته است. رکوردهای تکراری و شکسته از مجموعه داده حذف می شوند.

ویژگی ها عبارتند از:

  • شناسه - شناسه پیام
  • متن - متن پیام
  • نویسنده - نویسنده پیام
  • create_utc - مهر زمانی UTC پیام دهید
  • link_id - شناسه پستی که نظر به آن مربوط می شود

هدف:

  • parent_id - شناسه پیام والد در رشته فعلی

  • صفحه اصلی : https://github.com/henghuiz/MaskedHierarchicalTransformer

  • کد منبع : tfds.datasets.reddit_disentanglement.Builder

  • نسخه ها :

    • 2.0.0 (پیش‌فرض): هیچ یادداشت انتشار وجود ندارد.
  • اندازه دانلود : Unknown size

  • اندازه مجموعه داده : Unknown size

  • دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):
    https://github.com/henghuiz/MaskedHierarchicalTransformer را دانلود کنید، raw_data.zip را از حالت فشرده خارج کنید و با اعتبارنامه reddit api خود generate_dataset.py را اجرا کنید. سپس train.csv، val.csv و test.csv را از پوشه خروجی در پوشه manual قرار دهید.

  • ذخیره خودکار ( اسناد ): ناشناخته

  • تقسیم ها :

شکاف مثال ها
  • ساختار ویژگی :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
نخ توالی
موضوع/نویسنده متن رشته
thread/created_utc متن رشته
موضوع / شناسه متن رشته
thread/link_id متن رشته
thread/parent_id متن رشته
موضوع / متن متن رشته
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}