- توضیحات :
این مجموعه داده حاوی 3 میلیون پیام از reddit است. هر پیام با متادیتا برچسب گذاری شده است. وظیفه پیش بینی شناسه پیام والد آن در رشته مربوطه است. هر رکورد حاوی لیستی از پیام های یک رشته است. رکوردهای تکراری و شکسته از مجموعه داده حذف می شوند.
ویژگی ها عبارتند از:
- شناسه - شناسه پیام
- متن - متن پیام
- نویسنده - نویسنده پیام
- create_utc - مهر زمانی UTC پیام دهید
- link_id - شناسه پستی که نظر به آن مربوط می شود
هدف:
parent_id - شناسه پیام والد در رشته فعلی
صفحه اصلی : https://github.com/henghuiz/MaskedHierarchicalTransformer
نسخه ها :
-
2.0.0
(پیشفرض): هیچ یادداشت انتشار وجود ندارد.
-
اندازه دانلود :
Unknown size
اندازه مجموعه داده :
Unknown size
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض~/tensorflow_datasets/downloads/manual/
):
https://github.com/henghuiz/MaskedHierarchicalTransformer را دانلود کنید، raw_data.zip را از حالت فشرده خارج کنید و با اعتبارنامه reddit api خود generate_dataset.py را اجرا کنید. سپس train.csv، val.csv و test.csv را از پوشه خروجی در پوشه manual قرار دهید.ذخیره خودکار ( اسناد ): ناشناخته
تقسیم ها :
شکاف | مثال ها |
---|
- ساختار ویژگی :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
نخ | توالی | |||
موضوع/نویسنده | متن | رشته | ||
thread/created_utc | متن | رشته | ||
موضوع / شناسه | متن | رشته | ||
thread/link_id | متن | رشته | ||
thread/parent_id | متن | رشته | ||
موضوع / متن | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ): وجود ندارد.
نقل قول :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}