- توضیحات :
مجموعه داده Reddit، که در آن TIFU نام subbreddit /r/tifu را نشان می دهد. همانطور که در نشریه تعریف شده است، سبک "کوتاه" از عنوان به عنوان خلاصه و "طولان" از tldr به عنوان خلاصه استفاده می کند.
ویژگی ها شامل:
- سند: ارسال متن بدون tldr.
- tldr: خط tldr.
- عنوان: عنوان کوتاه شده بدون tldr.
- ups: رای موافق.
- امتیاز: امتیاز.
- num_comments: تعداد نظرات.
upvote_ratio: نسبت رأی مثبت.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/ctr4si/MMN
کد منبع :
tfds.datasets.reddit_tifu.Builder
نسخه ها :
-
1.1.0
: سند خالی و رشته های خلاصه را حذف کنید. -
1.1.1
: تقسیمهای قطار، توسعهدهنده و آزمایش (80/10/10) را که در PEGASUS ( https://arxiv.org/abs/1912.08777 ) استفاده میشوند را در یک پیکربندی جداگانه اضافه کنید. اینها بهطور تصادفی با استفاده از تابع تقسیم tfds ایجاد شدهاند و برای اطمینان از اینکه نتایج در Reddit Tifu Long قابل تکرار و مقایسه هستند منتشر میشوند. همچنینid
را به نقاط داده اضافه کنید. -
1.1.2
(پیشفرض): تقسیمهای تصحیح شده آپلود شده است.
-
ساختار ویژگی :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
اسناد | متن | رشته | ||
شناسه | متن | رشته | ||
num_comments | تانسور | float32 | ||
نمره | تانسور | float32 | ||
عنوان | متن | رشته | ||
tldr | متن | رشته | ||
بالا | تانسور | float32 | ||
upvote_ratio | تانسور | float32 |
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short (پیکربندی پیشفرض)
توضیحات پیکربندی : استفاده از عنوان به عنوان خلاصه.
حجم دانلود :
639.54 MiB
حجم مجموعه داده :
141.46 MiB
ذخیره خودکار ( مستندات ): فقط زمانی که
shuffle_files=False
(قطار)تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 79,740 |
کلیدهای نظارت شده (به
as_supervised
نظارت شده مراجعه کنید):('documents', 'title')
مثالها ( tfds.as_dataframe ):
reddit_tifu/long
توضیحات پیکربندی : استفاده از TLDR به عنوان خلاصه.
حجم دانلود :
639.54 MiB
حجم مجموعه داده :
93.10 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 42,139 |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('documents', 'tldr')
مثالها ( tfds.as_dataframe ):
reddit_tifu/long_split
توضیحات پیکربندی : استفاده از TLDR به عنوان خلاصه و تقسیم قطار/تست/تکن بازگشت.
حجم دانلود :
639.94 MiB
حجم مجموعه داده :
93.10 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 4214 |
'train' | 33711 |
'validation' | 4214 |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('documents', 'tldr')
مثالها ( tfds.as_dataframe ):