reddit_tifu

توضیحات :

مجموعه داده Reddit، که در آن TIFU نام subbreddit /r/tifu را نشان می دهد. همانطور که در نشریه تعریف شده است، سبک "کوتاه" از عنوان به عنوان خلاصه و "طولان" از tldr به عنوان خلاصه استفاده می کند.

ویژگی ها شامل:

سند: ارسال متن بدون tldr.
tldr: خط tldr.
عنوان: عنوان کوتاه شده بدون tldr.
ups: رای موافق.
امتیاز: امتیاز.
num_comments: تعداد نظرات.
upvote_ratio: نسبت رأی مثبت.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/ctr4si/MMN
کد منبع : tfds.datasets.reddit_tifu.Builder
نسخه ها :
- 1.1.0 : سند خالی و رشته های خلاصه را حذف کنید.
- 1.1.1 : تقسیم‌های قطار، توسعه‌دهنده و آزمایش (80/10/10) را که در PEGASUS ( https://arxiv.org/abs/1912.08777 ) استفاده می‌شوند را در یک پیکربندی جداگانه اضافه کنید. اینها به‌طور تصادفی با استفاده از تابع تقسیم tfds ایجاد شده‌اند و برای اطمینان از اینکه نتایج در Reddit Tifu Long قابل تکرار و مقایسه هستند منتشر می‌شوند. همچنین id را به نقاط داده اضافه کنید.
- 1.1.2 (پیش‌فرض): تقسیم‌های تصحیح شده آپلود شده است.
ساختار ویژگی :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
اسناد	متن	رشته
شناسه	متن	رشته
num_comments	تانسور	float32
نمره	تانسور	float32
عنوان	متن	رشته
tldr	متن	رشته
بالا	تانسور	float32
upvote_ratio	تانسور	float32

شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :

@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (پیکربندی پیش‌فرض)

توضیحات پیکربندی : استفاده از عنوان به عنوان خلاصه.
حجم دانلود : 639.54 MiB
حجم مجموعه داده : 141.46 MiB
ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (قطار)
تقسیم ها :

شکاف	مثال ها
`'train'`	79,740

کلیدهای نظارت شده (به as_supervised نظارت شده مراجعه کنید): ('documents', 'title')
مثال‌ها ( tfds.as_dataframe ):

reddit_tifu/long

توضیحات پیکربندی : استفاده از TLDR به عنوان خلاصه.
حجم دانلود : 639.54 MiB
حجم مجموعه داده : 93.10 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'train'`	42,139

کلیدهای نظارت شده (نگاه کنید به as_supervised doc ): ('documents', 'tldr')
مثال‌ها ( tfds.as_dataframe ):

reddit_tifu/long_split

توضیحات پیکربندی : استفاده از TLDR به عنوان خلاصه و تقسیم قطار/تست/تکن بازگشت.
حجم دانلود : 639.94 MiB
حجم مجموعه داده : 93.10 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'test'`	4214
`'train'`	33711
`'validation'`	4214

کلیدهای نظارت شده (نگاه کنید به as_supervised doc ): ('documents', 'tldr')
مثال‌ها ( tfds.as_dataframe ):

reddit_tifu با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

reddit_tifu/short (پیکربندی پیش‌فرض)

reddit_tifu/long

reddit_tifu/long_split

reddit_tifu