reddit_tifu
تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
مجموعة بيانات Reddit ، حيث تشير TIFU إلى اسم subbreddit / r / tifu. كما هو محدد في المنشور ، يستخدم النمط "قصير" العنوان كموجز ويستخدم "طويل" tldr كملخص.
تشمل الميزات:
- المستند: نص آخر بدون tldr.
- tldr: خط tldr.
- العنوان: قص العنوان بدون tldr.
- يو بي إس: التصويتات المؤيدة.
- النتيجة: النتيجة.
- num_comments: عدد التعليقات.
upvote_ratio: نسبة التصويت الإيجابي.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز north_east
الصفحة الرئيسية : https://github.com/ctr4si/MMN
كود المصدر : tfds.datasets.reddit_tifu.Builder
إصدارات :
-
1.1.0
: إزالة المستند الفارغ وسلاسل الملخص. -
1.1.1
: أضف تقسيمات train و dev و test (80/10/10) التي تُستخدم في PEGASUS ( https://arxiv.org/abs/1912.08777 ) في تكوين منفصل. تم إنشاء هذه بشكل عشوائي باستخدام وظيفة تقسيم tfds ويتم إصدارها للتأكد من أن النتائج على Reddit id
Long قابلة للتكرار وقابلة للمقارنة. أضف أيضًا معرفًا إلى نقاط البيانات. -
1.1.2
(افتراضي): تحميل الانقسامات المصححة.
هيكل الميزة :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
ميزة | فصل | شكل | نوع | وصف |
---|
| الميزات | | | |
مستندات | نص | | سلسلة | |
هوية شخصية | نص | | سلسلة | |
عدد_التعليقات | موتر | | تعويم 32 | |
نتيجة | موتر | | تعويم 32 | |
لقب | نص | | سلسلة | |
tldr | نص | | سلسلة | |
يو بي إس | موتر | | تعويم 32 | |
upvote_ratio | موتر | | تعويم 32 | |
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu / short (التكوين الافتراضي)
وصف التكوين : استخدام العنوان كموجز.
حجم التحميل : 639.54 MiB
حجم مجموعة البيانات : 141.46 MiB
التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون shuffle_files=False
(قطار)
الانقسامات :
انشق، مزق | أمثلة |
---|
'train' | 79.740 |
reddit_tifu / طويل
وصف التكوين : استخدام TLDR كملخص.
حجم التحميل : 639.54 MiB
حجم مجموعة البيانات : 93.10 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|
'train' | 42139 |
reddit_tifu / long_split
وصف التكوين : استخدام TLDR كملخص وتقسيم تدريب العودة / اختبار / مطور.
حجم التحميل : 639.94 MiB
حجم مجموعة البيانات : 93.10 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|
'test' | 4214 |
'train' | 33711 |
'validation' | 4214 |
إنّ محتوى هذه الصفحة مرخّص بموجب ترخيص Creative Commons Attribution 4.0 ما لم يُنصّ على خلاف ذلك، ونماذج الرموز مرخّصة بموجب ترخيص Apache 2.0. للاطّلاع على التفاصيل، يُرجى مراجعة سياسات موقع Google Developers. إنّ Java هي علامة تجارية مسجَّلة لشركة Oracle و/أو شركائها التابعين.
تاريخ التعديل الأخير: 2022-12-23 (حسب التوقيت العالمي المتفَّق عليه)
[null,null,["تاريخ التعديل الأخير: 2022-12-23 (حسب التوقيت العالمي المتفَّق عليه)"],[],[],null,["# reddit_tifu\n\n\u003cbr /\u003e\n\n- **Description**:\n\nReddit dataset, where TIFU denotes the name of subbreddit /r/tifu. As defined in\nthe publication, style \"short\" uses title as summary and \"long\" uses tldr as\nsummary.\n\nFeatures includes:\n\n- document: post text without tldr.\n- tldr: tldr line.\n- title: trimmed title without tldr.\n- ups: upvotes.\n- score: score.\n- num_comments: number of comments.\n- upvote_ratio: upvote ratio.\n\n- **Additional Documentation** :\n [Explore on Papers With Code\n north_east](https://paperswithcode.com/dataset/reddit-tifu)\n\n- **Homepage** : \u003chttps://github.com/ctr4si/MMN\u003e\n\n- **Source code** :\n [`tfds.datasets.reddit_tifu.Builder`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/datasets/reddit_tifu/reddit_tifu_dataset_builder.py)\n\n- **Versions**:\n\n - `1.1.0`: Remove empty document and summary strings.\n - `1.1.1`: Add train, dev and test (80/10/10) splits which are used in PEGASUS (\u003chttps://arxiv.org/abs/1912.08777\u003e) in a separate config. These were created randomly using the tfds split function and are being released to ensure that results on Reddit Tifu Long are reproducible and comparable.Also add `id` to the datapoints.\n - **`1.1.2`** (default): Corrected splits uploaded.\n- **Feature structure**:\n\n FeaturesDict({\n 'documents': Text(shape=(), dtype=string),\n 'id': Text(shape=(), dtype=string),\n 'num_comments': float32,\n 'score': float32,\n 'title': Text(shape=(), dtype=string),\n 'tldr': Text(shape=(), dtype=string),\n 'ups': float32,\n 'upvote_ratio': float32,\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|--------------|--------------|-------|---------|-------------|\n| | FeaturesDict | | | |\n| documents | Text | | string | |\n| id | Text | | string | |\n| num_comments | Tensor | | float32 | |\n| score | Tensor | | float32 | |\n| title | Text | | string | |\n| tldr | Text | | string | |\n| ups | Tensor | | float32 | |\n| upvote_ratio | Tensor | | float32 | |\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Citation**:\n\n @misc{kim2018abstractive,\n title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},\n author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},\n year={2018},\n eprint={1811.00783},\n archivePrefix={arXiv},\n primaryClass={cs.CL}\n }\n\nreddit_tifu/short (default config)\n----------------------------------\n\n- **Config description**: Using title as summary.\n\n- **Download size** : `639.54 MiB`\n\n- **Dataset size** : `141.46 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Only when `shuffle_files=False` (train)\n\n- **Splits**:\n\n| Split | Examples |\n|-----------|----------|\n| `'train'` | 79,740 |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('documents', 'title')`\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\nreddit_tifu/long\n----------------\n\n- **Config description**: Using TLDR as summary.\n\n- **Download size** : `639.54 MiB`\n\n- **Dataset size** : `93.10 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Yes\n\n- **Splits**:\n\n| Split | Examples |\n|-----------|----------|\n| `'train'` | 42,139 |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('documents', 'tldr')`\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\nreddit_tifu/long_split\n----------------------\n\n- **Config description**: Using TLDR as summary and return train/test/dev\n splits.\n\n- **Download size** : `639.94 MiB`\n\n- **Dataset size** : `93.10 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Yes\n\n- **Splits**:\n\n| Split | Examples |\n|----------------|----------|\n| `'test'` | 4,214 |\n| `'train'` | 33,711 |\n| `'validation'` | 4,214 |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('documents', 'tldr')`\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples..."]]