reddit_tifu
সেভ করা পৃষ্ঠা গুছিয়ে রাখতে 'সংগ্রহ' ব্যবহার করুন
আপনার পছন্দ অনুযায়ী কন্টেন্ট সেভ করুন ও সঠিক বিভাগে রাখুন।
Reddit ডেটাসেট, যেখানে TIFU সাবব্রেডিট /r/tifu এর নাম নির্দেশ করে। প্রকাশনায় সংজ্ঞায়িত হিসাবে, শৈলী "ছোট" সারাংশ হিসাবে শিরোনাম ব্যবহার করে এবং "দীর্ঘ" সারাংশ হিসাবে tldr ব্যবহার করে।
বৈশিষ্ট্য অন্তর্ভুক্ত:
- নথি: tldr ছাড়া পাঠ্য পোস্ট করুন।
- tldr: tldr লাইন।
- শিরোনাম: টিএলডিআর ছাড়া শিরোনাম ছাঁটা।
- ups: আপভোট।
- স্কোর: স্কোর।
- সংখ্যা_মন্তব্য: মন্তব্যের সংখ্যা।
upvote_ratio: আপভোট অনুপাত।
অতিরিক্ত ডকুমেন্টেশন : north_east কোড সহ কাগজপত্রে অন্বেষণ করুন
হোমপেজ : https://github.com/ctr4si/MMN
সোর্স কোড : tfds.datasets.reddit_tifu.Builder
সংস্করণ :
-
1.1.0
: খালি নথি এবং সারাংশ স্ট্রিংগুলি সরান৷ -
1.1.1
: ট্রেন, ডেভ এবং টেস্ট (80/10/10) স্প্লিট যোগ করুন যা PEGASUS ( https://arxiv.org/abs/1912.08777 ) এ একটি পৃথক কনফিগারে ব্যবহার করা হয়। এগুলি এলোমেলোভাবে tfds স্প্লিট ফাংশন ব্যবহার করে তৈরি করা হয়েছে এবং Reddit Tifu Long এর ফলাফলগুলি পুনরুত্পাদনযোগ্য এবং তুলনাযোগ্য তা নিশ্চিত করার জন্য প্রকাশ করা হচ্ছে৷ এছাড়াও ডেটাপয়েন্টগুলিতে id
যুক্ত করুন৷ -
1.1.2
(ডিফল্ট): সংশোধন করা বিভক্ত আপলোড করা হয়েছে।
বৈশিষ্ট্য গঠন :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|
| ফিচারসডিক্ট | | | |
নথি | পাঠ্য | | স্ট্রিং | |
আইডি | পাঠ্য | | স্ট্রিং | |
সংখ্যা_মন্তব্য | টেনসর | | float32 | |
স্কোর | টেনসর | | float32 | |
শিরোনাম | পাঠ্য | | স্ট্রিং | |
tldr | পাঠ্য | | স্ট্রিং | |
ইউ। পি। এস | টেনসর | | float32 | |
আপভোট_অনুপাত | টেনসর | | float32 | |
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short (ডিফল্ট কনফিগারেশন)
কনফিগ বিবরণ : সারাংশ হিসাবে শিরোনাম ব্যবহার করে।
ডাউনলোড সাইজ : 639.54 MiB
ডেটাসেটের আকার : 141.46 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন shuffle_files=False
(ট্রেন)
বিভাজন :
বিভক্ত | উদাহরণ |
---|
'train' | 79,740 |
reddit_tifu/লং
কনফিগারেশনের বিবরণ : সারাংশ হিসাবে TLDR ব্যবহার করা।
ডাউনলোড সাইজ : 639.54 MiB
ডেটাসেটের আকার : 93.10 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|
'train' | 42,139 |
reddit_tifu/long_split
কনফিগারেশনের বিবরণ : সারাংশ হিসাবে TLDR ব্যবহার করা এবং ট্রেন/পরীক্ষা/দেব বিভক্ত করা।
ডাউনলোডের আকার : 639.94 MiB
ডেটাসেটের আকার : 93.10 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|
'test' | 4,214 |
'train' | 33,711 |
'validation' | 4,214 |
অন্য কিছু উল্লেখ না করা থাকলে, এই পৃষ্ঠার কন্টেন্ট Creative Commons Attribution 4.0 License-এর অধীনে এবং কোডের নমুনাগুলি Apache 2.0 License-এর অধীনে লাইসেন্স প্রাপ্ত। আরও জানতে, Google Developers সাইট নীতি দেখুন। Java হল Oracle এবং/অথবা তার অ্যাফিলিয়েট সংস্থার রেজিস্টার্ড ট্রেডমার্ক।
2022-12-23 UTC-তে শেষবার আপডেট করা হয়েছে।
[null,null,["2022-12-23 UTC-তে শেষবার আপডেট করা হয়েছে।"],[],[],null,["# reddit_tifu\n\n\u003cbr /\u003e\n\n- **Description**:\n\nReddit dataset, where TIFU denotes the name of subbreddit /r/tifu. As defined in\nthe publication, style \"short\" uses title as summary and \"long\" uses tldr as\nsummary.\n\nFeatures includes:\n\n- document: post text without tldr.\n- tldr: tldr line.\n- title: trimmed title without tldr.\n- ups: upvotes.\n- score: score.\n- num_comments: number of comments.\n- upvote_ratio: upvote ratio.\n\n- **Additional Documentation** :\n [Explore on Papers With Code\n north_east](https://paperswithcode.com/dataset/reddit-tifu)\n\n- **Homepage** : \u003chttps://github.com/ctr4si/MMN\u003e\n\n- **Source code** :\n [`tfds.datasets.reddit_tifu.Builder`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/datasets/reddit_tifu/reddit_tifu_dataset_builder.py)\n\n- **Versions**:\n\n - `1.1.0`: Remove empty document and summary strings.\n - `1.1.1`: Add train, dev and test (80/10/10) splits which are used in PEGASUS (\u003chttps://arxiv.org/abs/1912.08777\u003e) in a separate config. These were created randomly using the tfds split function and are being released to ensure that results on Reddit Tifu Long are reproducible and comparable.Also add `id` to the datapoints.\n - **`1.1.2`** (default): Corrected splits uploaded.\n- **Feature structure**:\n\n FeaturesDict({\n 'documents': Text(shape=(), dtype=string),\n 'id': Text(shape=(), dtype=string),\n 'num_comments': float32,\n 'score': float32,\n 'title': Text(shape=(), dtype=string),\n 'tldr': Text(shape=(), dtype=string),\n 'ups': float32,\n 'upvote_ratio': float32,\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|--------------|--------------|-------|---------|-------------|\n| | FeaturesDict | | | |\n| documents | Text | | string | |\n| id | Text | | string | |\n| num_comments | Tensor | | float32 | |\n| score | Tensor | | float32 | |\n| title | Text | | string | |\n| tldr | Text | | string | |\n| ups | Tensor | | float32 | |\n| upvote_ratio | Tensor | | float32 | |\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Citation**:\n\n @misc{kim2018abstractive,\n title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},\n author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},\n year={2018},\n eprint={1811.00783},\n archivePrefix={arXiv},\n primaryClass={cs.CL}\n }\n\nreddit_tifu/short (default config)\n----------------------------------\n\n- **Config description**: Using title as summary.\n\n- **Download size** : `639.54 MiB`\n\n- **Dataset size** : `141.46 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Only when `shuffle_files=False` (train)\n\n- **Splits**:\n\n| Split | Examples |\n|-----------|----------|\n| `'train'` | 79,740 |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('documents', 'title')`\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\nreddit_tifu/long\n----------------\n\n- **Config description**: Using TLDR as summary.\n\n- **Download size** : `639.54 MiB`\n\n- **Dataset size** : `93.10 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Yes\n\n- **Splits**:\n\n| Split | Examples |\n|-----------|----------|\n| `'train'` | 42,139 |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('documents', 'tldr')`\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\nreddit_tifu/long_split\n----------------------\n\n- **Config description**: Using TLDR as summary and return train/test/dev\n splits.\n\n- **Download size** : `639.94 MiB`\n\n- **Dataset size** : `93.10 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Yes\n\n- **Splits**:\n\n| Split | Examples |\n|----------------|----------|\n| `'test'` | 4,214 |\n| `'train'` | 33,711 |\n| `'validation'` | 4,214 |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('documents', 'tldr')`\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples..."]]