reddit_tifu

বর্ণনা :

Reddit ডেটাসেট, যেখানে TIFU সাবব্রেডিট /r/tifu এর নাম নির্দেশ করে। প্রকাশনায় সংজ্ঞায়িত হিসাবে, শৈলী "ছোট" সারাংশ হিসাবে শিরোনাম ব্যবহার করে এবং "দীর্ঘ" সারাংশ হিসাবে tldr ব্যবহার করে।

বৈশিষ্ট্য অন্তর্ভুক্ত:

নথি: tldr ছাড়া পাঠ্য পোস্ট করুন।
tldr: tldr লাইন।
শিরোনাম: টিএলডিআর ছাড়া শিরোনাম ছাঁটা।
ups: আপভোট।
স্কোর: স্কোর।
সংখ্যা_মন্তব্য: মন্তব্যের সংখ্যা।
upvote_ratio: আপভোট অনুপাত।
অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন
হোমপেজ : https://github.com/ctr4si/MMN
সোর্স কোড : tfds.datasets.reddit_tifu.Builder
সংস্করণ :
- 1.1.0 : খালি নথি এবং সারাংশ স্ট্রিংগুলি সরান৷
- 1.1.1 : ট্রেন, ডেভ এবং টেস্ট (80/10/10) স্প্লিট যোগ করুন যা PEGASUS ( https://arxiv.org/abs/1912.08777 ) এ একটি পৃথক কনফিগারে ব্যবহার করা হয়। এগুলি এলোমেলোভাবে tfds স্প্লিট ফাংশন ব্যবহার করে তৈরি করা হয়েছে এবং Reddit Tifu Long এর ফলাফলগুলি পুনরুত্পাদনযোগ্য এবং তুলনাযোগ্য তা নিশ্চিত করার জন্য প্রকাশ করা হচ্ছে৷ এছাড়াও ডেটাপয়েন্টগুলিতে id যুক্ত করুন৷
- 1.1.2 (ডিফল্ট): সংশোধন করা বিভক্ত আপলোড করা হয়েছে।
বৈশিষ্ট্য গঠন :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	ডিটাইপ
	ফিচারসডিক্ট
নথি	পাঠ্য	স্ট্রিং
আইডি	পাঠ্য	স্ট্রিং
সংখ্যা_মন্তব্য	টেনসর	float32
স্কোর	টেনসর	float32
শিরোনাম	পাঠ্য	স্ট্রিং
tldr	পাঠ্য	স্ট্রিং
ইউ। পি। এস	টেনসর	float32
আপভোট_অনুপাত	টেনসর	float32

চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :

@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (ডিফল্ট কনফিগারেশন)

কনফিগ বিবরণ : সারাংশ হিসাবে শিরোনাম ব্যবহার করে।
ডাউনলোড সাইজ : 639.54 MiB
ডেটাসেটের আকার : 141.46 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন shuffle_files=False (ট্রেন)
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	79,740

তত্ত্বাবধানে থাকা কী ( as_supervised doc ): ('documents', 'title')
উদাহরণ ( tfds.as_dataframe ):

reddit_tifu/লং

কনফিগারেশনের বিবরণ : সারাংশ হিসাবে TLDR ব্যবহার করা।
ডাউনলোড সাইজ : 639.54 MiB
ডেটাসেটের আকার : 93.10 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	42,139

তত্ত্বাবধানে থাকা কী ( as_supervised doc হিসাবে ): ('documents', 'tldr')
উদাহরণ ( tfds.as_dataframe ):

reddit_tifu/long_split

কনফিগারেশনের বিবরণ : সারাংশ হিসাবে TLDR ব্যবহার করা এবং ট্রেন/পরীক্ষা/দেব বিভক্ত করা।
ডাউনলোডের আকার : 639.94 MiB
ডেটাসেটের আকার : 93.10 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'test'`	4,214
`'train'`	33,711
`'validation'`	4,214

তত্ত্বাবধানে থাকা কী ( as_supervised doc হিসাবে ): ('documents', 'tldr')
উদাহরণ ( tfds.as_dataframe ):

reddit_tifu সেভ করা পৃষ্ঠা গুছিয়ে রাখতে 'সংগ্রহ' ব্যবহার করুন আপনার পছন্দ অনুযায়ী কন্টেন্ট সেভ করুন ও সঠিক বিভাগে রাখুন।

reddit_tifu/short (ডিফল্ট কনফিগারেশন)

reddit_tifu/লং

reddit_tifu/long_split

reddit_tifu