- বর্ণনা :
একটি মেডিকেল সংক্ষিপ্ত বিবরণ সম্প্রসারণ ডেটাসেট যা C4 ডেটাসেটে ওয়েব-স্কেল রিভার্স প্রতিস্থাপন (wsrs) প্রয়োগ করে, যা কমন ক্রলের ওয়েব ক্রল কর্পাসের একটি বিশাল, পরিষ্কার সংস্করণ।
মূল উৎস হল কমন ক্রল ডেটাসেট: https://commoncrawl.org
কনফিগার বিবরণ : ডিফল্ট C4-WSRS ডেটাসেট।
হোমপেজ : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
সোর্স কোড :
tfds.text.c4_wsrs.C4WSRS
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড সাইজ :
143.01 KiB
ডেটাসেটের আকার :
5.84 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 9,575,852 |
'validation' | 991,422 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
সংক্ষিপ্ত_স্নিপেট | পাঠ্য | স্ট্রিং | ||
original_snippet | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :