বৈজ্ঞানিক কাগজপত্র ডেটাসেটে দীর্ঘ এবং কাঠামোগত নথির দুটি সেট রয়েছে। ডেটাসেটগুলি ArXiv এবং PubMed OpenAccess সংগ্রহস্থল থেকে প্রাপ্ত হয়।

"আর্ক্সিভ" এবং "পাবমেড" উভয়েরই দুটি বৈশিষ্ট্য রয়েছে:

'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
বিমূর্ত পাঠ্য স্ট্রিং
নিবন্ধ পাঠ্য স্ট্রিং
বিভাগ_নাম পাঠ্য স্ট্রিং
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): ('article', 'abstract')

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

scientific_papers/arxiv (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : ArXiv সংগ্রহস্থল থেকে নথি।

  • ডেটাসেটের আকার : 7.07 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 6,440
'train' 203,037
'validation' ৬,৪৩৬


  • কনফিগারেশনের বিবরণ : PubMed সংগ্রহস্থল থেকে নথি।

  • ডেটাসেটের আকার : 2.34 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ৬,৬৫৮
'train' 119,924
'validation' ৬,৬৩৩