वैज्ञानिक पेपर डेटासेट में लंबे और संरचित दस्तावेज़ों के दो सेट होते हैं। डेटासेट ArXiv और PubMed OpenAccess रिपॉजिटरी से प्राप्त किए जाते हैं।

"आर्क्सिव" और "पब्ड" दोनों में दो विशेषताएं हैं:

'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
सारांश मूलपाठ डोरी
लेख मूलपाठ डोरी
अनुभाग_नाम मूलपाठ डोरी
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): ('article', 'abstract')

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

वैज्ञानिक_पत्र/आर्क्सिव (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िग विवरण : ArXiv रिपॉजिटरी से दस्तावेज़।

  • डेटासेट का आकार : 7.07 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 6,440
'train' 203,037
'validation' 6,436


  • कॉन्फिग विवरण : पबमेड रिपॉजिटरी से दस्तावेज।

  • डेटासेट का आकार : 2.34 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 6,658
'train' 119,924
'validation' 6,633