أوراق علمية

  • الوصف :

تحتوي مجموعات بيانات الأوراق العلمية على مجموعتين من المستندات الطويلة والمنظمة. يتم الحصول على مجموعات البيانات من مستودعات ArXiv و PubMed OpenAccess.

كل من "arxiv" و "pubmed" لهما ميزتان:

'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
نبذة مختصرة نص سلسلة
مقالة - سلعة نص سلسلة
section_names نص سلسلة
  • المفاتيح الخاضعة للإشراف (انظر as_supervised doc ): ('article', 'abstract')

  • الشكل ( tfds.show_examples ): غير مدعوم.

Scientific_papers / arxiv (التكوين الافتراضي)

  • وصف التكوين : وثائق من مستودع ArXiv.

  • حجم مجموعة البيانات : 7.07 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 6440
'train' 203،037
'validation' 6436

Scientific_papers / منشورات

  • وصف التكوين : وثائق من مستودع PubMed.

  • حجم مجموعة البيانات : 2.34 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 6،658
'train' 11924
'validation' 6633