ويكيهاو

  • الوصف :

WikiHow هي مجموعة بيانات جديدة واسعة النطاق تستخدم قاعدة المعرفة على الإنترنت WikiHow ( http://www.wikihow.com/ ).

هناك ميزتان: - نص: نصوص إجابات wikiHow. - العنوان: خطوط عريضة كخلاصة.

هناك نسختان منفصلتان: - الكل: يتألف من تسلسل جميع الفقرات مثل المقالات والخطوط العريضة كملخصات مرجعية. - سبتمبر: يتكون من كل فقرة وملخصها.

قم بتنزيل "wikihowAll.csv" و "wikihowSep.csv" من https://github.com/mahnazkoupaee/WikiHow-Dataset وضعها في المجلد اليدوي https://www.tensorflow.org/datasets/api_docs/python/tfds/ يتم توفير تقسيمات التنزيل / DownloadConfig Train / Validation / test من قبل المؤلفين. يتم تطبيق المعالجة المسبقة لإزالة المقالات القصيرة (طول الملخص <0.75 طول المقالة) وتنظيف الفواصل الإضافية.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

ويكي هاو / الكل (التكوين الافتراضي)

  • وصف التكوين : استخدم تسلسل جميع الفقرات كمقالات والخطوط الغامقة كملخصات مرجعية

  • حجم مجموعة البيانات : 531.56 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 5،577
'train' 157252
'validation' 5،599
  • هيكل الميزة :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
العنوان نص سلسلة
نص نص سلسلة
لقب نص سلسلة

ويكيهاو / سبتمبر

  • وصف التكوين : استخدم كل فقرة وملخصها.

  • حجم مجموعة البيانات : 1.07 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 37800
'train' 1،060،732
'validation' 37932
  • هيكل الميزة :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
العنوان نص سلسلة
نظرة عامة نص سلسلة
القسم نص سلسلة
نص نص سلسلة
لقب نص سلسلة