- الوصف :
WikiHow هي مجموعة بيانات جديدة واسعة النطاق تستخدم قاعدة المعرفة على الإنترنت WikiHow ( http://www.wikihow.com/ ).
هناك ميزتان: - نص: نصوص إجابات wikiHow. - العنوان: خطوط عريضة كخلاصة.
هناك نسختان منفصلتان: - الكل: يتألف من تسلسل جميع الفقرات مثل المقالات والخطوط العريضة كملخصات مرجعية. - سبتمبر: يتكون من كل فقرة وملخصها.
قم بتنزيل "wikihowAll.csv" و "wikihowSep.csv" من https://github.com/mahnazkoupaee/WikiHow-Dataset وضعها في المجلد اليدوي https://www.tensorflow.org/datasets/api_docs/python/tfds/ يتم توفير تقسيمات التنزيل / DownloadConfig Train / Validation / test من قبل المؤلفين. يتم تطبيق المعالجة المسبقة لإزالة المقالات القصيرة (طول الملخص <0.75 طول المقالة) وتنظيف الفواصل الإضافية.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/mahnazkoupaee/WikiHow-Dataset
كود المصدر :
tfds.summarization.Wikihow
إصدارات :
-
1.2.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التحميل :
5.21 MiB
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعدادات الافتراضية على~/tensorflow_datasets/downloads/manual/
):
يمكن العثور على روابط الملفات على https://github.com/mahnazkoupaee/WikiHow-Dataset يرجى تنزيل كل من wikihowAll.csv و wikihowSep.csv.التخزين المؤقت التلقائي ( التوثيق ): لا
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('text', 'headline')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
ويكي هاو / الكل (التكوين الافتراضي)
وصف التكوين : استخدم تسلسل جميع الفقرات كمقالات والخطوط الغامقة كملخصات مرجعية
حجم مجموعة البيانات :
531.56 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 5،577 |
'train' | 157252 |
'validation' | 5،599 |
- هيكل الميزة :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
العنوان | نص | سلسلة | ||
نص | نص | سلسلة | ||
لقب | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):
ويكيهاو / سبتمبر
وصف التكوين : استخدم كل فقرة وملخصها.
حجم مجموعة البيانات :
1.07 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 37800 |
'train' | 1،060،732 |
'validation' | 37932 |
- هيكل الميزة :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
العنوان | نص | سلسلة | ||
نظرة عامة | نص | سلسلة | ||
القسم | نص | سلسلة | ||
نص | نص | سلسلة | ||
لقب | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):