- توضیحات :
NEWSROOM یک مجموعه داده بزرگ برای آموزش و ارزیابی سیستم های خلاصه سازی است. این شامل 1.3 میلیون مقاله و خلاصه نوشته شده توسط نویسندگان و سردبیران در اتاق خبر 38 نشریه بزرگ است.
ویژگی های مجموعه داده شامل:
- متن: متن خبر را وارد کنید.
- خلاصه: خلاصه برای اخبار.
و امکانات اضافی:
- عنوان: عنوان خبر.
- url: آدرس خبر.
- تاریخ: تاریخ مقاله.
- چگالی: چگالی استخراجی.
- پوشش: پوشش استخراجی.
- فشرده سازی: نسبت تراکم.
- density_bin: کم، متوسط، زیاد.
- coverage_bin: استخراجی، انتزاعی.
- compression_bin: کم، متوسط، زیاد.
این مجموعه داده در صورت درخواست قابل دانلود است. تمام محتویات "train.jsonl, dev.jsonl, test.jsonl" را در پوشه tfds از حالت فشرده خارج کنید.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://summari.es
کد منبع :
tfds.datasets.newsroom.Builderنسخه ها :
-
1.0.0(پیش فرض): بدون یادداشت انتشار.
-
اندازه دانلود :
Unknown sizeحجم مجموعه داده :
5.13 GiBدستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir(پیشفرض به~/tensorflow_datasets/downloads/manual/):
شما باید مجموعه داده را از https://summari.es/download/ دانلود کنید. صفحه وب نیاز به ثبت نام دارد. لطفا پس از دانلود فایل های dev.jsonl، test.jsonl و train.jsonl را در manual_dir قرار دهید.ذخیره خودکار ( اسناد ): خیر
تقسیمات :
| شکاف | مثال ها |
|---|---|
'test' | 108,862 |
'train' | 995,041 |
'validation' | 108,837 |
- ساختار ویژگی :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
| ویژگی | کلاس | شکل | نوع D | شرح |
|---|---|---|---|---|
| FeaturesDict | ||||
| فشرده سازی | تانسور | float32 | ||
| compression_bin | متن | رشته | ||
| پوشش | تانسور | float32 | ||
| پوشش_بین | متن | رشته | ||
| تاریخ | متن | رشته | ||
| تراکم | تانسور | float32 | ||
| density_bin | متن | رشته | ||
| خلاصه | متن | رشته | ||
| متن | متن | رشته | ||
| عنوان | متن | رشته | ||
| آدرس اینترنتی | متن | رشته |
کلیدهای نظارت شده (مشاهده
as_superviseddoc ):('text', 'summary')شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}