- توضیحات :
NEWSROOM یک مجموعه داده بزرگ برای آموزش و ارزیابی سیستم های خلاصه سازی است. این شامل 1.3 میلیون مقاله و خلاصه نوشته شده توسط نویسندگان و سردبیران در اتاق خبر 38 نشریه بزرگ است.
ویژگی های مجموعه داده شامل:
- متن: متن خبر را وارد کنید.
- خلاصه: خلاصه برای اخبار.
و امکانات اضافی:
- عنوان: عنوان خبر.
- url: آدرس خبر.
- تاریخ: تاریخ مقاله.
- چگالی: چگالی استخراجی.
- پوشش: پوشش استخراجی.
- فشرده سازی: نسبت تراکم.
- density_bin: کم، متوسط، زیاد.
- coverage_bin: استخراجی، انتزاعی.
- compression_bin: کم، متوسط، زیاد.
این مجموعه داده در صورت درخواست قابل دانلود است. تمام محتویات "train.jsonl, dev.jsonl, test.jsonl" را در پوشه tfds از حالت فشرده خارج کنید.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://summari.es
کد منبع :
tfds.datasets.newsroom.Builder
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
اندازه دانلود :
Unknown size
حجم مجموعه داده :
5.13 GiB
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض به~/tensorflow_datasets/downloads/manual/
):
شما باید مجموعه داده را از https://summari.es/download/ دانلود کنید. صفحه وب نیاز به ثبت نام دارد. لطفا پس از دانلود فایل های dev.jsonl، test.jsonl و train.jsonl را در manual_dir قرار دهید.ذخیره خودکار ( اسناد ): خیر
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 108,862 |
'train' | 995,041 |
'validation' | 108,837 |
- ساختار ویژگی :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فشرده سازی | تانسور | float32 | ||
compression_bin | متن | رشته | ||
پوشش | تانسور | float32 | ||
پوشش_بین | متن | رشته | ||
تاریخ | متن | رشته | ||
تراکم | تانسور | float32 | ||
density_bin | متن | رشته | ||
خلاصه | متن | رشته | ||
متن | متن | رشته | ||
عنوان | متن | رشته | ||
آدرس اینترنتی | متن | رشته |
کلیدهای نظارت شده (مشاهده
as_supervised
doc ):('text', 'summary')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}