اتاق خبر

توضیحات :

NEWSROOM یک مجموعه داده بزرگ برای آموزش و ارزیابی سیستم های خلاصه سازی است. این شامل 1.3 میلیون مقاله و خلاصه نوشته شده توسط نویسندگان و سردبیران در اتاق خبر 38 نشریه بزرگ است.

ویژگی های مجموعه داده شامل:

متن: متن خبر را وارد کنید.
خلاصه: خلاصه برای اخبار.

و امکانات اضافی:

عنوان: عنوان خبر.
url: آدرس خبر.
تاریخ: تاریخ مقاله.
چگالی: چگالی استخراجی.
پوشش: پوشش استخراجی.
فشرده سازی: نسبت تراکم.
density_bin: کم، متوسط، زیاد.
coverage_bin: استخراجی، انتزاعی.
compression_bin: کم، متوسط، زیاد.

این مجموعه داده در صورت درخواست قابل دانلود است. تمام محتویات "train.jsonl, dev.jsonl, test.jsonl" را در پوشه tfds از حالت فشرده خارج کنید.

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://summari.es
کد منبع : tfds.datasets.newsroom.Builder
نسخه ها :
- 1.0.0 (پیش فرض): بدون یادداشت انتشار.
اندازه دانلود : Unknown size
حجم مجموعه داده : 5.13 GiB
دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض به ~/tensorflow_datasets/downloads/manual/ ):
شما باید مجموعه داده را از https://summari.es/download/ دانلود کنید. صفحه وب نیاز به ثبت نام دارد. لطفا پس از دانلود فایل های dev.jsonl، test.jsonl و train.jsonl را در manual_dir قرار دهید.
ذخیره خودکار ( اسناد ): خیر
تقسیمات :

شکاف	مثال ها
`'test'`	108,862
`'train'`	995,041
`'validation'`	108,837

ساختار ویژگی :

FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
فشرده سازی	تانسور	float32
compression_bin	متن	رشته
پوشش	تانسور	float32
پوشش_بین	متن	رشته
تاریخ	متن	رشته
تراکم	تانسور	float32
density_bin	متن	رشته
خلاصه	متن	رشته
متن	متن	رشته
عنوان	متن	رشته
آدرس اینترنتی	متن	رشته

کلیدهای نظارت شده (مشاهده as_supervised doc ): ('text', 'summary')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}

اتاق خبر با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

اتاق خبر