- توضیحات :
BIGPATENT، شامل 1.3 میلیون رکورد از اسناد ثبت اختراع ایالات متحده به همراه خلاصه های انتزاعی نوشته شده توسط انسان است. هر درخواست ثبت اختراع ایالات متحده تحت یک کد طبقه بندی پتنت تعاونی (CPC) ثبت می شود. 9 طبقه بندی از این قبیل وجود دارد:
- الف (نیازهای انسانی)،
- ب (انجام عملیات، حمل و نقل)،
- ج (شیمی، متالورژی)،
- D (منسوجات؛ کاغذ)،
- E (ساختارهای ثابت)،
- F (مهندسی مکانیک، صاعقه، گرمایش، سلاح، انفجار)،
- G (فیزیک)،
- H (برق) و
- Y (برچسب گذاری عمومی فناوری جدید یا مقطعی)
دو ویژگی وجود دارد:
- توضیحات: شرح مفصل اختراع.
خلاصه: چکیده ثبت اختراع.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://evasharma.github.io/bigpatent/
کد منبع :
tfds.datasets.big_patent.Builder
نسخه ها :
-
1.0.0
: کلمات نشانه دار با حروف کوچک -
2.0.0
: به روز رسانی برای استفاده از رشته های خام -
2.1.2
(پیشفرض): اصلاح بهروزرسانی رشتههای خام.
-
حجم دانلود :
9.45 GiB
ذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
خلاصه | متن | رشته | ||
شرح | متن | رشته |
کلیدهای نظارت شده (نگاه کنید
as_supervised
doc ):('description', 'abstract')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (پیکربندی پیشفرض)
توضیحات پیکربندی : ثبت اختراعات تحت همه دسته ها.
حجم مجموعه داده :
35.17 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 67,072 |
'train' | 1,207,222 |
'validation' | 67,068 |
- مثالها ( tfds.as_dataframe ):
ثبت اختراع بزرگ/الف
توضیحات پیکربندی : اختراعات تحت طبقه بندی پتنت تعاونی (CPC)a: نیازهای انسانی
حجم مجموعه داده :
5.16 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 9,675 |
'train' | 174,134 |
'validation' | 9674 |
- مثالها ( tfds.as_dataframe ):
big_patent/b
توضیحات پیکربندی : پتنتهای تحت طبقهبندی پتنت تعاونی (CPC)b: انجام عملیات. حمل و نقل
حجم مجموعه داده :
4.06 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 8974 |
'train' | 161,520 |
'validation' | 8973 |
- مثالها ( tfds.as_dataframe ):
big_patent/c
توضیحات پیکربندی : ثبت اختراعات تحت طبقه بندی پتنت تعاونی (CPC)c: Chemistry; متالورژی
حجم مجموعه داده :
3.63 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 5,614 |
'train' | 101,042 |
'validation' | 5,613 |
- مثالها ( tfds.as_dataframe ):
big_patent/d
توضیحات پیکربندی : اختراعات تحت طبقه بندی پتنت تعاونی (CPC)d: منسوجات. کاغذ
حجم مجموعه داده :
255.56 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 565 |
'train' | 10,164 |
'validation' | 565 |
- مثالها ( tfds.as_dataframe ):
big_patent/e
توضیحات پیکربندی : ثبت اختراعات تحت طبقه بندی پتنت تعاونی (CPC)e: ساختارهای ثابت
حجم مجموعه داده :
871.40 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1,914 |
'train' | 34,443 |
'validation' | 1,914 |
- مثالها ( tfds.as_dataframe ):
big_patent/f
توضیحات پیکربندی : اختراعات تحت طبقه بندی پتنت تعاونی (CPC)f: مهندسی مکانیک. رعد و برق؛ گرمایش؛ سلاح؛ انفجار
حجم مجموعه داده :
2.06 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 4,754 |
'train' | 85,568 |
'validation' | 4,754 |
- مثالها ( tfds.as_dataframe ):
big_patent/g
توضیحات پیکربندی : اختراعات تحت طبقه بندی پتنت تعاونی (CPC)g: فیزیک
حجم مجموعه داده :
8.19 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 14,386 |
'train' | 258935 |
'validation' | 14,385 |
- مثالها ( tfds.as_dataframe ):
big_patent/h
توضیحات پیکربندی : اختراعات تحت طبقه بندی پتنت تعاونی (CPC)h: برق
حجم مجموعه داده :
7.50 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 14279 |
'train' | 257,019 |
'validation' | 14279 |
- مثالها ( tfds.as_dataframe ):
big_patent/y
توضیحات پیکربندی : ثبت اختراعات تحت طبقهبندی پتنت تعاونی (CPC)y: برچسبگذاری عمومی فناوری جدید یا مقطعی
حجم مجموعه داده :
3.46 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 6911 |
'train' | 124,397 |
'validation' | 6911 |
- مثالها ( tfds.as_dataframe ):