- বর্ণনা :
BIGPATENT, মানুষের লিখিত বিমূর্ত সারাংশ সহ মার্কিন পেটেন্ট নথির 1.3 মিলিয়ন রেকর্ড সমন্বিত। প্রতিটি মার্কিন পেটেন্ট আবেদন একটি সমবায় পেটেন্ট ক্লাসিফিকেশন (CPC) কোডের অধীনে দায়ের করা হয়। এই ধরনের নয়টি শ্রেণীবিভাগ রয়েছে:
- A (মানবীয় প্রয়োজনীয়তা),
- B (পারফর্মিং অপারেশনস; ট্রান্সপোর্টিং),
- সি (রসায়ন; ধাতুবিদ্যা),
- ডি (টেক্সটাইল; কাগজ),
- ই (স্থির নির্মাণ),
- F (মেকানিক্যাল ইঞ্জিনিয়ারিং; লাইটনিং; হিটিং; অস্ত্র; বিস্ফোরণ),
- জি (পদার্থবিদ্যা),
- এইচ (বিদ্যুৎ), এবং
- Y (নতুন বা ক্রস-বিভাগীয় প্রযুক্তির সাধারণ ট্যাগিং)
দুটি বৈশিষ্ট্য আছে:
- বর্ণনা: পেটেন্টের বিস্তারিত বিবরণ।
সারাংশ: পেটেন্ট বিমূর্ত।
সোর্স কোড :
tfds.datasets.big_patent.Builder
সংস্করণ :
-
1.0.0
: ছোট হাতের টোকেনাইজড শব্দ -
2.0.0
: কেসড কাঁচা স্ট্রিং ব্যবহার করার জন্য আপডেট করুন -
2.1.2
(ডিফল্ট): কেসড কাঁচা স্ট্রিংগুলিতে আপডেট ঠিক করুন।
-
ডাউনলোড সাইজ :
9.45 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বৈশিষ্ট্য গঠন :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
বিমূর্ত | পাঠ্য | স্ট্রিং | ||
বর্ণনা | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('description', 'abstract')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : সমস্ত বিভাগের অধীনে পেটেন্ট।
ডেটাসেটের আকার :
35.17 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 67,072 |
'train' | 1,207,222 |
'validation' | 67,068 |
- উদাহরণ ( tfds.as_dataframe ):
big_patent/a
কনফিগার বিবরণ : সমবায় পেটেন্ট শ্রেণীবিভাগের অধীনে পেটেন্ট (CPC)a: মানুষের প্রয়োজনীয়তা
ডেটাসেটের আকার :
5.16 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 9,675 |
'train' | 174,134 |
'validation' | ৯,৬৭৪ |
- উদাহরণ ( tfds.as_dataframe ):
big_patent/b
কনফিগারেশনের বিবরণ : কোঅপারেটিভ পেটেন্ট ক্লাসিফিকেশন (CPC)-এর অধীনে পেটেন্ট: পারফর্মিং অপারেশন; পরিবহন
ডেটাসেটের আকার :
4.06 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৮,৯৭৪ |
'train' | 161,520 |
'validation' | ৮,৯৭৩ |
- উদাহরণ ( tfds.as_dataframe ):
big_patent/c
কনফিগার বিবরণ : সমবায় পেটেন্ট শ্রেণীবিভাগের অধীনে পেটেন্ট (CPC)c: রসায়ন; ধাতুবিদ্যা
ডেটাসেটের আকার :
3.63 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৫,৬১৪ |
'train' | 101,042 |
'validation' | ৫,৬১৩ |
- উদাহরণ ( tfds.as_dataframe ):
big_patent/d
কনফিগারেশনের বিবরণ : কোঅপারেটিভ পেটেন্ট ক্লাসিফিকেশন (CPC)d এর অধীনে পেটেন্ট: টেক্সটাইল; কাগজ
ডেটাসেটের আকার :
255.56 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 565 |
'train' | 10,164 |
'validation' | 565 |
- উদাহরণ ( tfds.as_dataframe ):
big_patent/e
কনফিগারেশনের বিবরণ : সমবায় পেটেন্ট ক্লাসিফিকেশন (CPC) এর অধীনে পেটেন্ট: স্থির নির্মাণ
ডেটাসেটের আকার :
871.40 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,914 |
'train' | 34,443 |
'validation' | 1,914 |
- উদাহরণ ( tfds.as_dataframe ):
big_patent/f
কনফিগারের বিবরণ : কোঅপারেটিভ পেটেন্ট ক্লাসিফিকেশন (CPC)এর অধীনে পেটেন্ট f: মেকানিক্যাল ইঞ্জিনিয়ারিং; বজ্র; গরম করার; অস্ত্র; বিস্ফোরণ
ডেটাসেটের আকার :
2.06 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 4,754 |
'train' | ৮৫,৫৬৮ |
'validation' | 4,754 |
- উদাহরণ ( tfds.as_dataframe ):
big_patent/g
কনফিগার বিবরণ : সমবায় পেটেন্ট ক্লাসিফিকেশন (CPC)g: পদার্থবিদ্যার অধীনে পেটেন্ট
ডেটাসেটের আকার :
8.19 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 14,386 |
'train' | 258,935 |
'validation' | 14,385 |
- উদাহরণ ( tfds.as_dataframe ):
big_patent/h
কনফিগার বিবরণ : সমবায় পেটেন্ট শ্রেণীবিভাগের অধীনে পেটেন্ট (CPC)h: বিদ্যুৎ
ডেটাসেটের আকার :
7.50 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 14,279 |
'train' | 257,019 |
'validation' | 14,279 |
- উদাহরণ ( tfds.as_dataframe ):
big_patent/y
কনফিগারেশনের বিবরণ : কোঅপারেটিভ পেটেন্ট ক্লাসিফিকেশন (CPC)y-এর অধীনে পেটেন্ট: নতুন বা ক্রস-বিভাগীয় প্রযুক্তির সাধারণ ট্যাগিং
ডেটাসেটের আকার :
3.46 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 6,911 |
'train' | 124,397 |
'validation' | 6,911 |
- উদাহরণ ( tfds.as_dataframe ):