- विवरण :
बिगपेटेंट, जिसमें मानव लिखित अमूर्त सारांशों के साथ अमेरिकी पेटेंट दस्तावेजों के 1.3 मिलियन रिकॉर्ड शामिल हैं। प्रत्येक अमेरिकी पेटेंट आवेदन एक सहकारी पेटेंट वर्गीकरण (सीपीसी) कोड के तहत दायर किया जाता है। ऐसी नौ वर्गीकरण श्रेणियां हैं:
- ए (मानव आवश्यकताएँ),
- बी (संचालन करना; परिवहन करना),
- सी (रसायन विज्ञान; धातुकर्म),
- डी (कपड़ा; कागज),
- ई (फिक्स्ड कंस्ट्रक्शन),
- एफ (मैकेनिकल इंजीनियरिंग; बिजली; हीटिंग; हथियार; ब्लास्टिंग),
- जी (भौतिकी),
- एच (बिजली), और
- Y (नई या क्रॉस-सेक्शनल तकनीक की सामान्य टैगिंग)
इसमें दो विशेषताएं हैं:
- विवरण: पेटेंट का विस्तृत विवरण।
सारांश: पेटेंट सार।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले कागजात पर अन्वेषण करें
मुखपृष्ठ : https://evasharma.github.io/bigpatent/
स्रोत कोड :
tfds.datasets.big_patent.Builderसंस्करण :
-
1.0.0: छोटे अक्षर वाले सांकेतिक शब्द -
2.0.0: केस्ड रॉ स्ट्रिंग्स का उपयोग करने के लिए अद्यतन करें -
2.1.2(डिफ़ॉल्ट): केस्ड रॉ स्ट्रिंग्स के अपडेट को ठीक करें।
-
डाउनलोड आकार :
9.45 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
फ़ीचर संरचना :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
|---|---|---|---|---|
| फीचर्सडिक्ट | ||||
| अमूर्त | मूलपाठ | डोरी | ||
| विवरण | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):('description', 'abstract')चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/सभी (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िगरेशन विवरण : सभी श्रेणियों के अंतर्गत पेटेंट।
डेटासेट का आकार :
35.17 GiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 67,072 |
'train' | 1,207,222 |
'validation' | 67,068 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/a
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: मानव आवश्यकताएं
डेटासेट का आकार :
5.16 GiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 9,675 |
'train' | 174,134 |
'validation' | 9,674 |
- उदाहरण ( tfds.as_dataframe ):
बड़ा_पेटेंट/बी
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी)बी के तहत पेटेंट: परिचालन संचालन; परिवहन
डेटासेट का आकार :
4.06 GiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 8,974 |
'train' | 161,520 |
'validation' | 8,973 |
- उदाहरण ( tfds.as_dataframe ):
बड़ा_पेटेंट/सी
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: रसायन विज्ञान; धातुकर्म
डेटासेट का आकार :
3.63 GiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 5,614 |
'train' | 101,042 |
'validation' | 5,613 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/d
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: कपड़ा; कागज़
डेटासेट का आकार :
255.56 MiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 565 |
'train' | 10,164 |
'validation' | 565 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/e
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: निश्चित निर्माण
डेटासेट का आकार :
871.40 MiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 1,914 |
'train' | 34,443 |
'validation' | 1,914 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/f
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: मैकेनिकल इंजीनियरिंग; बिजली चमकना; गरम करना; हथियार, शस्त्र; नष्ट
डेटासेट का आकार :
2.06 GiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 4,754 |
'train' | 85,568 |
'validation' | 4,754 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/g
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: भौतिकी
डेटासेट का आकार :
8.19 GiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 14,386 |
'train' | 258,935 |
'validation' | 14,385 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/h
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: बिजली
डेटासेट का आकार :
7.50 GiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 14,279 |
'train' | 257,019 |
'validation' | 14,279 |
- उदाहरण ( tfds.as_dataframe ):
big_patent/y
कॉन्फ़िगरेशन विवरण : सहकारी पेटेंट वर्गीकरण (सीपीसी) के तहत पेटेंट: नई या क्रॉस-अनुभागीय प्रौद्योगिकी की सामान्य टैगिंग
डेटासेट का आकार :
3.46 GiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 6,911 |
'train' | 124,397 |
'validation' | 6,911 |
- उदाहरण ( tfds.as_dataframe ):