- Descrizione :
BIGPATENT, costituito da 1,3 milioni di registrazioni di documenti di brevetti statunitensi insieme a riassunti astrattivi scritti da persone. Ogni domanda di brevetto statunitense è depositata secondo un codice di classificazione dei brevetti cooperativi (CPC). Esistono nove categorie di classificazione di questo tipo:
- A (Necessità Umane),
- B (Esecuzione di operazioni; Trasporto),
- C (Chimica; Metallurgia),
- D (Tessile; Carta),
- E (costruzioni fisse),
- F (ingegneria meccanica; fulmini; riscaldamento; armi; esplosioni),
- SOL (Fisica),
- H (Elettricità), e
- Y (etichettatura generale di tecnologia nuova o trasversale)
Ci sono due caratteristiche:
- descrizione: descrizione dettagliata del brevetto.
sommario: Estratto del brevetto.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://evasharma.github.io/bigpatent/
Codice sorgente :
tfds.datasets.big_patent.Builder
Versioni :
-
1.0.0
: parole tokenizzate minuscole -
2.0.0
: aggiornamento per utilizzare stringhe grezze con maiuscole e minuscole -
2.1.2
(impostazione predefinita): correzione dell'aggiornamento alle stringhe grezze con maiuscole e minuscole.
-
Dimensioni del download :
9.45 GiB
Cache automatica ( documentazione ): No
Struttura delle caratteristiche :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
astratto | Testo | corda | ||
descrizione | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):('description', 'abstract')
Figura ( tfds.show_examples ): non supportato.
Citazione :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (configurazione predefinita)
Descrizione della configurazione : brevetti in tutte le categorie.
Dimensione del set di dati :
35.17 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 67.072 |
'train' | 1.207.222 |
'validation' | 67.068 |
- Esempi ( tfds.as_dataframe ):
grande_brevetto/a
Descrizione della configurazione : Brevetti in base alla classificazione dei brevetti cooperativi (CPC)a: Necessità umane
Dimensione del set di dati :
5.16 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 9.675 |
'train' | 174,134 |
'validation' | 9.674 |
- Esempi ( tfds.as_dataframe ):
grande_brevetto/b
Descrizione della configurazione : Brevetti secondo la classificazione dei brevetti cooperativi (CPC)b: esecuzione di operazioni; Trasporto
Dimensione del set di dati :
4.06 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 8.974 |
'train' | 161.520 |
'validation' | 8.973 |
- Esempi ( tfds.as_dataframe ):
grande_brevetto/c
Descrizione della configurazione : Brevetti secondo la Classificazione dei Brevetti Cooperativi (CPC)c: Chimica; Metallurgia
Dimensione del set di dati :
3.63 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 5.614 |
'train' | 101.042 |
'validation' | 5.613 |
- Esempi ( tfds.as_dataframe ):
grande_brevetto/d
Descrizione della configurazione : Brevetti secondo la classificazione dei brevetti cooperativi (CPC)d: Tessili; Carta
Dimensione del set di dati :
255.56 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 565 |
'train' | 10.164 |
'validation' | 565 |
- Esempi ( tfds.as_dataframe ):
grande_brevetto/e
Descrizione della configurazione : Brevetti secondo la classificazione dei brevetti cooperativi (CPC)e: costruzioni fisse
Dimensione del set di dati :
871.40 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.914 |
'train' | 34.443 |
'validation' | 1.914 |
- Esempi ( tfds.as_dataframe ):
brevetto_grande/f
Descrizione della configurazione : Brevetti in base alla classificazione dei brevetti cooperativi (CPC)f: ingegneria meccanica; Fulmine; Riscaldamento; Armi; Sabbiatura
Dimensione del set di dati :
2.06 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 4.754 |
'train' | 85.568 |
'validation' | 4.754 |
- Esempi ( tfds.as_dataframe ):
brevetto_grande/g
Descrizione della configurazione : Brevetti secondo la classificazione dei brevetti cooperativi (CPC)g: Fisica
Dimensione del set di dati :
8.19 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 14.386 |
'train' | 258.935 |
'validation' | 14.385 |
- Esempi ( tfds.as_dataframe ):
big_brevetto/h
Descrizione della configurazione : Brevetti secondo la classificazione dei brevetti cooperativi (CPC)h: Elettricità
Dimensione del set di dati :
7.50 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 14.279 |
'train' | 257.019 |
'validation' | 14.279 |
- Esempi ( tfds.as_dataframe ):
grande_brevetto/y
Descrizione della configurazione : Brevetti in base alla classificazione dei brevetti cooperativi (CPC)y: etichettatura generale di tecnologia nuova o trasversale
Dimensione del set di dati :
3.46 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 6.911 |
'train' | 124.397 |
'validation' | 6.911 |
- Esempi ( tfds.as_dataframe ):