duży_patent

 • opis :

BIGPATENT, składający się z 1,3 miliona rekordów dokumentów patentowych USA wraz z abstraktami napisanymi przez ludzi. Każde zgłoszenie patentowe w USA jest składane zgodnie z kodem Cooperative Patent Classification (CPC). Istnieje dziewięć takich kategorii klasyfikacji:

 • A (potrzeby ludzkie),
 • B (Wykonywanie Operacji; Transport),
 • C (chemia; metalurgia),
 • D (tekstylia; papier),
 • E (konstrukcje stałe),
 • F (Inżynieria mechaniczna; Błyskawica; Ogrzewanie; Broń; Wysadzanie),
 • G (Fizyka),
 • H (elektryczność) i
 • Y (ogólne oznaczanie nowej lub przekrojowej technologii)

Istnieją dwie funkcje:

FeaturesDict({
  'abstract': Text(shape=(), dtype=string),
  'description': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
abstrakcyjny Tekst strunowy
opis Tekst strunowy
@misc{sharma2019bigpatent,
  title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
  author={Eva Sharma and Chen Li and Lu Wang},
  year={2019},
  eprint={1906.03741},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

big_patent/all (domyślna konfiguracja)

 • Opis konfiguracji : Patenty we wszystkich kategoriach.

 • Rozmiar zestawu danych : 35.17 GiB

 • Podziały :

Podział Przykłady
'test' 67072
'train' 1 207 222
'validation' 67068

duży_patent/a

 • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)a: Ludzkie potrzeby

 • Rozmiar zestawu danych : 5.16 GiB

 • Podziały :

Podział Przykłady
'test' 9675
'train' 174134
'validation' 9674

duży_patent/b

 • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)b: Wykonywanie operacji; Transport

 • Rozmiar zestawu danych : 4.06 GiB

 • Podziały :

Podział Przykłady
'test' 8974
'train' 161520
'validation' 8973

duży_patent/c

 • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)c: Chemia; Metalurgia

 • Rozmiar zestawu danych : 3.63 GiB

 • Podziały :

Podział Przykłady
'test' 5614
'train' 101042
'validation' 5613

duży_patent/d

 • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)d: Tekstylia; Papier

 • Rozmiar zestawu danych : 255.56 MiB

 • Podziały :

Podział Przykłady
'test' 565
'train' 10164
'validation' 565

duży_patent/e

 • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC): Konstrukcje stałe

 • Rozmiar zbioru danych : 871.40 MiB

 • Podziały :

Podział Przykłady
'test' 1914
'train' 34443
'validation' 1914

duży_patent/f

 • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)f: Inżynieria mechaniczna; Błyskawica; Ogrzewanie; Bronie; Strzałowy

 • Rozmiar zestawu danych : 2.06 GiB

 • Podziały :

Podział Przykłady
'test' 4754
'train' 85568
'validation' 4754

duży_patent/g

 • Opis konfiguracji : Patenty w ramach Spółdzielczej Klasyfikacji Patentów (CPC)g: Fizyka

 • Rozmiar zestawu danych : 8.19 GiB

 • Podziały :

Podział Przykłady
'test' 14386
'train' 258 935
'validation' 14385

duży_patent/h

 • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)h: Energia elektryczna

 • Rozmiar zestawu danych : 7.50 GiB

 • Podziały :

Podział Przykłady
'test' 14279
'train' 257 019
'validation' 14279

duży_patent/r

 • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)y: Ogólne oznaczanie nowej lub przekrojowej technologii

 • Rozmiar zestawu danych : 3.46 GiB

 • Podziały :

Podział Przykłady
'test' 6911
'train' 124397
'validation' 6911