paten_besar

  • Deskripsi :

BIGPATENT, terdiri dari 1,3 juta catatan dokumen paten AS bersama dengan ringkasan abstraksi tertulis manusia. Setiap aplikasi paten AS diajukan di bawah kode Cooperative Patent Classification (CPC). Ada sembilan kategori klasifikasi seperti itu:

  • A (Kebutuhan Manusia),
  • B (Melakukan Operasi; Mengangkut),
  • C (Kimia; Metalurgi),
  • D (Tekstil; Kertas),
  • E (Konstruksi Tetap),
  • F (Teknik Mesin; Petir; Pemanas; Senjata; Peledakan),
  • G (Fisika),
  • H (Listrik), dan
  • Y (Penandaan umum teknologi baru atau cross-sectional)

Ada dua fitur:

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
abstrak Teks rangkaian
keterangan Teks rangkaian
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (konfigurasi default)

  • Deskripsi konfigurasi : Paten di bawah semua kategori.

  • Ukuran dataset : 35.17 GiB

  • Perpecahan :

Membelah Contoh
'test' 67.072
'train' 1.207.222
'validation' 67.068

big_patent/a

  • Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)a: Kebutuhan Manusia

  • Ukuran dataset : 5.16 GiB

  • Perpecahan :

Membelah Contoh
'test' 9.675
'train' 174.134
'validation' 9.674

big_patent/b

  • Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)b: Melakukan Operasi; Mengangkut

  • Ukuran dataset : 4.06 GiB

  • Perpecahan :

Membelah Contoh
'test' 8.974
'train' 161.520
'validation' 8.973

big_patent/c

  • Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)c: Kimia; Metalurgi

  • Ukuran dataset : 3.63 GiB

  • Perpecahan :

Membelah Contoh
'test' 5.614
'train' 101.042
'validation' 5.613

big_patent/d

  • Deskripsi konfigurasi : Paten berdasarkan Cooperative Patent Classification (CPC)d: Tekstil; Kertas

  • Ukuran dataset : 255.56 MiB

  • Perpecahan :

Membelah Contoh
'test' 565
'train' 10.164
'validation' 565

big_patent/e

  • Deskripsi konfigurasi : Paten berdasarkan Cooperative Patent Classification (CPC)e: Fixed Constructions

  • Ukuran dataset : 871.40 MiB

  • Perpecahan :

Membelah Contoh
'test' 1.914
'train' 34.443
'validation' 1.914

big_patent/f

  • Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)f: Teknik Mesin; Petir; Pemanasan; Senjata; Peledakan

  • Ukuran dataset : 2.06 GiB

  • Perpecahan :

Membelah Contoh
'test' 4.754
'train' 85.568
'validation' 4.754

big_patent/g

  • Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)g: Fisika

  • Ukuran dataset : 8.19 GiB

  • Perpecahan :

Membelah Contoh
'test' 14.386
'train' 258.935
'validation' 14.385

big_patent/h

  • Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)h: Listrik

  • Ukuran dataset : 7.50 GiB

  • Perpecahan :

Membelah Contoh
'test' 14.279
'train' 257.019
'validation' 14.279

big_patent/y

  • Deskripsi konfigurasi : Paten berdasarkan Cooperative Patent Classification (CPC)y: Penandaan umum teknologi baru atau cross-sectional

  • Ukuran dataset : 3.46 GiB

  • Perpecahan :

Membelah Contoh
'test' 6.911
'train' 124.397
'validation' 6.911