- Deskripsi :
BIGPATENT, terdiri dari 1,3 juta catatan dokumen paten AS bersama dengan ringkasan abstraksi tertulis manusia. Setiap aplikasi paten AS diajukan di bawah kode Cooperative Patent Classification (CPC). Ada sembilan kategori klasifikasi seperti itu:
- A (Kebutuhan Manusia),
- B (Melakukan Operasi; Mengangkut),
- C (Kimia; Metalurgi),
- D (Tekstil; Kertas),
- E (Konstruksi Tetap),
- F (Teknik Mesin; Petir; Pemanas; Senjata; Peledakan),
- G (Fisika),
- H (Listrik), dan
- Y (Penandaan umum teknologi baru atau cross-sectional)
Ada dua fitur:
- deskripsi: penjelasan rinci tentang paten.
ringkasan: Abstrak paten.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://evasharma.github.io/bigpatent/
Kode sumber :
tfds.datasets.big_patent.Builder
Versi :
-
1.0.0
: kata-kata token dengan huruf kecil -
2.0.0
: Perbarui untuk menggunakan string mentah cased -
2.1.2
(default): Perbaiki pembaruan untuk string mentah berselubung.
-
Ukuran unduhan :
9.45 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Struktur fitur :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
abstrak | Teks | rangkaian | ||
keterangan | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('description', 'abstract')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (konfigurasi default)
Deskripsi konfigurasi : Paten di bawah semua kategori.
Ukuran dataset :
35.17 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 67.072 |
'train' | 1.207.222 |
'validation' | 67.068 |
- Contoh ( tfds.as_dataframe ):
big_patent/a
Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)a: Kebutuhan Manusia
Ukuran dataset :
5.16 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 9.675 |
'train' | 174.134 |
'validation' | 9.674 |
- Contoh ( tfds.as_dataframe ):
big_patent/b
Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)b: Melakukan Operasi; Mengangkut
Ukuran dataset :
4.06 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 8.974 |
'train' | 161.520 |
'validation' | 8.973 |
- Contoh ( tfds.as_dataframe ):
big_patent/c
Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)c: Kimia; Metalurgi
Ukuran dataset :
3.63 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 5.614 |
'train' | 101.042 |
'validation' | 5.613 |
- Contoh ( tfds.as_dataframe ):
big_patent/d
Deskripsi konfigurasi : Paten berdasarkan Cooperative Patent Classification (CPC)d: Tekstil; Kertas
Ukuran dataset :
255.56 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 565 |
'train' | 10.164 |
'validation' | 565 |
- Contoh ( tfds.as_dataframe ):
big_patent/e
Deskripsi konfigurasi : Paten berdasarkan Cooperative Patent Classification (CPC)e: Fixed Constructions
Ukuran dataset :
871.40 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.914 |
'train' | 34.443 |
'validation' | 1.914 |
- Contoh ( tfds.as_dataframe ):
big_patent/f
Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)f: Teknik Mesin; Petir; Pemanasan; Senjata; Peledakan
Ukuran dataset :
2.06 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 4.754 |
'train' | 85.568 |
'validation' | 4.754 |
- Contoh ( tfds.as_dataframe ):
big_patent/g
Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)g: Fisika
Ukuran dataset :
8.19 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 14.386 |
'train' | 258.935 |
'validation' | 14.385 |
- Contoh ( tfds.as_dataframe ):
big_patent/h
Deskripsi konfigurasi : Paten di bawah Cooperative Patent Classification (CPC)h: Listrik
Ukuran dataset :
7.50 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 14.279 |
'train' | 257.019 |
'validation' | 14.279 |
- Contoh ( tfds.as_dataframe ):
big_patent/y
Deskripsi konfigurasi : Paten berdasarkan Cooperative Patent Classification (CPC)y: Penandaan umum teknologi baru atau cross-sectional
Ukuran dataset :
3.46 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.911 |
'train' | 124.397 |
'validation' | 6.911 |
- Contoh ( tfds.as_dataframe ):