big_patent

  • Descrição :

BIGPATENT, que consiste em 1,3 milhão de registros de documentos de patentes dos EUA, juntamente com resumos abstratos escritos por humanos. Cada pedido de patente nos EUA é arquivado sob um código de Classificação Cooperativa de Patentes (CPC). Existem nove categorias de classificação:

  • A (Necessidades Humanas),
  • B (Execução de Operações; Transporte),
  • C (Química; Metalurgia),
  • D (Têxteis; Papel),
  • E (Construções Fixas),
  • F (Engenharia Mecânica; Relâmpago; Aquecimento; Armas; Detonação),
  • G (Física),
  • H (Eletricidade) e
  • Y (marcação geral de tecnologia nova ou transversal)

Existem duas características:

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})
  • Documentação do recurso :
Recurso Aula Forma Tipo D Descrição
RecursosDict
abstrato Texto corda
descrição Texto corda
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (configuração padrão)

  • Descrição da configuração : Patentes em todas as categorias.

  • Tamanho do conjunto de dados : 35.17 GiB

  • Divisões :

Dividir Exemplos
'test' 67.072
'train' 1.207.222
'validation' 67.068

big_patent/a

  • Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)a: Necessidades Humanas

  • Tamanho do conjunto de dados : 5.16 GiB

  • Divisões :

Dividir Exemplos
'test' 9.675
'train' 174.134
'validation' 9.674

patente_grande/b

  • Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)b: Operações de Execução; transportando

  • Tamanho do conjunto de dados : 4.06 GiB

  • Divisões :

Dividir Exemplos
'test' 8.974
'train' 161.520
'validation' 8.973

patente_grande/c

  • Descrição de configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)c: Química; Metalurgia

  • Tamanho do conjunto de dados : 3.63 GiB

  • Divisões :

Dividir Exemplos
'test' 5.614
'train' 101.042
'validation' 5.613

big_patent/d

  • Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)d: Têxteis; Papel

  • Tamanho do conjunto de dados : 255.56 MiB

  • Divisões :

Dividir Exemplos
'test' 565
'train' 10.164
'validation' 565

big_patent/e

  • Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)e: Construções Fixas

  • Tamanho do conjunto de dados : 871.40 MiB

  • Divisões :

Dividir Exemplos
'test' 1.914
'train' 34.443
'validation' 1.914

patente_grande/f

  • Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)f: Engenharia Mecânica; Raio; Aquecimento; Armas; Explosão

  • Tamanho do conjunto de dados : 2.06 GiB

  • Divisões :

Dividir Exemplos
'test' 4.754
'train' 85.568
'validation' 4.754

patente_grande/g

  • Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)g: Física

  • Tamanho do conjunto de dados : 8.19 GiB

  • Divisões :

Dividir Exemplos
'test' 14.386
'train' 258.935
'validation' 14.385

patente_grande/h

  • Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)h: Eletricidade

  • Tamanho do conjunto de dados : 7.50 GiB

  • Divisões :

Dividir Exemplos
'test' 14.279
'train' 257.019
'validation' 14.279

big_patent/y

  • Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)y: Marcação geral de tecnologia nova ou transversal

  • Tamanho do conjunto de dados : 3.46 GiB

  • Divisões :

Dividir Exemplos
'test' 6.911
'train' 124.397
'validation' 6.911