- Descrição :
BIGPATENT, que consiste em 1,3 milhão de registros de documentos de patentes dos EUA, juntamente com resumos abstratos escritos por humanos. Cada pedido de patente nos EUA é arquivado sob um código de Classificação Cooperativa de Patentes (CPC). Existem nove categorias de classificação:
- A (Necessidades Humanas),
- B (Execução de Operações; Transporte),
- C (Química; Metalurgia),
- D (Têxteis; Papel),
- E (Construções Fixas),
- F (Engenharia Mecânica; Relâmpago; Aquecimento; Armas; Detonação),
- G (Física),
- H (Eletricidade) e
- Y (marcação geral de tecnologia nova ou transversal)
Existem duas características:
- descrição: descrição detalhada da patente.
resumo: Resumo da patente.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://evasharma.github.io/bigpatent/
Código-fonte :
tfds.datasets.big_patent.Builder
Versões :
-
1.0.0
: palavras tokenizadas em minúsculas -
2.0.0
: Atualização para usar strings brutas maiúsculas e minúsculas -
2.1.2
(padrão): correção de atualização para strings brutas com maiúsculas e minúsculas.
-
Tamanho do download :
9.45 GiB
Armazenado em cache automaticamente ( documentação ): Não
Estrutura de recursos :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- Documentação do recurso :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
abstrato | Texto | corda | ||
descrição | Texto | corda |
Chaves supervisionadas (consulte o documento
as_supervised
):('description', 'abstract')
Figura ( tfds.show_examples ): Não compatível.
Citação :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (configuração padrão)
Descrição da configuração : Patentes em todas as categorias.
Tamanho do conjunto de dados :
35.17 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 67.072 |
'train' | 1.207.222 |
'validation' | 67.068 |
- Exemplos ( tfds.as_dataframe ):
big_patent/a
Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)a: Necessidades Humanas
Tamanho do conjunto de dados :
5.16 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 9.675 |
'train' | 174.134 |
'validation' | 9.674 |
- Exemplos ( tfds.as_dataframe ):
patente_grande/b
Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)b: Operações de Execução; transportando
Tamanho do conjunto de dados :
4.06 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 8.974 |
'train' | 161.520 |
'validation' | 8.973 |
- Exemplos ( tfds.as_dataframe ):
patente_grande/c
Descrição de configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)c: Química; Metalurgia
Tamanho do conjunto de dados :
3.63 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 5.614 |
'train' | 101.042 |
'validation' | 5.613 |
- Exemplos ( tfds.as_dataframe ):
big_patent/d
Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)d: Têxteis; Papel
Tamanho do conjunto de dados :
255.56 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 565 |
'train' | 10.164 |
'validation' | 565 |
- Exemplos ( tfds.as_dataframe ):
big_patent/e
Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)e: Construções Fixas
Tamanho do conjunto de dados :
871.40 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.914 |
'train' | 34.443 |
'validation' | 1.914 |
- Exemplos ( tfds.as_dataframe ):
patente_grande/f
Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)f: Engenharia Mecânica; Raio; Aquecimento; Armas; Explosão
Tamanho do conjunto de dados :
2.06 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 4.754 |
'train' | 85.568 |
'validation' | 4.754 |
- Exemplos ( tfds.as_dataframe ):
patente_grande/g
Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)g: Física
Tamanho do conjunto de dados :
8.19 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 14.386 |
'train' | 258.935 |
'validation' | 14.385 |
- Exemplos ( tfds.as_dataframe ):
patente_grande/h
Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)h: Eletricidade
Tamanho do conjunto de dados :
7.50 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 14.279 |
'train' | 257.019 |
'validation' | 14.279 |
- Exemplos ( tfds.as_dataframe ):
big_patent/y
Descrição da configuração : Patentes sob Classificação Cooperativa de Patentes (CPC)y: Marcação geral de tecnologia nova ou transversal
Tamanho do conjunto de dados :
3.46 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 6.911 |
'train' | 124.397 |
'validation' | 6.911 |
- Exemplos ( tfds.as_dataframe ):