- Descrição :
Um conjunto de dados de expansão de abreviação médica que aplica substituição reversa em escala da web (wsrs) ao conjunto de dados C4, que é uma versão colossal e limpa do corpus de rastreamento da web do Common Crawl.
A fonte original é o conjunto de dados Common Crawl: https://commoncrawl.org
Descrição da configuração : Conjunto de dados C4-WSRS padrão.
Página inicial : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
Código -fonte:
tfds.text.c4_wsrs.C4WSRS
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
143.01 KiB
Tamanho do conjunto de dados :
5.84 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9.575.852 |
'validation' | 991.422 |
- Estrutura de recursos :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Funcionalidade | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
trecho_abreviado | Texto | fragmento | ||
fragmento_original | Texto | fragmento |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :