- Descrição :
CORD-19 é um recurso de mais de 45.000 artigos acadêmicos, incluindo mais de 33.000 com texto completo, sobre COVID-19, SARS-CoV-2 e coronavírus relacionados.
Ajudar a organizar informações em literaturas científicas do COVID-19 por meio de resumos abstratos. Este conjunto de dados analisa esses artigos em pares de documentos e resumos de texto completo-abstrato ou resumo-introdução.
Os recursos incluem strings de: abstract, full_text, sha (hash de pdf), source_x (fonte de publicação), título, doi (identificador de objeto digital), licença, autores, publish_time, revista, url.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
Código -fonte:
tfds.summarization.Covid19sum
Versões :
-
1.0.0
(padrão): sem notas de versão.
-
Tamanho do download :
Unknown size
Tamanho do conjunto de dados :
Unknown size
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Este conjunto de dados precisa ser baixado manualmente por meio da kaggle api:kaggle datasets download allen-institute-for-ai/CORD-19-research-challenge
Coloque o arquivo zip baixado na pasta manual.Armazenado em cache automaticamente ( documentação ): Desconhecido
Divisões :
Dividir | Exemplos |
---|
- Estrutura de recursos :
FeaturesDict({
'abstract': string,
'authors': string,
'body_text': Sequence({
'section': string,
'text': string,
}),
'doi': string,
'journal': string,
'license': string,
'publish_time': string,
'sha': string,
'source_x': string,
'title': string,
'url': string,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
abstrato | tensor | corda | ||
autores | tensor | corda | ||
Texto de corpo | Seqüência | |||
corpo_texto/seção | tensor | corda | ||
corpo_texto/texto | tensor | corda | ||
doi | tensor | corda | ||
Diário | tensor | corda | ||
licença | tensor | corda | ||
publish_time | tensor | corda | ||
sha | tensor | corda | ||
source_x | tensor | corda | ||
título | tensor | corda | ||
url | tensor | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):('body_text', 'abstract')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ): Ausente.
Citação :
@ONLINE {CORD-19-research-challenge,
author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
title = "COVID-19 Open Research Dataset Challenge (CORD-19)",
month = "april",
year = "2020",
url = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}