suma covid19

  • Descripción :

CORD-19 es un recurso de más de 45 000 artículos académicos, incluidos más de 33 000 con texto completo, sobre COVID-19, SARS-CoV-2 y coronavirus relacionados.

Para ayudar a organizar la información en las literaturas científicas de COVID-19 a través del resumen abstracto. Este conjunto de datos analiza esos artículos en pares de documentos y resúmenes de texto completo-resumen o introducción-resumen.

Las características incluyen cadenas de: resumen, texto completo, sha (hash de pdf), source_x (fuente de publicación), título, doi (identificador de objeto digital), licencia, autores, tiempo de publicación, diario, url.

  • Documentación adicional : Explore en Papers With Code

  • Página de inicio: https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

  • Código fuente : tfds.summarization.Covid19sum

  • Versiones :

    • 1.0.0 (predeterminado): Sin notas de la versión.
  • Tamaño de descarga : Unknown size

  • Tamaño del conjunto de datos : Unknown size

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    Este conjunto de datos debe descargarse manualmente a través de kaggle api: kaggle datasets download allen-institute-for-ai/CORD-19-research-challenge Coloque el archivo zip descargado en la carpeta manual.

  • Auto-caché ( documentación ): Desconocido

  • Divisiones :

Separar Ejemplos
  • Estructura de características :
FeaturesDict({
    'abstract': string,
    'authors': string,
    'body_text': Sequence({
        'section': string,
        'text': string,
    }),
    'doi': string,
    'journal': string,
    'license': string,
    'publish_time': string,
    'sha': string,
    'source_x': string,
    'title': string,
    'url': string,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
resumen Tensor cuerda
autores Tensor cuerda
cuerpo de texto Secuencia
cuerpo_texto/sección Tensor cuerda
cuerpo_texto/texto Tensor cuerda
doi Tensor cuerda
diario Tensor cuerda
licencia Tensor cuerda
publicar_hora Tensor cuerda
sha Tensor cuerda
fuente_x Tensor cuerda
título Tensor cuerda
URL Tensor cuerda
@ONLINE {CORD-19-research-challenge,
    author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
    title  = "COVID-19 Open Research Dataset Challenge (CORD-19)",
    month  = "april",
    year   = "2020",
    url    = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}