- Описание :
CORD-19 — это ресурс, содержащий более 45 000 научных статей, в том числе более 33 000 с полным текстом, о COVID-19, SARS-CoV-2 и родственных коронавирусах.
Помочь систематизировать информацию в научной литературе о COVID-19 посредством абстрактного обобщения. Этот набор данных анализирует эти статьи на пары документов и резюме: полный_текст-аннотация или введение-аннотация.
Функции включают в себя строки: аннотация, полный_текст, sha (хэш pdf), source_x (источник публикации), заголовок, doi (цифровой идентификатор объекта), лицензия, авторы, время публикации, журнал, URL-адрес.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
Исходный код :
tfds.summarization.Covid19sum
Версии :
-
1.0.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
Unknown size
Размер набора данных :
Unknown size
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Этот набор данных необходимо загрузить вручную через kaggle api:kaggle datasets download allen-institute-for-ai/CORD-19-research-challenge
Поместите загруженный zip-файл в папку руководства.Автокэширование ( документация ): неизвестно
Сплиты :
Расколоть | Примеры |
---|
- Структура функции :
FeaturesDict({
'abstract': string,
'authors': string,
'body_text': Sequence({
'section': string,
'text': string,
}),
'doi': string,
'journal': string,
'license': string,
'publish_time': string,
'sha': string,
'source_x': string,
'title': string,
'url': string,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
Аннотация | Тензор | нить | ||
авторы | Тензор | нить | ||
основной текст | Последовательность | |||
body_text/раздел | Тензор | нить | ||
body_text/текст | Тензор | нить | ||
дои | Тензор | нить | ||
журнал | Тензор | нить | ||
лицензия | Тензор | нить | ||
время_публикации | Тензор | нить | ||
ша | Тензор | нить | ||
source_x | Тензор | нить | ||
заглавие | Тензор | нить | ||
URL | Тензор | нить |
Контролируемые ключи (см.
as_supervised
doc ):('body_text', 'abstract')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ): отсутствует.
Цитата :
@ONLINE {CORD-19-research-challenge,
author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
title = "COVID-19 Open Research Dataset Challenge (CORD-19)",
month = "april",
year = "2020",
url = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}