- Deskripsi :
CORD-19 adalah sumber lebih dari 45.000 artikel ilmiah, termasuk lebih dari 33.000 dengan teks lengkap, tentang COVID-19, SARS-CoV-2, dan virus corona terkait.
Untuk membantu pengorganisasian informasi dalam literatur ilmiah COVID-19 melalui ringkasan abstraktif. Kumpulan data ini mem-parsing artikel-artikel tersebut menjadi sepasang dokumen dan ringkasan teks-lengkap-abstrak atau pengantar-abstrak.
Fitur termasuk string: abstrak, full_text, sha (hash pdf), source_x (sumber publikasi), judul, doi (pengidentifikasi objek digital), lisensi, penulis, publish_time, jurnal, url.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
Kode sumber :
tfds.summarization.Covid19sumVersi :
-
1.0.0(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
Unknown sizeUkuran set data :
Unknown sizeInstruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir(default ke~/tensorflow_datasets/downloads/manual/):
Dataset ini perlu diunduh secara manual melalui kaggle api:kaggle datasets download allen-institute-for-ai/CORD-19-research-challengeTempatkan file zip yang diunduh di folder manual.Di-cache otomatis ( dokumentasi ): Tidak diketahui
Perpecahan :
| Membelah | Contoh |
|---|
- Struktur fitur :
FeaturesDict({
'abstract': string,
'authors': string,
'body_text': Sequence({
'section': string,
'text': string,
}),
'doi': string,
'journal': string,
'license': string,
'publish_time': string,
'sha': string,
'source_x': string,
'title': string,
'url': string,
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| abstrak | Tensor | rangkaian | ||
| penulis | Tensor | rangkaian | ||
| body_text | Urutan | |||
| body_text/bagian | Tensor | rangkaian | ||
| body_text/teks | Tensor | rangkaian | ||
| doi | Tensor | rangkaian | ||
| jurnal | Tensor | rangkaian | ||
| lisensi | Tensor | rangkaian | ||
| publish_time | Tensor | rangkaian | ||
| sha | Tensor | rangkaian | ||
| sumber_x | Tensor | rangkaian | ||
| judul | Tensor | rangkaian | ||
| url | Tensor | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):('body_text', 'abstract')Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ): Tidak ada.
Kutipan :
@ONLINE {CORD-19-research-challenge,
author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
title = "COVID-19 Open Research Dataset Challenge (CORD-19)",
month = "april",
year = "2020",
url = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}