- Mô tả :
CORD-19 là nguồn tài nguyên gồm hơn 45.000 bài báo học thuật, trong đó có hơn 33.000 bài có toàn văn về COVID-19, SARS-CoV-2 và các loại vi-rút corona có liên quan.
Để giúp tổ chức thông tin trong các tài liệu khoa học về COVID-19 thông qua tóm tắt trừu tượng. Bộ dữ liệu này phân tích các bài báo đó thành các cặp tài liệu và tóm tắt full_text-abstract hoặc phần giới thiệu-trừu tượng.
Các tính năng bao gồm các chuỗi: trừu tượng, full_text, sha (hàm băm của pdf), source_x (nguồn xuất bản), tiêu đề, doi (số nhận dạng đối tượng kỹ thuật số), giấy phép, tác giả, publish_time, tạp chí, url.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://www.kaggle.com/allen-inst acad-for-ai/CORD-19-research-challenge
Mã nguồn :
tfds.summarization.Covid19sum
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
Unknown size
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Tập dữ liệu này cần được tải xuống thủ công thông qua kaggle api:kaggle datasets download allen-institute-for-ai/CORD-19-research-challenge
Đặt tệp zip đã tải xuống vào thư mục thủ công.Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không xác định
Chia tách :
Tách ra | ví dụ |
---|
- Cấu trúc tính năng :
FeaturesDict({
'abstract': string,
'authors': string,
'body_text': Sequence({
'section': string,
'text': string,
}),
'doi': string,
'journal': string,
'license': string,
'publish_time': string,
'sha': string,
'source_x': string,
'title': string,
'url': string,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
trừu tượng | tenxơ | sợi dây | ||
tác giả | tenxơ | sợi dây | ||
bài kiểm tra cơ thể | Sự phối hợp | |||
body_text/phần | tenxơ | sợi dây | ||
body_text/văn bản | tenxơ | sợi dây | ||
doi | tenxơ | sợi dây | ||
tạp chí | tenxơ | sợi dây | ||
giấy phép | tenxơ | sợi dây | ||
xuất bản_time | tenxơ | sợi dây | ||
sha | tenxơ | sợi dây | ||
nguồn_x | tenxơ | sợi dây | ||
Tiêu đề | tenxơ | sợi dây | ||
url | tenxơ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('body_text', 'abstract')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
trích dẫn :
@ONLINE {CORD-19-research-challenge,
author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
title = "COVID-19 Open Research Dataset Challenge (CORD-19)",
month = "april",
year = "2020",
url = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}