- Mô tả :
Tập dữ liệu mở rộng từ viết tắt y tế áp dụng thay thế ngược quy mô web (wsrs) cho tập dữ liệu C4, đây là phiên bản khổng lồ, được làm sạch của kho dữ liệu thu thập dữ liệu web của Common Crawl.
Nguồn ban đầu là bộ dữ liệu Common Crawl: https://commoncrawl.org
Mô tả cấu hình : Tập dữ liệu C4-WSRS mặc định.
Trang chủ : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
Mã nguồn :
tfds.text.c4_wsrs.C4WSRS
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
143.01 KiB
Kích thước tập dữ liệu :
5.84 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 9.575.852 |
'validation' | 991,422 |
- Cấu trúc tính năng :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
viết tắt_snippet | Chữ | chuỗi | ||
original_snippet | Chữ | chuỗi |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :