- Deskripsi :
Kumpulan data ekspansi singkatan medis yang menerapkan substitusi balik skala web (wsrs) ke kumpulan data C4, yang merupakan versi kolosal dan bersih dari korpus perayapan web Common Crawl.
Sumber aslinya adalah kumpulan data Perayapan Umum: https://commoncrawl.org
Deskripsi konfigurasi : Dataset C4-WSRS default.
Beranda : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
Kode sumber :
tfds.text.c4_wsrs.C4WSRS
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
143.01 KiB
Ukuran dataset :
5.84 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 9.575.852 |
'validation' | 991.422 |
- Struktur fitur :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
disingkat_cuplikan | Teks | rangkaian | ||
cuplikan_asli | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :