c4_wsrs

  • Deskripsi :

Kumpulan data ekspansi singkatan medis yang menerapkan substitusi balik skala web (wsrs) ke kumpulan data C4, yang merupakan versi kolosal dan bersih dari korpus perayapan web Common Crawl.

Sumber aslinya adalah kumpulan data Perayapan Umum: https://commoncrawl.org

Membelah Contoh
'train' 9.575.852
'validation' 991.422
  • Struktur fitur :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
disingkat_cuplikan Teks rangkaian
cuplikan_asli Teks rangkaian
  • Kutipan :

c4_wsrs/default (konfigurasi default)