- คำอธิบาย :
ชุดข้อมูลการขยายตัวย่อทางการแพทย์ซึ่งใช้การแทนที่แบบย้อนกลับมาตราส่วนเว็บ (wsrs) กับชุดข้อมูล C4 ซึ่งเป็นคลังข้อมูลการรวบรวมข้อมูลเว็บของ Common Crawl รุ่นใหญ่ที่สะอาด
แหล่งที่มาดั้งเดิมคือชุดข้อมูล Common Crawl: https://commoncrawl.org
คำอธิบาย การกำหนดค่า : ชุดข้อมูล C4-WSRS เริ่มต้น
หน้าแรก : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
รหัสที่มา :
tfds.text.c4_wsrs.C4WSRSรุ่น :
-
1.0.0(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
143.01 KiBขนาดชุดข้อมูล :
5.84 GiBแคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
| แยก | ตัวอย่าง |
|---|---|
'train' | 9,575,852 |
'validation' | 991,422 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
| คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
|---|---|---|---|---|
| คุณสมบัติDict | ||||
| ตัวย่อ_snippet | ข้อความ | สตริง | ||
| original_snippet | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_superviseddoc ):Noneรูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :