- คำอธิบาย :
OPUS คือการรวบรวมข้อความที่แปลจากเว็บ
สร้างการกำหนดค่าของคุณเองเพื่อเลือกคู่ข้อมูล/ภาษาที่จะโหลด
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : http://opus.nlpl.eu/
รหัสแหล่งที่มา :
tfds.datasets.opus.Builder
รุ่น :
-
0.1.0
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
โครงสร้างคุณลักษณะ :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
แปล | ||||
เดอ | ข้อความ | สตริง | ||
th | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('de', 'en')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
บทประพันธ์/การแพทย์ (การกำหนดค่าเริ่มต้น)
คำอธิบายการกำหนดค่า : เอกสารทางการแพทย์
ขนาดการดาวน์โหลด :
34.29 MiB
ขนาดชุดข้อมูล :
188.85 MiB
แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1,108,752 |
- ตัวอย่าง ( tfds.as_dataframe ):
บทประพันธ์/กฎหมาย
คำอธิบาย การกำหนดค่า : เอกสารกฎหมาย
ขนาดการดาวน์โหลด :
46.99 MiB
ขนาดชุดข้อมูล :
214.44 MiB
แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 719,372 |
- ตัวอย่าง ( tfds.as_dataframe ):
บทประพันธ์/อัลกุรอาน
คำอธิบาย การกำหนดค่า: เอกสารอัลกุรอาน
ขนาดการดาวน์โหลด :
35.42 MiB
ขนาดชุดข้อมูล :
117.54 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 537,128 |
- ตัวอย่าง ( tfds.as_dataframe ):
บทประพันธ์/ไอที
คำอธิบายการกำหนดค่า : เอกสารไอที
ขนาดการดาวน์โหลด :
10.33 MiB
ขนาดชุดข้อมูล :
42.51 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 347,817 |
- ตัวอย่าง ( tfds.as_dataframe ):
บทประพันธ์/คำบรรยาย
คำอธิบายการกำหนดค่า : เอกสารคำบรรยาย
ขนาดการดาวน์โหลด :
677.64 MiB
ขนาดชุดข้อมูล :
2.01 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 22,512,639 |
- ตัวอย่าง ( tfds.as_dataframe ):