บทประพันธ์

  • คำอธิบาย :

OPUS คือการรวบรวมข้อความที่แปลจากเว็บ

สร้างการกำหนดค่าของคุณเองเพื่อเลือกคู่ข้อมูล/ภาษาที่จะโหลด

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
แปล
เดอ ข้อความ สตริง
th ข้อความ สตริง
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('de', 'en')

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

บทประพันธ์/การแพทย์ (การกำหนดค่าเริ่มต้น)

  • คำอธิบายการกำหนดค่า : เอกสารทางการแพทย์

  • ขนาดการดาวน์โหลด : 34.29 MiB

  • ขนาดชุดข้อมูล : 188.85 MiB

  • แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ shuffle_files=False (รถไฟ)

  • แยก :

แยก ตัวอย่าง
'train' 1,108,752

บทประพันธ์/กฎหมาย

  • คำอธิบาย การกำหนดค่า : เอกสารกฎหมาย

  • ขนาดการดาวน์โหลด : 46.99 MiB

  • ขนาดชุดข้อมูล : 214.44 MiB

  • แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ shuffle_files=False (รถไฟ)

  • แยก :

แยก ตัวอย่าง
'train' 719,372

บทประพันธ์/อัลกุรอาน

  • คำอธิบาย การกำหนดค่า: เอกสารอัลกุรอาน

  • ขนาดการดาวน์โหลด : 35.42 MiB

  • ขนาดชุดข้อมูล : 117.54 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 537,128

บทประพันธ์/ไอที

  • คำอธิบายการกำหนดค่า : เอกสารไอที

  • ขนาดการดาวน์โหลด : 10.33 MiB

  • ขนาดชุดข้อมูล : 42.51 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 347,817

บทประพันธ์/คำบรรยาย

  • คำอธิบายการกำหนดค่า : เอกสารคำบรรยาย

  • ขนาดการดาวน์โหลด : 677.64 MiB

  • ขนาดชุดข้อมูล : 2.01 GiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'train' 22,512,639