tydi_qa

คำอธิบาย :

TyDi QA เป็นชุดข้อมูลการตอบคำถามที่ครอบคลุม 11 ภาษาที่มีความหลากหลายทางการพิมพ์ พร้อมคำถาม-คำตอบ 204K คู่ ภาษาของ TyDi QA มีความหลากหลายในแง่ของการจำแนก - ชุดของลักษณะทางภาษาที่แต่ละภาษาแสดงออก - ซึ่งเราคาดหวังให้แบบจำลองทำงานได้ดีในชุดนี้จะสรุปเป็นภาษาต่าง ๆ จำนวนมากในโลก มันมีปรากฏการณ์ทางภาษาที่จะไม่พบในองค์กรภาษาอังกฤษเท่านั้น เพื่อให้งานค้นหาข้อมูลที่เป็นจริงและหลีกเลี่ยงผลกระทบเบื้องต้น คำถามจะถูกเขียนโดยผู้ที่ต้องการทราบคำตอบ แต่ยังไม่ทราบคำตอบ (ไม่เหมือนกับ SQuAD และผู้สืบทอด) และข้อมูลจะถูกรวบรวมโดยตรงในแต่ละภาษา โดยไม่ต้องใช้การแปล (ไม่เหมือน MLQA และ XQuAD)

แยกการฝึกอบรม:

'train': นี่คืองาน GoldP จากกระดาษ TyDi QA ต้นฉบับ [ https://arxiv.org/abs/2003.05002 ] ที่มีข้อมูลการฝึกอบรมที่ติดป้ายกำกับภาษาต้นฉบับ

'translate-train-*': การแยกเหล่านี้คือการแปลอัตโนมัติจากภาษาอังกฤษเป็นภาษาเป้าหมายแต่ละภาษาที่ใช้ในบรรทัดฐานของ translate-train ในกระดาษ XTREME [ https://arxiv.org/abs/2003.11080 ] สิ่งนี้จงใจละเว้นข้อมูลการฝึกอบรม TyDiQA-GoldP ที่ไม่ใช่ภาษาอังกฤษเพื่อจำลองสถานการณ์การเรียนรู้การถ่ายโอนซึ่งไม่มีข้อมูลภาษาต้นฉบับและผู้สร้างระบบต้องใช้ข้อมูลภาษาอังกฤษที่มีป้ายกำกับบวกกับระบบการแปลด้วยคอมพิวเตอร์ที่มีอยู่

โดยทั่วไป คุณควรใช้ทั้งรถไฟหรือรถไฟแปลแยก แต่ไม่ใช่ทั้งสองอย่าง

เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
คำอธิบาย การกำหนดค่า: งาน Gold Passage (GoldP) ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline )
หน้าแรก : https://github.com/google-research-datasets/tydiqa
รหัสที่มา : tfds.question_answering.TydiQA
รุ่น :
- 3.0.0 (ค่าเริ่มต้น): แก้ไขปัญหาเกี่ยวกับตัวอย่างจำนวนหนึ่งที่ช่วงคำตอบไม่ตรงแนวเนื่องจากการลบพื้นที่สีขาวตามบริบท การเปลี่ยนแปลงนี้ส่งผลกระทบประมาณ 25% ของตัวอย่างรถไฟและผู้พัฒนา
ขนาดการดาวน์โหลด : 121.30 MiB
ขนาดชุดข้อมูล : 98.35 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'train'`	49,881
`'translate-train-ar'`	3,661
`'translate-train-bn'`	3,585
`'translate-train-fi'`	3,670
`'translate-train-id'`	3,667
`'translate-train-ko'`	3,607
`'translate-train-ru'`	3,394
`'translate-train-sw'`	3,622
`'translate-train-te'`	3,658
`'validation'`	5,077
`'validation-ar'`	921
`'validation-bn'`	113
`'validation-en'`	440
`'validation-fi'`	782
`'validation-id'`	565
`'validation-ko'`	276
`'validation-ru'`	812
`'validation-sw'`	499
`'validation-te'`	669

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	Dประเภท
	คุณสมบัติDict
คำตอบ	ลำดับ
คำตอบ/answer_start	เทนเซอร์	int32
คำตอบ/ข้อความ	ข้อความ	สตริง
บริบท	ข้อความ	สตริง
รหัส	เทนเซอร์	สตริง
คำถาม	ข้อความ	สตริง
ชื่อ	ข้อความ	สตริง

คีย์ภายใต้การดูแล (ดู as_supervised doc ): None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):

การอ้างอิง :

@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa

tydi_qa/goldp (การกำหนดค่าเริ่มต้น)