wiki_auto

  • คำอธิบาย :

WikiAuto จัดทำชุดประโยคที่สอดคล้องกันจากวิกิพีเดียภาษาอังกฤษและวิกิพีเดียภาษาอังกฤษแบบง่ายเพื่อเป็นแหล่งข้อมูลในการฝึกอบรมระบบลดความซับซ้อนของประโยค ก่อนอื่น ผู้เขียนได้รวบรวมชุดของการจัดแนวด้วยตนเองระหว่างประโยคในชุดย่อยของวิกิพีเดียภาษาอังกฤษแบบธรรมดาและเวอร์ชันที่สอดคล้องกันในวิกิพีเดียภาษาอังกฤษ (ซึ่งสอดคล้องกับการกำหนดค่า manual ) จากนั้นจึงฝึกระบบ CRF ประสาทเพื่อทำนายการจัดแนวเหล่านี้ โมเดลที่ผ่านการฝึกอบรมแล้วถูกนำไปใช้กับบทความอื่นๆ ในวิกิพีเดียภาษาอังกฤษอย่างง่ายโดยใช้คู่ภาษาอังกฤษเพื่อสร้างคลังข้อมูลขนาดใหญ่ของประโยคที่สอดคล้องกัน (สอดคล้องกับ auto , auto_acl , auto_full_no_split และ auto_full_with_split configs ที่นี่)

@inproceedings{acl/JiangMLZX20,
  author    
= {Chao Jiang and
               
Mounica Maddela and
               
Wuwei Lan and
               
Yang Zhong and
               
Wei Xu},
  editor    
= {Dan Jurafsky and
               
Joyce Chai and
               
Natalie Schluter and
               
Joel R. Tetreault},
  title    
= {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle
= {Proceedings of the 58th Annual Meeting of the Association for Computational
               
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages    
= {7943--7960},
  publisher
= {Association for Computational Linguistics},
  year      
= {2020},
  url      
= {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : ชุดของคู่ประโยควิกิพีเดีย 10K ที่จัดเรียงโดยฝูงชน

  • ขนาดการดาวน์โหลด : 53.47 MiB

  • ขนาดชุดข้อมูล : 76.87 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'dev' 73,249
'test' 118,074
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
   
'GLEU-score': float64,
   
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
   
'normal_sentence': Text(shape=(), dtype=string),
   
'normal_sentence_id': Text(shape=(), dtype=string),
   
'simple_sentence': Text(shape=(), dtype=string),
   
'simple_sentence_id': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
คะแนน GLEU เทนเซอร์ float64
alignment_label ป้ายกำกับคลาส int64
normal_sentence ข้อความ สตริง
normal_sentence_id ข้อความ สตริง
Simple_sentence ข้อความ สตริง
simple_sentence_id ข้อความ สตริง

wiki_auto/auto_acl

  • คำอธิบาย การกำหนดค่า : จับคู่ประโยคเพื่อฝึกระบบ ACL2020

  • ขนาดการดาวน์โหลด : 112.60 MiB

  • ขนาดชุดข้อมูล : 138.83 MiB

  • แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ shuffle_files=False (เต็ม)

  • แยก :

แยก ตัวอย่าง
'full' 488,332
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
   
'normal_sentence': Text(shape=(), dtype=string),
   
'simple_sentence': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
normal_sentence ข้อความ สตริง
Simple_sentence ข้อความ สตริง

wiki_auto/auto_full_no_split

  • คำอธิบาย การกำหนดค่า : คู่ประโยคที่จัดแนวโดยอัตโนมัติทั้งหมดโดยไม่มีการแยกประโยค

  • ขนาดการดาวน์โหลด : 135.02 MiB

  • ขนาดชุดข้อมูล : 166.78 MiB

  • แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ shuffle_files=False (เต็ม)

  • แยก :

แยก ตัวอย่าง
'full' 591,994
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
   
'normal_sentence': Text(shape=(), dtype=string),
   
'simple_sentence': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
normal_sentence ข้อความ สตริง
Simple_sentence ข้อความ สตริง

wiki_auto/auto_full_with_split

  • คำอธิบาย การกำหนดค่า : ประโยคที่จัดแนวโดยอัตโนมัติทั้งหมดจะจับคู่กับการแยกประโยค

  • ขนาดการดาวน์โหลด : 115.09 MiB

  • ขนาดชุดข้อมูล : 141.20 MiB

  • แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ shuffle_files=False (เต็ม)

  • แยก :

แยก ตัวอย่าง
'full' 483,801
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
   
'normal_sentence': Text(shape=(), dtype=string),
   
'simple_sentence': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
normal_sentence ข้อความ สตริง
Simple_sentence ข้อความ สตริง

wiki_auto/อัตโนมัติ

  • คำอธิบาย การกำหนดค่า : คู่ประโยคที่จัดเรียงโดยอัตโนมัติจำนวนมาก

  • ขนาดการดาวน์โหลด : 2.01 GiB

  • ขนาดชุดข้อมูล : 1.76 GiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'part_1' 125,059
'part_2' 13,036
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
   
'example_id': Text(shape=(), dtype=string),
   
'normal': FeaturesDict({
       
'normal_article_content': Sequence({
           
'normal_sentence': Text(shape=(), dtype=string),
           
'normal_sentence_id': Text(shape=(), dtype=string),
       
}),
       
'normal_article_id': int32,
       
'normal_article_title': Text(shape=(), dtype=string),
       
'normal_article_url': Text(shape=(), dtype=string),
   
}),
   
'paragraph_alignment': Sequence({
       
'normal_paragraph_id': Text(shape=(), dtype=string),
       
'simple_paragraph_id': Text(shape=(), dtype=string),
   
}),
   
'sentence_alignment': Sequence({
       
'normal_sentence_id': Text(shape=(), dtype=string),
       
'simple_sentence_id': Text(shape=(), dtype=string),
   
}),
   
'simple': FeaturesDict({
       
'simple_article_content': Sequence({
           
'simple_sentence': Text(shape=(), dtype=string),
           
'simple_sentence_id': Text(shape=(), dtype=string),
       
}),
       
'simple_article_id': int32,
       
'simple_article_title': Text(shape=(), dtype=string),
       
'simple_article_url': Text(shape=(), dtype=string),
   
}),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
example_id ข้อความ สตริง
ปกติ คุณสมบัติDict
ปกติ/ปกติ_บทความ_เนื้อหา ลำดับ
ปกติ/ปกติ_บทความ_เนื้อหา/ปกติ_ประโยค ข้อความ สตริง
ปกติ/ปกติ_บทความ_เนื้อหา/ปกติ_ประโยค_id ข้อความ สตริง
ปกติ/ปกติ_article_id เทนเซอร์ int32
ปกติ/normal_article_title ข้อความ สตริง
ปกติ/ปกติ_article_url ข้อความ สตริง
การจัดย่อหน้า ลำดับ
Paragraph_alignment/ปกติ_paragraph_id ข้อความ สตริง
paragraph_alignment/simple_paragraph_id ข้อความ สตริง
การจัดประโยค ลำดับ
Sentence_alignment/Normal_sentence_id ข้อความ สตริง
Sentence_alignment/simple_sentence_id ข้อความ สตริง
เรียบง่าย คุณสมบัติDict
ง่าย/simple_article_content ลำดับ
ง่าย/simple_article_content/simple_sentence ข้อความ สตริง
ง่าย/simple_article_content/simple_sentence_id ข้อความ สตริง
ง่าย/simple_article_id เทนเซอร์ int32
ง่าย/simple_article_title ข้อความ สตริง
Simple/simple_article_url ข้อความ สตริง