- คำอธิบาย :
ASSET เป็นชุดข้อมูลสำหรับการประเมินระบบการทำให้ประโยคง่ายขึ้นด้วยการแปลงการเขียนซ้ำหลายครั้ง ดังที่อธิบายไว้ใน "ASSET: ชุดข้อมูลสำหรับการปรับแต่งและการประเมินแบบจำลองการทำให้ประโยคเข้าใจง่ายด้วยการแปลงการเขียนซ้ำหลายครั้ง" คลังข้อมูลประกอบด้วยการตรวจสอบความถูกต้อง 2,000 รายการและการทดสอบประโยคต้นฉบับ 359 ประโยคซึ่งแต่ละประโยคถูกทำให้ง่ายขึ้น 10 ครั้งโดยคำอธิบายประกอบที่แตกต่างกัน คลังข้อมูลยังมีการตัดสินโดยมนุษย์เกี่ยวกับการรักษาความหมาย ความคล่องแคล่ว และความเรียบง่ายสำหรับผลลัพธ์ของระบบลดความซับซ้อนของข้อความอัตโนมัติหลายระบบ
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
รหัสที่มา :
tfds.datasets.asset.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
3.47 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
เนื้อหา/การทำให้เข้าใจง่าย (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า : ชุดของประโยคดั้งเดิมที่สอดคล้องกับการทำให้เข้าใจง่ายที่เป็นไปได้ 10 รายการสำหรับแต่ละประโยค
ขนาดชุดข้อมูล :
2.64 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 359 |
'validation' | 2,000 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ต้นฉบับ | ข้อความ | สตริง | ||
การทำให้เข้าใจง่าย | ลำดับ (ข้อความ) | (ไม่มี,) | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
เนื้อหา/การให้คะแนน
คำอธิบาย การกำหนดค่า : การให้คะแนนของมนุษย์สำหรับการทำให้ข้อความง่ายขึ้นโดยอัตโนมัติ
ขนาดชุดข้อมูล :
1.44 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'full' | 4,500 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ด้าน | ป้ายกำกับคลาส | int64 | ||
ต้นฉบับ | ข้อความ | สตริง | ||
original_sentence_id | เทนเซอร์ | int32 | ||
คะแนน | เทนเซอร์ | int32 | ||
การทำให้เข้าใจง่าย | ข้อความ | สตริง | ||
รหัสผู้ปฏิบัติงาน | เทนเซอร์ | int32 |
- ตัวอย่าง ( tfds.as_dataframe ):