- คำอธิบาย :
ชุดข้อมูล Extreme Summarization (XSum)
มีคุณสมบัติสองประการ: - เอกสาร: ป้อนบทความข่าว - สรุป: สรุปหนึ่งประโยคของบทความ
ข้อมูลนี้จำเป็นต้องดาวน์โหลดและแตกไฟล์ด้วยตนเองตามที่อธิบายไว้ใน https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md โฟลเดอร์ 'xsum-extracts-from-downloads' จำเป็นต้องถูกบีบอัดเป็น 'xsum-extracts-from-downloads.tar.gz' และใส่ในโฟลเดอร์ที่ดาวน์โหลดด้วยตนเอง
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
โฮมเพจ : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
รหัสที่มา :
tfds.summarization.Xsum
รุ่น :
-
1.0.0
: ชุดข้อมูลที่ไม่มีการทำความสะอาด -
1.1.0
(ค่าเริ่มต้น): ลบเนื้อหาเว็บ
-
ขนาดการดาวน์โหลด :
2.59 MiB
ขนาดชุดข้อมูล :
512.03 MiB
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน
download_config.manual_dir
(ค่าเริ่มต้นเป็น~/tensorflow_datasets/downloads/manual/
):
คำแนะนำการดาวน์โหลดโดยละเอียด (ซึ่งต้องใช้สคริปต์ที่กำหนดเอง) อยู่ที่นี่: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts หลังจากนั้น โปรดใส่ไฟล์ xsum-extracts-from-downloads.tar.gz ใน manual_dirแคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 11,301 |
'train' | 203,577 |
'validation' | 11,305 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
เอกสาร | ข้อความ | สตริง | ||
สรุป | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('document', 'summary')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}