หนังสือ

  • คำอธิบาย :

BookSum: ชุดข้อมูลสำหรับการสรุปเรื่องเล่าแบบยาว

ขณะนี้การใช้งานนี้รองรับเฉพาะหนังสือและบทสรุปของบทเท่านั้น

GitHub: https://github.com/salesforce/booksum

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://github.com/salesforce/booksum

  • รหัสที่มา : tfds.datasets.booksum.Builder

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
  • ขนาดการดาวน์โหลด : Unknown size

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):

    1) ไปที่ https://github.com/salesforce/booksum และเรียกใช้ขั้นตอนที่ 1-3 วางโปรเจ็ booksum git ทั้งหมดในโฟลเดอร์ manual 2) ดาวน์โหลดหนังสือที่แยกเป็นบทจาก https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip แล้วคลายซิปไปที่โฟลเดอร์คู่มือ

โฟลเดอร์คู่มือควรมีไดเร็กทอรีต่อไปนี้:

- `booksum/`
- `all_chapterized_books/`
  • แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)

  • โครงสร้างคุณลักษณะ :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
เอกสาร ข้อความ สตริง
สรุป ข้อความ สตริง
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('document', 'summary')

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/book (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : การสรุประดับหนังสือ

  • ขนาดชุดข้อมูล : 208.81 MiB

  • แยก :

แยก ตัวอย่าง
'test' 46
'train' 312
'validation' 45

booksum / บท

  • คำอธิบาย การกำหนดค่า: การสรุประดับบท

  • ขนาดชุดข้อมูล : 216.71 MiB

  • แยก :

แยก ตัวอย่าง
'test' 1,083
'train' 6,524
'validation' 891