หน้าจอสรุป

  • คำอธิบาย :

ชุดข้อมูล SummScreen Summarization เวอร์ชันที่ไม่ระบุตัวตน เวอร์ชันที่ไม่โทเค็น

การแยก Train/val/test และการกรองจะอิงตามชุดข้อมูลโทเค็นสุดท้าย แต่การถอดเสียงและการสรุปที่มีให้จะอิงตามข้อความที่ไม่ได้โทเค็น

มีสองคุณสมบัติ:

  • การถอดเสียง: การถอดเสียงตอนเต็ม บทสนทนาแต่ละบรรทัดคั่นด้วยการขึ้นบรรทัดใหม่
  • recap: บทสรุปหรือบทสรุปของตอนต่างๆ

  • หน้าแรก : https://github.com/mingdachen/SummScreen

  • รหัสแหล่งที่มา : tfds.datasets.summscreen.Builder

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
  • ขนาดการดาวน์โหลด : 841.27 MiB

  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('transcript', 'recap')

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@article{DBLP:journals/corr/abs-2104-07091,
  author    
= {Mingda Chen and
               
Zewei Chu and
               
Sam Wiseman and
               
Kevin Gimpel},
  title    
= {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal  
= {CoRR},
  volume    
= {abs/2104.07091},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2104.07091},
  archivePrefix
= {arXiv},
  eprint    
= {2104.07091},
  timestamp
= {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    
= {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า: ForeverDreaming

  • ขนาดชุดข้อมูล : 132.99 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 337
'train' 3,673
'validation' 338
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
   
'episode_number': Text(shape=(), dtype=string),
   
'episode_title': Text(shape=(), dtype=string),
   
'recap': Text(shape=(), dtype=string),
   
'show_title': Text(shape=(), dtype=string),
   
'transcript': Text(shape=(), dtype=string),
   
'transcript_author': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_number ข้อความ สตริง
ตอนที่_title ข้อความ สตริง
สรุป ข้อความ สตริง
show_title ข้อความ สตริง
การถอดเสียง ข้อความ สตริง
transcript_author ข้อความ สตริง

หน้าจอสรุป/tms

  • คำอธิบาย การกำหนดค่า: TVMegaSite

  • ขนาดชุดข้อมูล : 592.53 MiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'test' 1,793
'train' 18,915
'validation' 1,795
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
   
'episode_summary': Text(shape=(), dtype=string),
   
'recap': Text(shape=(), dtype=string),
   
'recap_author': Text(shape=(), dtype=string),
   
'show_title': Text(shape=(), dtype=string),
   
'transcript': Text(shape=(), dtype=string),
   
'transcript_author': Tensor(shape=(None,), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอน_สรุป ข้อความ สตริง
สรุป ข้อความ สตริง
recap_author ข้อความ สตริง
show_title ข้อความ สตริง
การถอดเสียง ข้อความ สตริง
transcript_author เทนเซอร์ (ไม่มี,) สตริง