- คำอธิบาย :
ชุดข้อมูลนี้มี ~3M ข้อความจาก reddit ทุกข้อความถูกกำกับด้วยข้อมูลเมตา ภารกิจคือการทำนาย id ของข้อความหลักในเธรดที่เกี่ยวข้อง แต่ละบันทึกประกอบด้วยรายการข้อความจากหนึ่งเธรด ระเบียนที่ซ้ำกันและเสียหายจะถูกลบออกจากชุดข้อมูล
คุณสมบัติคือ:
- รหัส - รหัสข้อความ
- ข้อความ - ข้อความ
- ผู้เขียน - ผู้เขียนข้อความ
- created_utc - การประทับเวลา UTC ของข้อความ
- link_id - รหัสของโพสต์ที่เกี่ยวข้องกับความคิดเห็น
เป้า:
parent_id - รหัสของข้อความหลักในเธรดปัจจุบัน
หน้าแรก : https://github.com/henghuiz/MaskedHierarchicalTransformer
รหัสที่มา :
tfds.datasets.reddit_disentanglement.Builder
รุ่น :
-
2.0.0
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
ขนาดการดาวน์โหลด :
Unknown size
ขนาดชุดข้อมูล :
Unknown size
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน
download_config.manual_dir
(ค่าเริ่มต้นเป็น~/tensorflow_datasets/downloads/manual/
):
ดาวน์โหลด https://github.com/henghuiz/MaskedHierarchicalTransformer คลายไฟล์ raw_data.zip และเรียกใช้ create_dataset.py ด้วยข้อมูลประจำตัว reddit api ของคุณ จากนั้นใส่ train.csv, val.csv และ test.csv จากไดเร็กทอรีผลลัพธ์ลงในโฟลเดอร์ manualแคชอัตโนมัติ ( เอกสาร ): ไม่รู้จัก
แยก :
แยก | ตัวอย่าง |
---|
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
เกลียว | ลำดับ | |||
กระทู้/ผู้เขียน | ข้อความ | สตริง | ||
กระทู้/created_utc | ข้อความ | สตริง | ||
เธรด/id | ข้อความ | สตริง | ||
เธรด/link_id | ข้อความ | สตริง | ||
เธรด / parent_id | ข้อความ | สตริง | ||
เธรด / ข้อความ | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ): ไม่มี
การอ้างอิง :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}