- คำอธิบาย :
ชุดข้อมูลความเป็นพิษต่อหัวใจของยา [1-2] เป็นงานจำแนกโมเลกุลเพื่อตรวจหาความเป็นพิษต่อหัวใจที่เกิดจากการจับเป้าหมายของ hERG ซึ่งเป็นโปรตีนที่เกี่ยวข้องกับจังหวะการเต้นของหัวใจ ข้อมูลครอบคลุมกว่า 9,000 โมเลกุลที่มีการทำงานของ hERG
ข้อมูลถูกแบ่งออกเป็นสี่ส่วน: train, test-iid, test-ood1, test-ood2
แต่ละโมเลกุลในชุดข้อมูลมีคำอธิบายประกอบกราฟ 2 มิติซึ่งออกแบบมาเพื่ออำนวยความสะดวกในการสร้างแบบจำลองโครงข่ายประสาทเทียมแบบกราฟ โหนดคืออะตอมของโมเลกุลและขอบคือพันธะ อะตอมแต่ละตัวจะแสดงเป็นเวกเตอร์ซึ่งเข้ารหัสข้อมูลพื้นฐานของอะตอม เช่น ชนิดของอะตอม ตรรกะที่คล้ายกันใช้กับพันธบัตร
เรารวมระยะลายนิ้วมือของ Tanimoto (ไปยังข้อมูลการฝึกอบรม) สำหรับแต่ละโมเลกุลในชุดการทดสอบเพื่ออำนวยความสะดวกในการวิจัยเกี่ยวกับการเปลี่ยนแปลงการกระจายในโดเมนกราฟ
สำหรับแต่ละตัวอย่าง คุณลักษณะประกอบด้วย: อะตอม: เทนเซอร์ 2 มิติที่มีรูปร่าง (60, 27) จัดเก็บคุณลักษณะของโหนด โมเลกุลที่มีอะตอมน้อยกว่า 60 อะตอมจะถูกเติมด้วยเลขศูนย์ แต่ละอะตอมมีคุณสมบัติ 27 อะตอม คู่: เทนเซอร์ 3 มิติที่มีรูปร่าง (60, 60, 12) เก็บคุณสมบัติขอบ ขอบแต่ละอันมีคุณสมบัติขอบ 12 อัน atom_mask: เทนเซอร์ 1 มิติที่มีรูปร่าง (60, ) จัดเก็บมาสก์โหนด 1 บ่งชี้ว่าอะตอมที่เกี่ยวข้องนั้นเป็นของจริง pair_mask: เทนเซอร์ 2 มิติที่มีรูปร่าง (60, 60) เก็บมาสก์ขอบ 1 บ่งชี้ว่าขอบที่สอดคล้องกันนั้นเป็นของจริง แอกทีฟ: เวกเตอร์ร้อนเดียวที่ระบุว่าโมเลกุลเป็นพิษหรือไม่ [0, 1] แสดงว่าเป็นพิษ มิฉะนั้น [1, 0] ไม่เป็นพิษ
อ้างอิง
[1]: VB Siramshetty และคณะ การประเมินเชิงวิพากษ์วิธีปัญญาประดิษฐ์สำหรับการทำนายการยับยั้งช่องสัญญาณของ herg ในยุคข้อมูลขนาดใหญ่ JCIM, 2020 https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2]: K. Han และคณะ เครือข่ายประสาทกราฟที่เชื่อถือได้สำหรับการค้นพบยาภายใต้การเปลี่ยนแปลงการกระจาย NeurIPS DistShift Workshop 2021 https://arxiv.org/abs/2111.12951
หน้าแรก : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
รหัสแหล่งที่มา :
tfds.graphs.cardiotox.Cardiotox
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
Unknown size
ขนาดชุดข้อมูล :
1.66 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6,523 |
'validation' | 1,631 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
คล่องแคล่ว | เทนเซอร์ | (2,) | int64 | |
atom_mask | เทนเซอร์ | (60,) | ลอย32 | |
อะตอม | เทนเซอร์ | (60, 27) | ลอย32 | |
dist2topk_nbs | เทนเซอร์ | (1,) | ลอย32 | |
โมเลกุล_id | เทนเซอร์ | สตริง | ||
pair_mask | เทนเซอร์ | (60, 60) | ลอย32 | |
คู่ | เทนเซอร์ | (60, 60, 12) | ลอย32 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}