คาร์ดิโอทอกซ์

  • คำอธิบาย :

ชุดข้อมูลความเป็นพิษต่อหัวใจของยา [1-2] เป็นงานจำแนกโมเลกุลเพื่อตรวจหาความเป็นพิษต่อหัวใจที่เกิดจากการจับเป้าหมายของ hERG ซึ่งเป็นโปรตีนที่เกี่ยวข้องกับจังหวะการเต้นของหัวใจ ข้อมูลครอบคลุมกว่า 9,000 โมเลกุลที่มีการทำงานของ hERG

  1. ข้อมูลถูกแบ่งออกเป็นสี่ส่วน: train, test-iid, test-ood1, test-ood2

  2. แต่ละโมเลกุลในชุดข้อมูลมีคำอธิบายประกอบกราฟ 2 มิติซึ่งออกแบบมาเพื่ออำนวยความสะดวกในการสร้างแบบจำลองโครงข่ายประสาทเทียมแบบกราฟ โหนดคืออะตอมของโมเลกุลและขอบคือพันธะ อะตอมแต่ละตัวจะแสดงเป็นเวกเตอร์ซึ่งเข้ารหัสข้อมูลพื้นฐานของอะตอม เช่น ชนิดของอะตอม ตรรกะที่คล้ายกันใช้กับพันธบัตร

  3. เรารวมระยะลายนิ้วมือของ Tanimoto (ไปยังข้อมูลการฝึกอบรม) สำหรับแต่ละโมเลกุลในชุดการทดสอบเพื่ออำนวยความสะดวกในการวิจัยเกี่ยวกับการเปลี่ยนแปลงการกระจายในโดเมนกราฟ

สำหรับแต่ละตัวอย่าง คุณลักษณะประกอบด้วย: อะตอม: เทนเซอร์ 2 มิติที่มีรูปร่าง (60, 27) จัดเก็บคุณลักษณะของโหนด โมเลกุลที่มีอะตอมน้อยกว่า 60 อะตอมจะถูกเติมด้วยเลขศูนย์ แต่ละอะตอมมีคุณสมบัติ 27 อะตอม คู่: เทนเซอร์ 3 มิติที่มีรูปร่าง (60, 60, 12) เก็บคุณสมบัติขอบ ขอบแต่ละอันมีคุณสมบัติขอบ 12 อัน atom_mask: เทนเซอร์ 1 มิติที่มีรูปร่าง (60, ) จัดเก็บมาสก์โหนด 1 บ่งชี้ว่าอะตอมที่เกี่ยวข้องนั้นเป็นของจริง pair_mask: เทนเซอร์ 2 มิติที่มีรูปร่าง (60, 60) เก็บมาสก์ขอบ 1 บ่งชี้ว่าขอบที่สอดคล้องกันนั้นเป็นของจริง แอกทีฟ: เวกเตอร์ร้อนเดียวที่ระบุว่าโมเลกุลเป็นพิษหรือไม่ [0, 1] แสดงว่าเป็นพิษ มิฉะนั้น [1, 0] ไม่เป็นพิษ

อ้างอิง

[1]: VB Siramshetty และคณะ การประเมินเชิงวิพากษ์วิธีปัญญาประดิษฐ์สำหรับการทำนายการยับยั้งช่องสัญญาณของ herg ในยุคข้อมูลขนาดใหญ่ JCIM, 2020 https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K. Han และคณะ เครือข่ายประสาทกราฟที่เชื่อถือได้สำหรับการค้นพบยาภายใต้การเปลี่ยนแปลงการกระจาย NeurIPS DistShift Workshop 2021 https://arxiv.org/abs/2111.12951

แยก ตัวอย่าง
'test' 839
'test2' 177
'train' 6,523
'validation' 1,631
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
คล่องแคล่ว เทนเซอร์ (2,) int64
atom_mask เทนเซอร์ (60,) ลอย32
อะตอม เทนเซอร์ (60, 27) ลอย32
dist2topk_nbs เทนเซอร์ (1,) ลอย32
โมเลกุล_id เทนเซอร์ สตริง
pair_mask เทนเซอร์ (60, 60) ลอย32
คู่ เทนเซอร์ (60, 60, 12) ลอย32
  • การอ้างอิง :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}