ogbg_molpcba

  • คำอธิบาย :

'ogbg-molpcba' เป็นชุดข้อมูลระดับโมเลกุลที่สุ่มตัวอย่างจาก PubChem BioAssay เป็นชุดข้อมูลการทำนายกราฟจาก Open Graph Benchmark (OGB)

ชุดข้อมูลนี้เป็นชุดทดลอง และ API อาจมีการเปลี่ยนแปลงในรุ่นต่อๆ ไป

คำอธิบายด้านล่างของชุดข้อมูลดัดแปลงมาจากกระดาษ OGB:

รูปแบบการป้อนข้อมูล

โมเลกุลทั้งหมดได้รับการประมวลผลล่วงหน้าโดยใช้ RDKit ([1])

  • แต่ละกราฟแสดงถึงโมเลกุล โดยที่โหนดคืออะตอม และขอบคือพันธะเคมี
  • คุณลักษณะของโหนดอินพุตเป็นแบบ 9 มิติ ซึ่งมีเลขอะตอมและไครลิตี้ รวมถึงคุณลักษณะเพิ่มเติมของอะตอมอื่นๆ เช่น ประจุที่เป็นทางการ และอะตอมอยู่ในวงแหวนหรือไม่
  • คุณสมบัติขอบอินพุตเป็นแบบ 3 มิติ ประกอบด้วยประเภทพันธะ สเตอรีโอเคมีของพันธะ รวมถึงคุณสมบัติพันธะเพิ่มเติมที่บ่งชี้ว่าพันธะถูกผันหรือไม่

คำอธิบายที่ชัดเจนของคุณสมบัติทั้งหมดมีอยู่ที่ https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py

การทำนาย

ภารกิจคือการทำนายกิจกรรมทางชีวภาพที่แตกต่างกัน 128 กิจกรรม (ไม่ใช้งาน/ใช้งานอยู่) ดู [2] และ [3] สำหรับคำอธิบายเพิ่มเติมเกี่ยวกับเป้าหมายเหล่านี้ ไม่ใช่เป้าหมายทั้งหมดที่ใช้กับแต่ละโมเลกุล: เป้าหมายที่ขาดหายไปจะถูกระบุด้วย NaN

อ้างอิง

[1]: เกร็ก แลนดรัม และคณะ 'RDKit: เคมีสารสนเทศแบบโอเพ่นซอร์ส' URL: https://github.com/rdkit/rdkit

[2]: ภาราธ แรมซุนดาร์, สตีเวน เคียร์นส์, แพทริก ไรลีย์, เดล เว็บสเตอร์, เดวิด โคเนอร์ดิง และวีเจย์ แพนเด 'เครือข่ายการทำงานหลายอย่างพร้อมกันเพื่อการค้นพบยา' URL: https://arxiv.org/pdf/1502.02072.pdf

[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing และ Vijay Pande MoleculeNet: เกณฑ์มาตรฐานสำหรับการเรียนรู้ของเครื่องระดับโมเลกุล วิทยาศาสตร์เคมี, 9(2):513-530, 2018.

  • หน้าแรก : https://ogb.stanford.edu/docs/graphprop

  • รหัสแหล่งที่มา : tfds.datasets.ogbg_molpcba.Builder

  • รุ่น :

    • 0.1.0 : การเปิดตัวครั้งแรกของ API ทดลอง
    • 0.1.1 : แสดงจำนวนขอบในแต่ละกราฟอย่างชัดเจน
    • 0.1.2 : เพิ่มฟิลด์ข้อมูลเมตาสำหรับ GraphVisualizer
    • 0.1.3 (ค่าเริ่มต้น): เพิ่มฟิลด์ข้อมูลเมตาสำหรับชื่อของแต่ละงาน
  • ขนาดการดาวน์โหลด : 37.70 MiB

  • ขนาดชุดข้อมูล : 822.53 MiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'test' 43,793
'train' 350,343
'validation' 43,793
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'edge_feat': Tensor(shape=(None, 3), dtype=float32),
    'edge_index': Tensor(shape=(None, 2), dtype=int64),
    'labels': Tensor(shape=(128,), dtype=float32),
    'node_feat': Tensor(shape=(None, 9), dtype=float32),
    'num_edges': Tensor(shape=(None,), dtype=int64),
    'num_nodes': Tensor(shape=(None,), dtype=int64),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
edge_feat เทนเซอร์ (ไม่มี 3) ลอย32
edge_index เทนเซอร์ (ไม่มี 2) int64
ป้ายกำกับ เทนเซอร์ (128,) ลอย32
node_feat เทนเซอร์ (ไม่มี 9) ลอย32
num_edges เทนเซอร์ (ไม่มี,) int64
num_nodes เทนเซอร์ (ไม่มี,) int64

การสร้างภาพ

  • การอ้างอิง :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
  author    = {Weihua Hu and
               Matthias Fey and
               Marinka Zitnik and
               Yuxiao Dong and
               Hongyu Ren and
               Bowen Liu and
               Michele Catasta and
               Jure Leskovec},
  editor    = {Hugo Larochelle and
               Marc Aurelio Ranzato and
               Raia Hadsell and
               Maria{-}Florina Balcan and
               Hsuan{-}Tien Lin},
  title     = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
  booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
               on Neural Information Processing Systems 2020, NeurIPS 2020, December
               6-12, 2020, virtual},
  year      = {2020},
  url       = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
  timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
  biburl    = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}