ogbg_molpcba

  • Deskripsi :

'ogbg-molpcba' adalah kumpulan data molekuler yang diambil sampelnya dari PubChem BioAssay. Ini adalah dataset prediksi grafik dari Open Graph Benchmark (OGB).

Kumpulan data ini bersifat eksperimental, dan API dapat berubah pada rilis mendatang.

Deskripsi dataset di bawah ini diadaptasi dari kertas OGB:

Masukkan format

Semua molekul diproses terlebih dahulu menggunakan RDKit ([1]).

  • Setiap grafik mewakili molekul, di mana node adalah atom, dan ujungnya adalah ikatan kimia.
  • Fitur simpul input adalah 9 dimensi, yang berisi nomor atom dan kiralitas, serta fitur atom tambahan lainnya seperti muatan formal dan apakah atom berada di dalam cincin.
  • Fitur tepi input adalah 3 dimensi, berisi jenis ikatan, stereokimia ikatan, serta fitur ikatan tambahan yang menunjukkan apakah ikatan tersebut terkonjugasi.

Deskripsi yang tepat dari semua fitur tersedia di https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py

Ramalan

Tugasnya adalah memprediksi 128 aktivitas biologis yang berbeda (tidak aktif/aktif). Lihat [2] dan [3] untuk penjelasan lebih lanjut tentang target ini. Tidak semua target berlaku untuk setiap molekul: target yang hilang ditunjukkan oleh NaN.

Referensi

[1]: Greg Landrum, dkk. 'RDKit: cheminformatics sumber terbuka'. URL: https://github.com/rdkit/rdkit

[2]: Bharath Ramsundar, Steven Kearnes, Patrick Riley, Dale Webster, David Konerding dan Vijay Pande. 'Jaringan Multitask Masif untuk Penemuan Obat'. URL: https://arxiv.org/pdf/1502.02072.pdf

[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing, dan Vijay Pande. MoleculeNet: tolok ukur untuk pembelajaran mesin molekuler. Ilmu Kimia, 9(2):513-530, 2018.

  • Beranda : https://ogb.stanford.edu/docs/graphprop

  • Kode sumber : tfds.datasets.ogbg_molpcba.Builder

  • Versi :

    • 0.1.0 : Rilis awal API eksperimental.
    • 0.1.1 : Mengekspos jumlah tepi di setiap grafik secara eksplisit.
    • 0.1.2 : Tambahkan bidang metadata untuk GraphVisualizer.
    • 0.1.3 (default): Tambahkan bidang metadata untuk nama tugas individual.
  • Ukuran unduhan : 37.70 MiB

  • Ukuran dataset : 822.53 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 43.793
'train' 350.343
'validation' 43.793
  • Struktur fitur :
FeaturesDict({
    'edge_feat': Tensor(shape=(None, 3), dtype=float32),
    'edge_index': Tensor(shape=(None, 2), dtype=int64),
    'labels': Tensor(shape=(128,), dtype=float32),
    'node_feat': Tensor(shape=(None, 9), dtype=float32),
    'num_edges': Tensor(shape=(None,), dtype=int64),
    'num_nodes': Tensor(shape=(None,), dtype=int64),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
edge_feat Tensor (Tidak ada, 3) float32
edge_index Tensor (Tidak ada, 2) int64
label Tensor (128,) float32
node_feat Tensor (Tidak ada, 9) float32
num_edges Tensor (Tidak ada,) int64
num_nodes Tensor (Tidak ada,) int64

Visualisasi

  • Kutipan :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
  author    = {Weihua Hu and
               Matthias Fey and
               Marinka Zitnik and
               Yuxiao Dong and
               Hongyu Ren and
               Bowen Liu and
               Michele Catasta and
               Jure Leskovec},
  editor    = {Hugo Larochelle and
               Marc Aurelio Ranzato and
               Raia Hadsell and
               Maria{-}Florina Balcan and
               Hsuan{-}Tien Lin},
  title     = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
  booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
               on Neural Information Processing Systems 2020, NeurIPS 2020, December
               6-12, 2020, virtual},
  year      = {2020},
  url       = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
  timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
  biburl    = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}