- Deskripsi :
'ogbg-molpcba' adalah kumpulan data molekuler yang diambil sampelnya dari PubChem BioAssay. Ini adalah dataset prediksi grafik dari Open Graph Benchmark (OGB).
Kumpulan data ini bersifat eksperimental, dan API dapat berubah pada rilis mendatang.
Deskripsi dataset di bawah ini diadaptasi dari kertas OGB:
Masukkan format
Semua molekul diproses terlebih dahulu menggunakan RDKit ([1]).
- Setiap grafik mewakili molekul, di mana node adalah atom, dan ujungnya adalah ikatan kimia.
- Fitur simpul input adalah 9 dimensi, yang berisi nomor atom dan kiralitas, serta fitur atom tambahan lainnya seperti muatan formal dan apakah atom berada di dalam cincin.
- Fitur tepi input adalah 3 dimensi, berisi jenis ikatan, stereokimia ikatan, serta fitur ikatan tambahan yang menunjukkan apakah ikatan tersebut terkonjugasi.
Deskripsi yang tepat dari semua fitur tersedia di https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py
Ramalan
Tugasnya adalah memprediksi 128 aktivitas biologis yang berbeda (tidak aktif/aktif). Lihat [2] dan [3] untuk penjelasan lebih lanjut tentang target ini. Tidak semua target berlaku untuk setiap molekul: target yang hilang ditunjukkan oleh NaN.
Referensi
[1]: Greg Landrum, dkk. 'RDKit: cheminformatics sumber terbuka'. URL: https://github.com/rdkit/rdkit
[2]: Bharath Ramsundar, Steven Kearnes, Patrick Riley, Dale Webster, David Konerding dan Vijay Pande. 'Jaringan Multitask Masif untuk Penemuan Obat'. URL: https://arxiv.org/pdf/1502.02072.pdf
[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing, dan Vijay Pande. MoleculeNet: tolok ukur untuk pembelajaran mesin molekuler. Ilmu Kimia, 9(2):513-530, 2018.
Beranda : https://ogb.stanford.edu/docs/graphprop
Kode sumber :
tfds.datasets.ogbg_molpcba.Builder
Versi :
-
0.1.0
: Rilis awal API eksperimental. -
0.1.1
: Mengekspos jumlah tepi di setiap grafik secara eksplisit. -
0.1.2
: Tambahkan bidang metadata untuk GraphVisualizer. -
0.1.3
(default): Tambahkan bidang metadata untuk nama tugas individual.
-
Ukuran unduhan :
37.70 MiB
Ukuran dataset :
822.53 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 43.793 |
'train' | 350.343 |
'validation' | 43.793 |
- Struktur fitur :
FeaturesDict({
'edge_feat': Tensor(shape=(None, 3), dtype=float32),
'edge_index': Tensor(shape=(None, 2), dtype=int64),
'labels': Tensor(shape=(128,), dtype=float32),
'node_feat': Tensor(shape=(None, 9), dtype=float32),
'num_edges': Tensor(shape=(None,), dtype=int64),
'num_nodes': Tensor(shape=(None,), dtype=int64),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
edge_feat | Tensor | (Tidak ada, 3) | float32 | |
edge_index | Tensor | (Tidak ada, 2) | int64 | |
label | Tensor | (128,) | float32 | |
node_feat | Tensor | (Tidak ada, 9) | float32 | |
num_edges | Tensor | (Tidak ada,) | int64 | |
num_nodes | Tensor | (Tidak ada,) | int64 |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ):
- Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
author = {Weihua Hu and
Matthias Fey and
Marinka Zitnik and
Yuxiao Dong and
Hongyu Ren and
Bowen Liu and
Michele Catasta and
Jure Leskovec},
editor = {Hugo Larochelle and
Marc Aurelio Ranzato and
Raia Hadsell and
Maria{-}Florina Balcan and
Hsuan{-}Tien Lin},
title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
on Neural Information Processing Systems 2020, NeurIPS 2020, December
6-12, 2020, virtual},
year = {2020},
url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
biburl = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}