kardiotoks

  • Deskripsi :

Dataset Kardiotoksisitas Obat [1-2] adalah tugas klasifikasi molekul untuk mendeteksi kardiotoksisitas yang disebabkan oleh pengikatan target hERG, protein yang terkait dengan ritme detak jantung. Data mencakup lebih dari 9000 molekul dengan aktivitas hERG.

  1. Data dibagi menjadi empat bagian: train, test-iid, test-ood1, test-ood2.

  2. Setiap molekul dalam dataset memiliki anotasi grafik 2D yang dirancang untuk memfasilitasi pemodelan jaringan saraf grafik. Node adalah atom-atom molekul dan ujung-ujungnya adalah ikatan. Setiap atom direpresentasikan sebagai vektor pengkodean informasi atom dasar seperti jenis atom. Logika serupa berlaku untuk obligasi.

  3. Kami menyertakan jarak sidik jari Tanimoto (ke data pelatihan) untuk setiap molekul dalam set pengujian untuk memfasilitasi penelitian tentang pergeseran distribusi dalam domain grafik.

Untuk setiap contoh, fiturnya meliputi: atom: tensor 2D dengan bentuk (60, 27) yang menyimpan fitur node. Molekul dengan kurang dari 60 atom diisi dengan nol. Setiap atom memiliki 27 fitur atom. pasang: tensor 3D dengan bentuk (60, 60, 12) menyimpan fitur tepi. Setiap tepi memiliki 12 fitur tepi. atom_mask: tensor 1D dengan bentuk (60, ) menyimpan topeng simpul. 1 menunjukkan atom yang sesuai adalah nyata, jika tidak atom yang empuk. pair_mask: tensor 2D dengan bentuk (60, 60) yang menyimpan topeng tepi. 1 menunjukkan tepi yang sesuai adalah nyata, sebaliknya yang empuk. aktif: vektor satu-panas yang menunjukkan apakah molekul itu beracun atau tidak. [0, 1] menunjukkan itu beracun, sebaliknya [1, 0] tidak beracun.

Referensi

[1]: VB Siramshetty dkk. Penilaian Kritis Metode Kecerdasan Buatan untuk Prediksi Penghambatan Saluran hERG di Era Big Data. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K. Han et al. Jaringan Neural Graf yang Andal untuk Penemuan Obat di Bawah Pergeseran Distribusi. Lokakarya NeurIPS DistShift 2021. https://arxiv.org/abs/2111.12951

Membelah Contoh
'test' 839
'test2' 177
'train' 6.523
'validation' 1.631
  • Struktur fitur :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
aktif Tensor (2,) int64
atom_mask Tensor (60,) float32
atom Tensor (60, 27) float32
dist2topk_nbs Tensor (1,) float32
molekul_id Tensor rangkaian
pair_mask Tensor (60, 60) float32
berpasangan Tensor (60, 60, 12) float32
  • Kutipan :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}