- Deskripsi :
Dataset Kardiotoksisitas Obat [1-2] adalah tugas klasifikasi molekul untuk mendeteksi kardiotoksisitas yang disebabkan oleh pengikatan target hERG, protein yang terkait dengan ritme detak jantung. Data mencakup lebih dari 9000 molekul dengan aktivitas hERG.
Data dibagi menjadi empat bagian: train, test-iid, test-ood1, test-ood2.
Setiap molekul dalam dataset memiliki anotasi grafik 2D yang dirancang untuk memfasilitasi pemodelan jaringan saraf grafik. Node adalah atom-atom molekul dan ujung-ujungnya adalah ikatan. Setiap atom direpresentasikan sebagai vektor pengkodean informasi atom dasar seperti jenis atom. Logika serupa berlaku untuk obligasi.
Kami menyertakan jarak sidik jari Tanimoto (ke data pelatihan) untuk setiap molekul dalam set pengujian untuk memfasilitasi penelitian tentang pergeseran distribusi dalam domain grafik.
Untuk setiap contoh, fiturnya meliputi: atom: tensor 2D dengan bentuk (60, 27) yang menyimpan fitur node. Molekul dengan kurang dari 60 atom diisi dengan nol. Setiap atom memiliki 27 fitur atom. pasang: tensor 3D dengan bentuk (60, 60, 12) menyimpan fitur tepi. Setiap tepi memiliki 12 fitur tepi. atom_mask: tensor 1D dengan bentuk (60, ) menyimpan topeng simpul. 1 menunjukkan atom yang sesuai adalah nyata, jika tidak atom yang empuk. pair_mask: tensor 2D dengan bentuk (60, 60) yang menyimpan topeng tepi. 1 menunjukkan tepi yang sesuai adalah nyata, sebaliknya yang empuk. aktif: vektor satu-panas yang menunjukkan apakah molekul itu beracun atau tidak. [0, 1] menunjukkan itu beracun, sebaliknya [1, 0] tidak beracun.
Referensi
[1]: VB Siramshetty dkk. Penilaian Kritis Metode Kecerdasan Buatan untuk Prediksi Penghambatan Saluran hERG di Era Big Data. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2]: K. Han et al. Jaringan Neural Graf yang Andal untuk Penemuan Obat di Bawah Pergeseran Distribusi. Lokakarya NeurIPS DistShift 2021. https://arxiv.org/abs/2111.12951
Beranda : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoksisitas
Kode sumber :
tfds.graphs.cardiotox.Cardiotox
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
Unknown size
Ukuran dataset :
1.66 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6.523 |
'validation' | 1.631 |
- Struktur fitur :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
aktif | Tensor | (2,) | int64 | |
atom_mask | Tensor | (60,) | float32 | |
atom | Tensor | (60, 27) | float32 | |
dist2topk_nbs | Tensor | (1,) | float32 | |
molekul_id | Tensor | rangkaian | ||
pair_mask | Tensor | (60, 60) | float32 | |
berpasangan | Tensor | (60, 60, 12) | float32 |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}