kardiyotoks

  • Açıklama :

İlaç Kardiyotoksisitesi veri seti [1-2], kalp atışı ritmiyle ilişkili bir protein olan hERG hedefinin bağlanmasının neden olduğu kardiyotoksisiteyi tespit etmeye yönelik bir molekül sınıflandırma görevidir. Veriler, hERG aktivitesine sahip 9000'den fazla molekülü kapsar.

  1. Veriler dört bölüme ayrılmıştır: train, test-iid, test-ood1, test-ood2.

  2. Veri kümesindeki her molekül, grafik sinir ağı modellemesini kolaylaştırmak için tasarlanmış 2B grafik ek açıklamalarına sahiptir. Düğümler molekülün atomlarıdır ve kenarlar bağlardır. Her atom, atom türü gibi temel atom bilgilerini kodlayan bir vektör olarak temsil edilir. Benzer mantık tahviller için de geçerlidir.

  3. Grafik alanındaki dağılımsal kayma üzerine araştırmayı kolaylaştırmak için test setlerindeki her molekül için Tanimoto parmak izi mesafesini (eğitim verilerine) dahil ediyoruz.

Her örnek için özellikler şunları içerir: atomlar: düğüm özelliklerini depolayan şekle (60, 27) sahip bir 2B tensör. 60'tan az atomlu moleküller sıfırlarla doldurulur. Her atomun 27 atom özelliği vardır. çiftler: kenar özelliklerini depolayan şekle (60, 60, 12) sahip bir 3B tensör. Her kenarın 12 kenar özelliği vardır. atom_mask: düğüm maskelerini depolayan şekle (60, ) sahip bir 1D tensör. 1 karşılık gelen atomun gerçek olduğunu, aksi takdirde dolgulu olduğunu belirtir. pair_mask: kenar maskelerini depolayan şekle (60, 60) sahip bir 2B tensör. 1, karşılık gelen kenarın gerçek olduğunu, aksi takdirde dolgulu olduğunu gösterir. aktif: molekülün toksik olup olmadığını gösteren bir sıcak vektör. [0, 1] toksik olduğunu, aksi takdirde [1, 0] toksik olmadığını gösterir.

Referanslar

[1]: VB Siramshetty ve ark. Büyük Veri Çağında hERG Kanal İnhibisyonunun Tahmini için Yapay Zeka Yöntemlerinin Kritik Değerlendirmesi. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K. Han ve ark. Dağıtım Değişimi Altında İlaç Keşfi için Güvenilir Grafik Sinir Ağları. NeurIPS DistShift Workshop 2021. https://arxiv.org/abs/2111.12951

Bölmek örnekler
'test' 839
'test2' 177
'train' 6.523
'validation' 1.631
  • Özellik yapısı :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
aktif tensör (2,) int64
atom_maskesi tensör (60,) şamandıra32
atomlar tensör (60, 27) şamandıra32
dist2topk_nbs tensör (1,) şamandıra32
molekül_kimliği tensör sicim
çift_maske tensör (60, 60) şamandıra32
çiftler tensör (60, 60, 12) şamandıra32
  • Alıntı :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}