кардиотокс

  • Описание :

Набор данных о кардиотоксичности лекарств [1-2] представляет собой задачу классификации молекул для выявления кардиотоксичности, вызванной связыванием мишени hERG, белка, связанного с сердечным ритмом. Данные охватывают более 9000 молекул с активностью hERG.

  1. Данные разбиты на четыре группы: train, test-iid, test-ood1, test-ood2.

  2. Каждая молекула в наборе данных имеет аннотации 2D-графика, которые предназначены для облегчения моделирования графовой нейронной сети. Узлы — это атомы молекулы, а ребра — это связи. Каждый атом представлен в виде вектора, кодирующего основную информацию об атоме, такую ​​как тип атома. Аналогичная логика применима и к облигациям.

  3. Мы включаем расстояние отпечатка пальца Танимото (до обучающих данных) для каждой молекулы в тестовых наборах, чтобы облегчить исследование сдвига распределения в графовой области.

Для каждого примера функции включают в себя: атомы: двумерный тензор с формой (60, 27), хранящий функции узлов. Молекулы, содержащие менее 60 атомов, дополняются нулями. Каждый атом имеет 27 атомных свойств. пары: трехмерный тензор с формой (60, 60, 12), хранящий краевые функции. Каждое ребро имеет 12 краевых элементов. atom_mask: одномерный тензор формы (60, ), хранящий маски узлов. 1 указывает, что соответствующий атом является реальным, в противном случае он является дополненным. пара_маска: двумерный тензор формы (60, 60), хранящий маски краев. 1 указывает, что соответствующее ребро является реальным, в противном случае оно дополнено. активный: однократный вектор, указывающий, является ли молекула токсичной или нет. [0, 1] указывает на то, что он токсичен, в противном случае [1, 0] не токсичен.

использованная литература

[1]: В.Б. Сирамшетти и соавт. Критическая оценка методов искусственного интеллекта для прогнозирования ингибирования канала hERG в эпоху больших данных. JCIM, 2020 г. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: К. Хан и др. Надежные графовые нейронные сети для обнаружения лекарств в условиях распределительного сдвига. Семинар NeurIPS DistShift 2021. https://arxiv.org/abs/2111.12951

Расколоть Примеры
'test' 839
'test2' 177
'train' 6523
'validation' 1631
  • Структура функции :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=tf.int64),
    'atom_mask': Tensor(shape=(60,), dtype=tf.float32),
    'atoms': Tensor(shape=(60, 27), dtype=tf.float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=tf.float32),
    'molecule_id': tf.string,
    'pair_mask': Tensor(shape=(60, 60), dtype=tf.float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=tf.float32),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
активный Тензор (2,) tf.int64
атом_маска Тензор (60,) tf.float32
атомы Тензор (60, 27) tf.float32
dist2topk_nbs Тензор (1,) tf.float32
идентификатор_молекулы Тензор tf.string
пара_маска Тензор (60, 60) tf.float32
пары Тензор (60, 60, 12) tf.float32
  • Цитата :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}