cardiotox

  • Mô tả :

Thuốc Bộ dữ liệu về độc tính trên tim [1-2] là nhiệm vụ phân loại phân tử để phát hiện độc tính trên tim do liên kết đích hERG, một protein liên quan đến nhịp đập của tim. Dữ liệu bao gồm hơn 9000 phân tử có hoạt tính hERG.

  1. Dữ liệu được chia thành bốn phần: train, test-iid, test-ood1, test-ood2.

  2. Mỗi phân tử trong tập dữ liệu đều có chú thích đồ thị 2D được thiết kế để tạo điều kiện thuận lợi cho việc mô hình hóa mạng nơron đồ thị. Các nút là các nguyên tử của phân tử và các cạnh là các liên kết. Mỗi nguyên tử được biểu diễn dưới dạng véc tơ mã hóa thông tin nguyên tử cơ bản như loại nguyên tử. Logic tương tự áp dụng cho trái phiếu.

  3. Chúng tôi bao gồm khoảng cách vân tay Tanimoto (đến dữ liệu huấn luyện) cho mỗi phân tử trong các bộ thử nghiệm để tạo điều kiện thuận lợi cho nghiên cứu về sự thay đổi phân bố trong miền đồ thị.

Đối với mỗi ví dụ, các tính năng bao gồm: nguyên tử: một tensor 2D có hình dạng (60, 27) lưu trữ các đặc trưng của nút. Các phân tử có ít hơn 60 nguyên tử được đệm bằng các số không. Mỗi nguyên tử có 27 tính năng nguyên tử. cặp: một tensor 3D với hình dạng (60, 60, 12) lưu trữ các đặc điểm cạnh. Mỗi cạnh có 12 đặc điểm cạnh. atom_mask: một tensor 1D có hình dạng (60,) lưu trữ mặt nạ nút. 1 cho biết nguyên tử tương ứng là có thật, ngược lại là nguyên tử có đệm. pair_mask: một tensor 2D có hình dạng (60, 60) lưu trữ các mặt nạ cạnh. 1 cho biết cạnh tương ứng là thực, ngược lại là cạnh có đệm. hoạt động: vectơ một nóng cho biết phân tử có độc hay không. [0, 1] cho biết nó độc hại, ngược lại [1, 0] không độc hại.

Người giới thiệu

[1]: VB Siramshetty và cộng sự. Đánh giá quan trọng của các phương pháp trí tuệ nhân tạo để dự đoán sự ức chế kênh hERG trong kỷ nguyên dữ liệu lớn. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K. Han và cộng sự. Mạng lưới thần kinh đồ thị đáng tin cậy để khám phá thuốc theo sự thay đổi phân phối. NeurIPS DistShift Workshop 2021. https://arxiv.org/abs/2111.12951

Tách ra Các ví dụ
'test' 839
'test2' 177
'train' 6,523
'validation' 1.631
  • Các tính năng :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=tf.int64),
    'atom_mask': Tensor(shape=(60,), dtype=tf.float32),
    'atoms': Tensor(shape=(60, 27), dtype=tf.float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=tf.float32),
    'molecule_id': tf.string,
    'pair_mask': Tensor(shape=(60, 60), dtype=tf.float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=tf.float32),
})
  • Trích dẫn :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}