cardiotox

  • Mô tả :

Bộ dữ liệu về độc tính trên tim của thuốc [1-2] là một nhiệm vụ phân loại phân tử để phát hiện độc tính trên tim do mục tiêu herG liên kết, một loại protein liên quan đến nhịp đập của tim. Dữ liệu bao gồm hơn 9000 phân tử có hoạt động herg.

  1. Dữ liệu được chia thành bốn phần: đào tạo, test-iid, test-ood1, test-ood2.

  2. Mỗi phân tử trong bộ dữ liệu có các chú thích đồ thị 2D được thiết kế để hỗ trợ mô hình hóa mạng thần kinh đồ thị. Các nút là các nguyên tử của phân tử và các cạnh là các liên kết. Mỗi nguyên tử được biểu diễn dưới dạng một vectơ mã hóa thông tin nguyên tử cơ bản như loại nguyên tử. Logic tương tự áp dụng cho trái phiếu.

  3. Chúng tôi bao gồm khoảng cách dấu vân tay Tanimoto (vào dữ liệu đào tạo) cho từng phân tử trong bộ thử nghiệm để tạo điều kiện nghiên cứu về sự thay đổi phân phối trong miền biểu đồ.

Đối với mỗi ví dụ, các tính năng bao gồm: nguyên tử: một tenxơ 2D có hình dạng (60, 27) lưu trữ các tính năng nút. Các phân tử có ít hơn 60 nguyên tử được đệm bằng số không. Mỗi nguyên tử có 27 tính năng nguyên tử. cặp: một tenxơ 3D có hình dạng (60, 60, 12) lưu trữ các tính năng cạnh. Mỗi cạnh có 12 tính năng cạnh. Atom_mask: một tenxơ 1D có hình dạng (60, ) lưu trữ mặt nạ nút. 1 cho biết nguyên tử tương ứng là có thật, nếu không thì là nguyên tử được đệm. pair_mask: một tenxơ 2D có hình dạng (60, 60) lưu trữ mặt nạ cạnh. 1 cho biết cạnh tương ứng là thực, nếu không thì là cạnh được đệm. hoạt động: một vectơ một nóng cho biết phân tử có độc hay không. [0, 1] cho biết nó độc hại, ngược lại [1, 0] không độc hại.

Người giới thiệu

[1]: VB Siramshetty et al. Đánh giá quan trọng các phương pháp trí tuệ nhân tạo để dự đoán sự ức chế kênh herg trong kỷ nguyên dữ liệu lớn. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K. Han et al. Mạng nơ-ron đồ thị đáng tin cậy để khám phá thuốc theo sự thay đổi phân phối. Hội thảo NeurIPS DistShift 2021. https://arxiv.org/abs/2111.12951

Tách ra ví dụ
'test' 839
'test2' 177
'train' 6,523
'validation' 1.631
  • Cấu trúc tính năng :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
tích cực tenxơ (2,) int64
nguyên tử_mask tenxơ (60,) phao32
nguyên tử tenxơ (60, 27) phao32
dist2topk_nbs tenxơ (1,) phao32
phân tử_id tenxơ sợi dây
pair_mask tenxơ (60, 60) phao32
cặp tenxơ (60, 60, 12) phao32
  • trích dẫn :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}