- Mô tả :
Bộ dữ liệu về độc tính trên tim của thuốc [1-2] là một nhiệm vụ phân loại phân tử để phát hiện độc tính trên tim do mục tiêu herG liên kết, một loại protein liên quan đến nhịp đập của tim. Dữ liệu bao gồm hơn 9000 phân tử có hoạt động herg.
Dữ liệu được chia thành bốn phần: đào tạo, test-iid, test-ood1, test-ood2.
Mỗi phân tử trong bộ dữ liệu có các chú thích đồ thị 2D được thiết kế để hỗ trợ mô hình hóa mạng thần kinh đồ thị. Các nút là các nguyên tử của phân tử và các cạnh là các liên kết. Mỗi nguyên tử được biểu diễn dưới dạng một vectơ mã hóa thông tin nguyên tử cơ bản như loại nguyên tử. Logic tương tự áp dụng cho trái phiếu.
Chúng tôi bao gồm khoảng cách dấu vân tay Tanimoto (vào dữ liệu đào tạo) cho từng phân tử trong bộ thử nghiệm để tạo điều kiện nghiên cứu về sự thay đổi phân phối trong miền biểu đồ.
Đối với mỗi ví dụ, các tính năng bao gồm: nguyên tử: một tenxơ 2D có hình dạng (60, 27) lưu trữ các tính năng nút. Các phân tử có ít hơn 60 nguyên tử được đệm bằng số không. Mỗi nguyên tử có 27 tính năng nguyên tử. cặp: một tenxơ 3D có hình dạng (60, 60, 12) lưu trữ các tính năng cạnh. Mỗi cạnh có 12 tính năng cạnh. Atom_mask: một tenxơ 1D có hình dạng (60, ) lưu trữ mặt nạ nút. 1 cho biết nguyên tử tương ứng là có thật, nếu không thì là nguyên tử được đệm. pair_mask: một tenxơ 2D có hình dạng (60, 60) lưu trữ mặt nạ cạnh. 1 cho biết cạnh tương ứng là thực, nếu không thì là cạnh được đệm. hoạt động: một vectơ một nóng cho biết phân tử có độc hay không. [0, 1] cho biết nó độc hại, ngược lại [1, 0] không độc hại.
Người giới thiệu
[1]: VB Siramshetty et al. Đánh giá quan trọng các phương pháp trí tuệ nhân tạo để dự đoán sự ức chế kênh herg trong kỷ nguyên dữ liệu lớn. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2]: K. Han et al. Mạng nơ-ron đồ thị đáng tin cậy để khám phá thuốc theo sự thay đổi phân phối. Hội thảo NeurIPS DistShift 2021. https://arxiv.org/abs/2111.12951
Trang chủ : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
Mã nguồn :
tfds.graphs.cardiotox.Cardiotox
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
1.66 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6,523 |
'validation' | 1.631 |
- Cấu trúc tính năng :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tích cực | tenxơ | (2,) | int64 | |
nguyên tử_mask | tenxơ | (60,) | phao32 | |
nguyên tử | tenxơ | (60, 27) | phao32 | |
dist2topk_nbs | tenxơ | (1,) | phao32 | |
phân tử_id | tenxơ | sợi dây | ||
pair_mask | tenxơ | (60, 60) | phao32 | |
cặp | tenxơ | (60, 60, 12) | phao32 |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}