- توضیحات :
مجموعه دادههای سمیت قلبی دارو [1-2] یک کار طبقهبندی مولکولی برای تشخیص سمیت قلبی ناشی از اتصال هدف hERG، پروتئین مرتبط با ریتم ضربان قلب است. داده ها بیش از 9000 مولکول با فعالیت hERG را پوشش می دهند.
داده ها به چهار تقسیم می شوند: train، test-iid، test-ood1، test-ood2.
هر مولکول در مجموعه داده دارای حاشیه نویسی گراف دو بعدی است که برای تسهیل مدل سازی شبکه عصبی گراف طراحی شده است. گره ها اتم های مولکول و لبه ها پیوند هستند. هر اتم به عنوان یک بردار نشان داده می شود که اطلاعات پایه اتم مانند نوع اتم را رمزگذاری می کند. منطق مشابهی در مورد اوراق قرضه صدق می کند.
ما فاصله اثر انگشت Tanimoto (تا دادههای آموزشی) را برای هر مولکول در مجموعههای آزمایشی گنجاندهایم تا تحقیق در مورد تغییر توزیعی در حوزه نمودار را تسهیل کنیم.
برای هر مثال، ویژگی ها عبارتند از: اتم ها: یک تانسور دو بعدی با شکل (60، 27) که ویژگی های گره را ذخیره می کند. مولکول هایی با کمتر از 60 اتم با صفر پوشانده می شوند. هر اتم دارای 27 ویژگی اتمی است. جفت: یک تانسور سه بعدی با شکل (60، 60، 12) ویژگی های لبه را ذخیره می کند. هر لبه دارای 12 ویژگی لبه است. atom_mask: یک تانسور 1 بعدی با شکل (60، ) که ماسک های گره را ذخیره می کند. 1 نشان می دهد که اتم مربوطه واقعی است، در غیر این صورت یک اتم پر شده است. pair_mask: یک تانسور دو بعدی با شکل (60، 60) که ماسک های لبه را ذخیره می کند. 1 نشان می دهد که لبه مربوطه واقعی است، در غیر این صورت یک لبه پر شده است. فعال: یک بردار یک داغ که نشان می دهد که آیا مولکول سمی است یا نه. [0، 1] نشان می دهد سمی است، در غیر این صورت [1، 0] غیر سمی است.
منابع
[1]: VB Siramshetty و همکاران. ارزیابی انتقادی روشهای هوش مصنوعی برای پیشبینی مهار کانال hERG در عصر دادههای بزرگ. JCIM، 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2]: K. Han et al. شبکه های عصبی نمودار قابل اعتماد برای کشف دارو تحت تغییر توزیع. NeurIPS DistShift Workshop 2021. https://arxiv.org/abs/2111.12951
صفحه اصلی : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
کد منبع :
tfds.graphs.cardiotox.Cardiotox
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
اندازه دانلود :
Unknown size
حجم مجموعه داده :
1.66 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6,523 |
'validation' | 1631 |
- ساختار ویژگی :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فعال | تانسور | (2،) | int64 | |
اتم_ماسک | تانسور | (60،) | float32 | |
اتم ها | تانسور | (60، 27) | float32 | |
dist2topk_nbs | تانسور | (1،) | float32 | |
molecule_id | تانسور | رشته | ||
pair_mask | تانسور | (60، 60) | float32 | |
جفت | تانسور | (60، 60، 12) | float32 |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}