- الوصف :
مجموعة بيانات السمية القلبية للأدوية [1-2] هي مهمة تصنيف جزيء للكشف عن السمية القلبية الناتجة عن ارتباط هدف hERG ، وهو بروتين مرتبط بإيقاع ضربات القلب. تغطي البيانات أكثر من 9000 جزيء مع نشاط hERG.
تنقسم البيانات إلى أربعة أقسام: train ، test-iid ، test-ood1 ، test-ood2.
يحتوي كل جزيء في مجموعة البيانات على شروح بيانية ثنائية الأبعاد مصممة لتسهيل نمذجة الشبكة العصبية للرسم البياني. العقد هي ذرات الجزيء والحواف هي الروابط. يتم تمثيل كل ذرة على أنها ناقل ترميز معلومات الذرة الأساسية مثل نوع الذرة. منطق مماثل ينطبق على السندات.
نقوم بتضمين مسافة بصمة تانيموتو (لبيانات التدريب) لكل جزيء في مجموعات الاختبار لتسهيل البحث حول التحول التوزيعي في مجال الرسم البياني.
لكل مثال ، الميزات تشمل: الذرات: موتر ثنائي الأبعاد ذو شكل (60 ، 27) يخزن ميزات العقدة. الجزيئات التي تحتوي على أقل من 60 ذرة مبطنة بالأصفار. كل ذرة لها 27 سمة ذرية. أزواج: موتر ثلاثي الأبعاد ذو شكل (60 ، 60 ، 12) لتخزين ميزات الحافة. كل حافة لها 12 ميزة حافة. atom_mask: موتر 1D مع شكل (60 ،) تخزين أقنعة العقدة. 1 يشير إلى أن الذرة المقابلة حقيقية ، وإلا فإن الذرة المبطنة. pair_mask: موتر ثنائي الأبعاد ذو شكل (60 ، 60) لتخزين أقنعة الحافة. 1 يشير إلى أن الحافة المقابلة حقيقية ، وإلا فإن الحافة المبطنة. نشط: ناقل ساخن واحد يشير إلى ما إذا كان الجزيء سامًا أم لا. [0 ، 1] تشير إلى أنها سامة ، وإلا [1 ، 0] غير سامة.
مراجع
[1]: VB Siramshetty وآخرون. التقييم النقدي لأساليب الذكاء الاصطناعي للتنبؤ بتثبيط قناة hERG في عصر البيانات الضخمة. JCIM ، 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2]: K. Han et al. الشبكات العصبية الموثوقة للرسم البياني لاكتشاف الأدوية في ظل التحول التوزيعي. ورشة عمل NeurIPS DistShift 2021. https://arxiv.org/abs/2111.12951
الصفحة الرئيسية : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
كود المصدر :
tfds.graphs.cardiotox.Cardiotox
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التنزيل :
Unknown size
حجم مجموعة البيانات :
1.66 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6523 |
'validation' | 1،631 |
- هيكل الميزة :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
نشيط | موتر | (2 ،) | int64 | |
قناع_الذرة | موتر | (60 ،) | تعويم 32 | |
ذرات | موتر | (60 ، 27) | تعويم 32 | |
dist2topk_nbs | موتر | (1 ،) | تعويم 32 | |
معرّف الجزيء | موتر | سلسلة | ||
زوج_قناع | موتر | (60 ، 60) | تعويم 32 | |
أزواج | موتر | (60 ، 60 ، 12) | تعويم 32 |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}