- توضیحات :
ProteinNet یک مجموعه داده استاندارد شده برای یادگیری ماشینی ساختار پروتئین است. توالیهای پروتئینی، ساختارها (ثانویه و سوم)، همترازیهای توالی چندگانه (MSAs)، ماتریسهای امتیازدهی خاص موقعیت (PSSM) و آموزش استاندارد شده / اعتبارسنجی / تقسیمهای آزمایشی را فراهم میکند. ProteinNet مبتنی بر ارزیابیهای دوسالانه CASP است که پیشبینیهای کور ساختارهای پروتئینی اخیراً حل شده اما در دسترس عموم را انجام میدهد تا مجموعههای آزمایشی را ارائه دهد که مرزهای روششناسی محاسباتی را پیش میبرد. این مجموعه به عنوان مجموعه ای از داده ها سازماندهی شده است که شامل CASP 7 تا 12 (شامل یک دوره ده ساله) می شود تا طیفی از اندازه های مجموعه داده را ارائه دهد که امکان ارزیابی روش های جدید را در رژیم های نسبتاً ضعیف و غنی از داده فراهم می کند.
صفحه اصلی : https://github.com/aqlaboratory/proteinnet
کد منبع :
tfds.datasets.protein_net.Builder
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
ذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
تکاملی | تانسور | (هیچ، 21) | float32 | |
شناسه | متن | رشته | ||
طول | تانسور | int32 | ||
ماسک | تانسور | (هیچ یک،) | بوول | |
اولیه | دنباله (ClassLabel) | (هیچ یک،) | int64 | |
درجه سوم | تانسور | (هیچ، 3) | float32 |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('primary', 'tertiary')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (پیکربندی پیشفرض)
حجم دانلود :
3.18 GiB
حجم مجموعه داده :
2.53 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 93 |
'train_100' | 34,557 |
'train_30' | 10,333 |
'train_50' | 13,024 |
'train_70' | 15,207 |
'train_90' | 17611 |
'train_95' | 17938 |
'validation' | 224 |
- مثالها ( tfds.as_dataframe ):
protein_net/casp8
حجم دانلود :
4.96 GiB
حجم مجموعه داده :
3.55 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 120 |
'train_100' | 48,087 |
'train_30' | 13,881 |
'train_50' | 17970 |
'train_70' | 21,191 |
'train_90' | 24,556 |
'train_95' | 25035 |
'validation' | 224 |
- مثالها ( tfds.as_dataframe ):
protein_net/casp9
حجم دانلود :
6.65 GiB
حجم مجموعه داده :
4.54 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 116 |
'train_100' | 60,350 |
'train_30' | 16973 |
'train_50' | 22,172 |
'train_70' | 26263 |
'train_90' | 30,513 |
'train_95' | 31,128 |
'validation' | 224 |
- مثالها ( tfds.as_dataframe ):
protein_net/casp10
حجم دانلود :
8.65 GiB
حجم مجموعه داده :
5.57 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19,495 |
'train_50' | 25,897 |
'train_70' | 31001 |
'train_90' | 36,258 |
'train_95' | 37033 |
'validation' | 224 |
- مثالها ( tfds.as_dataframe ):
protein_net/casp11
حجم دانلود :
10.81 GiB
حجم مجموعه داده :
6.72 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 81 |
'train_100' | 87573 |
'train_30' | 22,344 |
'train_50' | 29,936 |
'train_70' | 36005 |
'train_90' | 42,507 |
'train_95' | 43,544 |
'validation' | 224 |
- مثالها ( tfds.as_dataframe ):
protein_net/casp12
حجم دانلود :
13.18 GiB
حجم مجموعه داده :
8.05 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 40 |
'train_100' | 104,059 |
'train_30' | 25299 |
'train_50' | 34039 |
'train_70' | 41,522 |
'train_90' | 49600 |
'train_95' | 50,914 |
'validation' | 224 |
- مثالها ( tfds.as_dataframe ):