پروتئین_نت

  • توضیحات :

ProteinNet یک مجموعه داده استاندارد شده برای یادگیری ماشینی ساختار پروتئین است. توالی‌های پروتئینی، ساختارها (ثانویه و سوم)، هم‌ترازی‌های توالی چندگانه (MSAs)، ماتریس‌های امتیازدهی خاص موقعیت (PSSM) و آموزش استاندارد شده / اعتبارسنجی / تقسیم‌های آزمایشی را فراهم می‌کند. ProteinNet مبتنی بر ارزیابی‌های دوسالانه CASP است که پیش‌بینی‌های کور ساختارهای پروتئینی اخیراً حل شده اما در دسترس عموم را انجام می‌دهد تا مجموعه‌های آزمایشی را ارائه دهد که مرزهای روش‌شناسی محاسباتی را پیش می‌برد. این مجموعه به عنوان مجموعه ای از داده ها سازماندهی شده است که شامل CASP 7 تا 12 (شامل یک دوره ده ساله) می شود تا طیفی از اندازه های مجموعه داده را ارائه دهد که امکان ارزیابی روش های جدید را در رژیم های نسبتاً ضعیف و غنی از داده فراهم می کند.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
تکاملی تانسور (هیچ، 21) float32
شناسه متن رشته
طول تانسور int32
ماسک تانسور (هیچ یک،) بوول
اولیه دنباله (ClassLabel) (هیچ یک،) int64
درجه سوم تانسور (هیچ، 3) float32
  • کلیدهای نظارت شده (نگاه کنید به as_supervised doc ): ('primary', 'tertiary')

  • شکل ( tfds.show_examples ): پشتیبانی نمی شود.

  • نقل قول :

@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (پیکربندی پیش‌فرض)

  • حجم دانلود : 3.18 GiB

  • حجم مجموعه داده : 2.53 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 93
'train_100' 34,557
'train_30' 10,333
'train_50' 13,024
'train_70' 15,207
'train_90' 17611
'train_95' 17938
'validation' 224

protein_net/casp8

  • حجم دانلود : 4.96 GiB

  • حجم مجموعه داده : 3.55 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 120
'train_100' 48,087
'train_30' 13,881
'train_50' 17970
'train_70' 21,191
'train_90' 24,556
'train_95' 25035
'validation' 224

protein_net/casp9

  • حجم دانلود : 6.65 GiB

  • حجم مجموعه داده : 4.54 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 116
'train_100' 60,350
'train_30' 16973
'train_50' 22,172
'train_70' 26263
'train_90' 30,513
'train_95' 31,128
'validation' 224

protein_net/casp10

  • حجم دانلود : 8.65 GiB

  • حجم مجموعه داده : 5.57 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 95
'train_100' 73,116
'train_30' 19,495
'train_50' 25,897
'train_70' 31001
'train_90' 36,258
'train_95' 37033
'validation' 224

protein_net/casp11

  • حجم دانلود : 10.81 GiB

  • حجم مجموعه داده : 6.72 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 81
'train_100' 87573
'train_30' 22,344
'train_50' 29,936
'train_70' 36005
'train_90' 42,507
'train_95' 43,544
'validation' 224

protein_net/casp12

  • حجم دانلود : 13.18 GiB

  • حجم مجموعه داده : 8.05 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 40
'train_100' 104,059
'train_30' 25299
'train_50' 34039
'train_70' 41,522
'train_90' 49600
'train_95' 50,914
'validation' 224