protein_net

  • Açıklama :

ProteinNet, protein yapısının makine öğrenimi için standartlaştırılmış bir veri setidir. Protein dizileri, yapıları (ikincil ve üçüncül), çoklu dizi hizalamaları (MSA'lar), konuma özgü puanlama matrisleri (PSSM'ler) ve standartlaştırılmış eğitim / doğrulama / test bölmeleri sağlar. ProteinNet, hesaplama metodolojisinin sınırlarını zorlayan test setleri sağlamak için yakın zamanda çözülmüş ancak halka açık olmayan protein yapılarının kör tahminlerini gerçekleştiren iki yılda bir yapılan CASP değerlendirmelerine dayanıyor. Nispeten veri fakiri ve veri zengini rejimlerde yeni yöntemlerin değerlendirilmesine olanak tanıyan bir dizi veri seti boyutu sağlamak için CASP 7'den 12'ye uzanan (on yıllık bir dönemi kapsayan) bir dizi veri seti olarak düzenlenmiştir.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
evrimsel tensör (Yok, 21) şamandıra32
İD Metin sicim
uzunluk tensör int32
maske tensör (Hiçbiri,) bool
öncelik Sıra(SınıfEtiketi) (Hiçbiri,) int64
üçüncül tensör (Yok, 3) şamandıra32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (varsayılan yapılandırma)

  • İndirme boyutu : 3.18 GiB

  • Veri kümesi boyutu : 2.53 GiB

  • bölmeler :

Bölmek örnekler
'test' 93
'train_100' 34.557
'train_30' 10.333
'train_50' 13.024
'train_70' 15.207
'train_90' 17.611
'train_95' 17.938
'validation' 224

protein_net/casp8

  • İndirme boyutu : 4.96 GiB

  • Veri kümesi boyutu : 3.55 GiB

  • bölmeler :

Bölmek örnekler
'test' 120
'train_100' 48.087
'train_30' 13.881
'train_50' 17.970
'train_70' 21.191
'train_90' 24.556
'train_95' 25.035
'validation' 224

protein_net/casp9

  • İndirme boyutu : 6.65 GiB

  • Veri kümesi boyutu : 4.54 GiB

  • bölmeler :

Bölmek örnekler
'test' 116
'train_100' 60.350
'train_30' 16.973
'train_50' 22.172
'train_70' 26.263
'train_90' 30.513
'train_95' 31.128
'validation' 224

protein_net/casp10

  • İndirme boyutu : 8.65 GiB

  • Veri kümesi boyutu : 5.57 GiB

  • bölmeler :

Bölmek örnekler
'test' 95
'train_100' 73.116
'train_30' 19.495
'train_50' 25.897
'train_70' 31.001
'train_90' 36.258
'train_95' 37.033
'validation' 224

protein_net/casp11

  • İndirme boyutu : 10.81 GiB

  • Veri kümesi boyutu : 6.72 GiB

  • bölmeler :

Bölmek örnekler
'test' 81
'train_100' 87.573
'train_30' 22.344
'train_50' 29.936
'train_70' 36.005
'train_90' 42.507
'train_95' 43.544
'validation' 224

protein_net/casp12

  • İndirme boyutu : 13.18 GiB

  • Veri kümesi boyutu : 8.05 GiB

  • bölmeler :

Bölmek örnekler
'test' 40
'train_100' 104.059
'train_30' 25.299
'train_50' 34.039
'train_70' 41.522
'train_90' 49.600
'train_95' 50.914
'validation' 224