- Açıklama :
ProteinNet, protein yapısının makine öğrenimi için standartlaştırılmış bir veri setidir. Protein dizileri, yapıları (ikincil ve üçüncül), çoklu dizi hizalamaları (MSA'lar), konuma özgü puanlama matrisleri (PSSM'ler) ve standartlaştırılmış eğitim / doğrulama / test bölmeleri sağlar. ProteinNet, hesaplama metodolojisinin sınırlarını zorlayan test setleri sağlamak için yakın zamanda çözülmüş ancak halka açık olmayan protein yapılarının kör tahminlerini gerçekleştiren iki yılda bir yapılan CASP değerlendirmelerine dayanıyor. Nispeten veri fakiri ve veri zengini rejimlerde yeni yöntemlerin değerlendirilmesine olanak tanıyan bir dizi veri seti boyutu sağlamak için CASP 7'den 12'ye uzanan (on yıllık bir dönemi kapsayan) bir dizi veri seti olarak düzenlenmiştir.
Ana Sayfa : https://github.com/aqlaboratory/proteinnet
Kaynak kodu :
tfds.datasets.protein_net.Builder
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
Özellik yapısı :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
evrimsel | tensör | (Yok, 21) | şamandıra32 | |
İD | Metin | sicim | ||
uzunluk | tensör | int32 | ||
maske | tensör | (Hiçbiri,) | bool | |
öncelik | Sıra(SınıfEtiketi) | (Hiçbiri,) | int64 | |
üçüncül | tensör | (Yok, 3) | şamandıra32 |
Denetimli anahtarlar (Bkz
as_supervised
doc ):('primary', 'tertiary')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (varsayılan yapılandırma)
İndirme boyutu :
3.18 GiB
Veri kümesi boyutu :
2.53 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 93 |
'train_100' | 34.557 |
'train_30' | 10.333 |
'train_50' | 13.024 |
'train_70' | 15.207 |
'train_90' | 17.611 |
'train_95' | 17.938 |
'validation' | 224 |
- Örnekler ( tfds.as_dataframe ):
protein_net/casp8
İndirme boyutu :
4.96 GiB
Veri kümesi boyutu :
3.55 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 120 |
'train_100' | 48.087 |
'train_30' | 13.881 |
'train_50' | 17.970 |
'train_70' | 21.191 |
'train_90' | 24.556 |
'train_95' | 25.035 |
'validation' | 224 |
- Örnekler ( tfds.as_dataframe ):
protein_net/casp9
İndirme boyutu :
6.65 GiB
Veri kümesi boyutu :
4.54 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 116 |
'train_100' | 60.350 |
'train_30' | 16.973 |
'train_50' | 22.172 |
'train_70' | 26.263 |
'train_90' | 30.513 |
'train_95' | 31.128 |
'validation' | 224 |
- Örnekler ( tfds.as_dataframe ):
protein_net/casp10
İndirme boyutu :
8.65 GiB
Veri kümesi boyutu :
5.57 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 95 |
'train_100' | 73.116 |
'train_30' | 19.495 |
'train_50' | 25.897 |
'train_70' | 31.001 |
'train_90' | 36.258 |
'train_95' | 37.033 |
'validation' | 224 |
- Örnekler ( tfds.as_dataframe ):
protein_net/casp11
İndirme boyutu :
10.81 GiB
Veri kümesi boyutu :
6.72 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 81 |
'train_100' | 87.573 |
'train_30' | 22.344 |
'train_50' | 29.936 |
'train_70' | 36.005 |
'train_90' | 42.507 |
'train_95' | 43.544 |
'validation' | 224 |
- Örnekler ( tfds.as_dataframe ):
protein_net/casp12
İndirme boyutu :
13.18 GiB
Veri kümesi boyutu :
8.05 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 40 |
'train_100' | 104.059 |
'train_30' | 25.299 |
'train_50' | 34.039 |
'train_70' | 41.522 |
'train_90' | 49.600 |
'train_95' | 50.914 |
'validation' | 224 |
- Örnekler ( tfds.as_dataframe ):