- Deskripsi :
ProteinNet adalah kumpulan data standar untuk pembelajaran mesin struktur protein. Ini menyediakan urutan protein, struktur (sekunder dan tersier), multiple sequence alignments (MSA), matriks penilaian posisi-spesifik (PSSM), dan pemisahan pelatihan / validasi / pengujian standar. ProteinNet dibangun di atas penilaian CASP dua tahunan, yang melakukan prediksi buta dari struktur protein yang baru saja dipecahkan tetapi tidak tersedia untuk umum, untuk menyediakan rangkaian pengujian yang mendorong batas metodologi komputasi. Ini diatur sebagai serangkaian kumpulan data, yang mencakup CASP 7 hingga 12 (mencakup periode sepuluh tahun), untuk menyediakan berbagai ukuran kumpulan data yang memungkinkan penilaian metode baru dalam rezim data yang relatif miskin dan kaya data.
Kode sumber :
tfds.datasets.protein_net.Builder
Versi :
-
1.0.0
(default): Rilis awal.
-
Di-cache otomatis ( dokumentasi ): Tidak
Struktur fitur :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
evolusioner | Tensor | (Tidak ada, 21) | float32 | |
Indo | Teks | rangkaian | ||
panjangnya | Tensor | int32 | ||
masker | Tensor | (Tidak ada,) | bool | |
utama | Urutan(Label Kelas) | (Tidak ada,) | int64 | |
tersier | Tensor | (Tidak ada, 3) | float32 |
Kunci yang diawasi (Lihat
as_supervised
doc ):('primary', 'tertiary')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (konfigurasi default)
Ukuran unduhan :
3.18 GiB
Ukuran dataset :
2.53 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 93 |
'train_100' | 34.557 |
'train_30' | 10.333 |
'train_50' | 13.024 |
'train_70' | 15.207 |
'train_90' | 17.611 |
'train_95' | 17.938 |
'validation' | 224 |
- Contoh ( tfds.as_dataframe ):
protein_net/casp8
Ukuran unduhan :
4.96 GiB
Ukuran dataset :
3.55 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 120 |
'train_100' | 48.087 |
'train_30' | 13.881 |
'train_50' | 17.970 |
'train_70' | 21.191 |
'train_90' | 24.556 |
'train_95' | 25.035 |
'validation' | 224 |
- Contoh ( tfds.as_dataframe ):
protein_net/casp9
Ukuran unduhan :
6.65 GiB
Ukuran dataset :
4.54 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 116 |
'train_100' | 60.350 |
'train_30' | 16.973 |
'train_50' | 22.172 |
'train_70' | 26.263 |
'train_90' | 30.513 |
'train_95' | 31.128 |
'validation' | 224 |
- Contoh ( tfds.as_dataframe ):
protein_net/casp10
Ukuran unduhan :
8.65 GiB
Ukuran dataset :
5.57 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 95 |
'train_100' | 73.116 |
'train_30' | 19.495 |
'train_50' | 25.897 |
'train_70' | 31.001 |
'train_90' | 36.258 |
'train_95' | 37.033 |
'validation' | 224 |
- Contoh ( tfds.as_dataframe ):
protein_net/casp11
Ukuran unduhan :
10.81 GiB
Ukuran dataset :
6.72 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 81 |
'train_100' | 87.573 |
'train_30' | 22.344 |
'train_50' | 29.936 |
'train_70' | 36.005 |
'train_90' | 42.507 |
'train_95' | 43.544 |
'validation' | 224 |
- Contoh ( tfds.as_dataframe ):
protein_net/casp12
Ukuran unduhan :
13.18 GiB
Ukuran dataset :
8.05 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 40 |
'train_100' | 104.059 |
'train_30' | 25.299 |
'train_50' | 34.039 |
'train_70' | 41.522 |
'train_90' | 49.600 |
'train_95' | 50.914 |
'validation' | 224 |
- Contoh ( tfds.as_dataframe ):