- Deskripsi :
ProteinNet adalah kumpulan data standar untuk pembelajaran mesin struktur protein. Ini menyediakan urutan protein, struktur (sekunder dan tersier), multiple sequence alignments (MSA), matriks penilaian posisi-spesifik (PSSM), dan pemisahan pelatihan / validasi / pengujian standar. ProteinNet dibangun di atas penilaian CASP dua tahunan, yang melakukan prediksi buta dari struktur protein yang baru saja dipecahkan tetapi tidak tersedia untuk umum, untuk menyediakan rangkaian pengujian yang mendorong batas metodologi komputasi. Ini diatur sebagai serangkaian kumpulan data, yang mencakup CASP 7 hingga 12 (mencakup periode sepuluh tahun), untuk menyediakan berbagai ukuran kumpulan data yang memungkinkan penilaian metode baru dalam rezim data yang relatif miskin dan kaya data.
Kode sumber :
tfds.datasets.protein_net.BuilderVersi :
-
1.0.0(default): Rilis awal.
-
Di-cache otomatis ( dokumentasi ): Tidak
Struktur fitur :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| evolusioner | Tensor | (Tidak ada, 21) | float32 | |
| Indo | Teks | rangkaian | ||
| panjangnya | Tensor | int32 | ||
| masker | Tensor | (Tidak ada,) | bool | |
| utama | Urutan(Label Kelas) | (Tidak ada,) | int64 | |
| tersier | Tensor | (Tidak ada, 3) | float32 |
Kunci yang diawasi (Lihat
as_superviseddoc ):('primary', 'tertiary')Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (konfigurasi default)
Ukuran unduhan :
3.18 GiBUkuran dataset :
2.53 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 93 |
'train_100' | 34.557 |
'train_30' | 10.333 |
'train_50' | 13.024 |
'train_70' | 15.207 |
'train_90' | 17.611 |
'train_95' | 17.938 |
'validation' | 224 |
- Contoh ( tfds.as_dataframe ):
protein_net/casp8
Ukuran unduhan :
4.96 GiBUkuran dataset :
3.55 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 120 |
'train_100' | 48.087 |
'train_30' | 13.881 |
'train_50' | 17.970 |
'train_70' | 21.191 |
'train_90' | 24.556 |
'train_95' | 25.035 |
'validation' | 224 |
- Contoh ( tfds.as_dataframe ):
protein_net/casp9
Ukuran unduhan :
6.65 GiBUkuran dataset :
4.54 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 116 |
'train_100' | 60.350 |
'train_30' | 16.973 |
'train_50' | 22.172 |
'train_70' | 26.263 |
'train_90' | 30.513 |
'train_95' | 31.128 |
'validation' | 224 |
- Contoh ( tfds.as_dataframe ):
protein_net/casp10
Ukuran unduhan :
8.65 GiBUkuran dataset :
5.57 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 95 |
'train_100' | 73.116 |
'train_30' | 19.495 |
'train_50' | 25.897 |
'train_70' | 31.001 |
'train_90' | 36.258 |
'train_95' | 37.033 |
'validation' | 224 |
- Contoh ( tfds.as_dataframe ):
protein_net/casp11
Ukuran unduhan :
10.81 GiBUkuran dataset :
6.72 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 81 |
'train_100' | 87.573 |
'train_30' | 22.344 |
'train_50' | 29.936 |
'train_70' | 36.005 |
'train_90' | 42.507 |
'train_95' | 43.544 |
'validation' | 224 |
- Contoh ( tfds.as_dataframe ):
protein_net/casp12
Ukuran unduhan :
13.18 GiBUkuran dataset :
8.05 GiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 40 |
'train_100' | 104.059 |
'train_30' | 25.299 |
'train_50' | 34.039 |
'train_70' | 41.522 |
'train_90' | 49.600 |
'train_95' | 50.914 |
'validation' | 224 |
- Contoh ( tfds.as_dataframe ):