- คำอธิบาย :
ProteinNet เป็นชุดข้อมูลมาตรฐานสำหรับการเรียนรู้ของเครื่องเกี่ยวกับโครงสร้างโปรตีน นำเสนอลำดับโปรตีน โครงสร้าง (ทุติยภูมิและตติยภูมิ) การจัดตำแหน่งหลายลำดับ (MSA) เมทริกซ์การให้คะแนนเฉพาะตำแหน่ง (PSSM) และการฝึกอบรมมาตรฐาน / การตรวจสอบความถูกต้อง / การแยกการทดสอบ ProteinNet สร้างขึ้นจากการประเมิน CASP ทุกๆ สองปี ซึ่งดำเนินการคาดการณ์อย่างมืดบอดของโครงสร้างโปรตีนที่เพิ่งแก้ไขได้แต่ไม่เปิดเผยต่อสาธารณชน เพื่อให้ชุดการทดสอบที่ผลักดันขอบเขตของวิธีการคำนวณ มีการจัดระเบียบเป็นชุดของชุดข้อมูล ซึ่งครอบคลุมตั้งแต่ CASP 7 ถึง 12 (ครอบคลุมระยะเวลา 10 ปี) เพื่อจัดเตรียมชุดข้อมูลขนาดต่างๆ ที่ช่วยให้สามารถประเมินวิธีการใหม่ๆ ในระบอบการปกครองที่มีข้อมูลค่อนข้างน้อยและอุดมด้วยข้อมูล
รหัสแหล่งที่มา :
tfds.datasets.protein_net.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
โครงสร้างคุณลักษณะ :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
วิวัฒนาการ | เทนเซอร์ | (ไม่มี, 21) | ลอย32 | |
รหัส | ข้อความ | สตริง | ||
ความยาว | เทนเซอร์ | int32 | ||
หน้ากาก | เทนเซอร์ | (ไม่มี,) | บูล | |
หลัก | ลำดับ (ClassLabel) | (ไม่มี,) | int64 | |
ระดับอุดมศึกษา | เทนเซอร์ | (ไม่มี 3) | ลอย32 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('primary', 'tertiary')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (การกำหนดค่าเริ่มต้น)
ขนาดการดาวน์โหลด :
3.18 GiB
ขนาดชุดข้อมูล :
2.53 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 93 |
'train_100' | 34,557 |
'train_30' | 10,333 |
'train_50' | 13,024 |
'train_70' | 15,207 |
'train_90' | 17,611 |
'train_95' | 17,938 |
'validation' | 224 |
- ตัวอย่าง ( tfds.as_dataframe ):
protein_net/casp8
ขนาดการดาวน์โหลด :
4.96 GiB
ขนาดชุดข้อมูล :
3.55 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 120 |
'train_100' | 48,087 |
'train_30' | 13,881 |
'train_50' | 17,970 |
'train_70' | 21,191 |
'train_90' | 24,556 |
'train_95' | 25,035 |
'validation' | 224 |
- ตัวอย่าง ( tfds.as_dataframe ):
โปรตีน_net/casp9
ขนาดการดาวน์โหลด :
6.65 GiB
ขนาดชุดข้อมูล :
4.54 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 116 |
'train_100' | 60,350 |
'train_30' | 16,973 |
'train_50' | 22,172 |
'train_70' | 26,263 |
'train_90' | 30,513 |
'train_95' | 31,128 |
'validation' | 224 |
- ตัวอย่าง ( tfds.as_dataframe ):
protein_net/casp10
ขนาดการดาวน์โหลด :
8.65 GiB
ขนาดชุดข้อมูล :
5.57 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19,495 |
'train_50' | 25,897 |
'train_70' | 31,001 |
'train_90' | 36,258 |
'train_95' | 37,033 |
'validation' | 224 |
- ตัวอย่าง ( tfds.as_dataframe ):
protein_net/casp11
ขนาดการดาวน์โหลด :
10.81 GiB
ขนาดชุดข้อมูล :
6.72 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 81 |
'train_100' | 87,573 |
'train_30' | 22,344 |
'train_50' | 29,936 |
'train_70' | 36,005 |
'train_90' | 42,507 |
'train_95' | 43,544 |
'validation' | 224 |
- ตัวอย่าง ( tfds.as_dataframe ):
protein_net/casp12
ขนาดการดาวน์โหลด :
13.18 GiB
ขนาดชุดข้อมูล :
8.05 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 40 |
'train_100' | 104,059 |
'train_30' | 25,299 |
'train_50' | 34,039 |
'train_70' | 41,522 |
'train_90' | 49,600 |
'train_95' | 50,914 |
'validation' | 224 |
- ตัวอย่าง ( tfds.as_dataframe ):