โปรตีน_net

  • คำอธิบาย :

ProteinNet เป็นชุดข้อมูลมาตรฐานสำหรับการเรียนรู้ของเครื่องเกี่ยวกับโครงสร้างโปรตีน นำเสนอลำดับโปรตีน โครงสร้าง (ทุติยภูมิและตติยภูมิ) การจัดตำแหน่งหลายลำดับ (MSA) เมทริกซ์การให้คะแนนเฉพาะตำแหน่ง (PSSM) และการฝึกอบรมมาตรฐาน / การตรวจสอบความถูกต้อง / การแยกการทดสอบ ProteinNet สร้างขึ้นจากการประเมิน CASP ทุกๆ สองปี ซึ่งดำเนินการคาดการณ์อย่างมืดบอดของโครงสร้างโปรตีนที่เพิ่งแก้ไขได้แต่ไม่เปิดเผยต่อสาธารณชน เพื่อให้ชุดการทดสอบที่ผลักดันขอบเขตของวิธีการคำนวณ มีการจัดระเบียบเป็นชุดของชุดข้อมูล ซึ่งครอบคลุมตั้งแต่ CASP 7 ถึง 12 (ครอบคลุมระยะเวลา 10 ปี) เพื่อจัดเตรียมชุดข้อมูลขนาดต่างๆ ที่ช่วยให้สามารถประเมินวิธีการใหม่ๆ ในระบอบการปกครองที่มีข้อมูลค่อนข้างน้อยและอุดมด้วยข้อมูล

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
วิวัฒนาการ เทนเซอร์ (ไม่มี, 21) ลอย32
รหัส ข้อความ สตริง
ความยาว เทนเซอร์ int32
หน้ากาก เทนเซอร์ (ไม่มี,) บูล
หลัก ลำดับ (ClassLabel) (ไม่มี,) int64
ระดับอุดมศึกษา เทนเซอร์ (ไม่มี 3) ลอย32
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('primary', 'tertiary')

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (การกำหนดค่าเริ่มต้น)

  • ขนาดการดาวน์โหลด : 3.18 GiB

  • ขนาดชุดข้อมูล : 2.53 GiB

  • แยก :

แยก ตัวอย่าง
'test' 93
'train_100' 34,557
'train_30' 10,333
'train_50' 13,024
'train_70' 15,207
'train_90' 17,611
'train_95' 17,938
'validation' 224

protein_net/casp8

  • ขนาดการดาวน์โหลด : 4.96 GiB

  • ขนาดชุดข้อมูล : 3.55 GiB

  • แยก :

แยก ตัวอย่าง
'test' 120
'train_100' 48,087
'train_30' 13,881
'train_50' 17,970
'train_70' 21,191
'train_90' 24,556
'train_95' 25,035
'validation' 224

โปรตีน_net/casp9

  • ขนาดการดาวน์โหลด : 6.65 GiB

  • ขนาดชุดข้อมูล : 4.54 GiB

  • แยก :

แยก ตัวอย่าง
'test' 116
'train_100' 60,350
'train_30' 16,973
'train_50' 22,172
'train_70' 26,263
'train_90' 30,513
'train_95' 31,128
'validation' 224

protein_net/casp10

  • ขนาดการดาวน์โหลด : 8.65 GiB

  • ขนาดชุดข้อมูล : 5.57 GiB

  • แยก :

แยก ตัวอย่าง
'test' 95
'train_100' 73,116
'train_30' 19,495
'train_50' 25,897
'train_70' 31,001
'train_90' 36,258
'train_95' 37,033
'validation' 224

protein_net/casp11

  • ขนาดการดาวน์โหลด : 10.81 GiB

  • ขนาดชุดข้อมูล : 6.72 GiB

  • แยก :

แยก ตัวอย่าง
'test' 81
'train_100' 87,573
'train_30' 22,344
'train_50' 29,936
'train_70' 36,005
'train_90' 42,507
'train_95' 43,544
'validation' 224

protein_net/casp12

  • ขนาดการดาวน์โหลด : 13.18 GiB

  • ขนาดชุดข้อมูล : 8.05 GiB

  • แยก :

แยก ตัวอย่าง
'test' 40
'train_100' 104,059
'train_30' 25,299
'train_50' 34,039
'train_70' 41,522
'train_90' 49,600
'train_95' 50,914
'validation' 224