genomics_ood

  • Mô tả:

Việc xác định vi khuẩn dựa trên trình tự bộ gen hứa hẹn phát hiện sớm bệnh tật, nhưng yêu cầu một mô hình có thể đưa ra dự đoán độ tin cậy thấp về trình tự gen ngoài phân bố (OOD) từ vi khuẩn mới không có trong dữ liệu huấn luyện.

Chúng tôi giới thiệu tập dữ liệu gen để phát hiện OOD cho phép các nhà nghiên cứu khác đánh giá tiến độ của vấn đề quan trọng này. Các lớp vi khuẩn mới dần dần được phát hiện qua nhiều năm. Nhóm các lớp theo năm là một cách tự nhiên để bắt chước các ví dụ trong phân phối và OOD.

Bộ dữ liệu chứa trình tự bộ gen được lấy mẫu từ 10 lớp vi khuẩn được phát hiện trước năm 2011 dưới dạng lớp phân bố, 60 lớp vi khuẩn được phát hiện từ năm 2011-2016 dưới dạng OOD để xác thực và 60 lớp vi khuẩn khác được phát hiện sau năm 2016 dưới dạng OOD để thử nghiệm, trong tổng số 130 lớp vi khuẩn. Lưu ý rằng dữ liệu đào tạo, xác thực và kiểm tra được cung cấp cho các lớp trong phân phối và dữ liệu kiểm tra và xác thực được cung cấp cho các lớp OOD. Về bản chất, dữ liệu OOD không có sẵn tại thời điểm đào tạo.

Trình tự bộ gen dài 250, bao gồm các ký tự {A, C, G, T}. Cỡ mẫu của mỗi lớp là 100.000 đối với khóa đào tạo và 10.000 đối với bộ xác nhận và kiểm tra.

Đối với mỗi ví dụ, các đặc điểm bao gồm: seq: trình tự DNA đầu vào được cấu tạo bởi {A, C, G, T}. label: tên của lớp vi khuẩn. seq_info: nguồn của trình tự DNA, tức là, tên bộ gen, số gia nhập NCBI và vị trí nơi nó được lấy mẫu. miền: nếu vi khuẩn là phân phối (trong), hoặc OOD (ood)

Các chi tiết của tập dữ liệu có thể được tìm thấy trong phần bổ sung của tờ báo.

Tách ra Các ví dụ
'test' 100.000
'test_ood' 600.000
'train' 1.000.000
'validation' 100.000
'validation_ood' 600.000
  • Các tính năng:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • Trích dẫn:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}