genomics_ood

  • Mô tả :

Việc xác định vi khuẩn dựa trên trình tự bộ gen hứa hẹn phát hiện sớm bệnh, nhưng đòi hỏi một mô hình có thể đưa ra dự đoán có độ tin cậy thấp đối với trình tự bộ gen ngoài phân phối (OOD) từ vi khuẩn mới không có trong dữ liệu đào tạo.

Chúng tôi giới thiệu bộ dữ liệu bộ gen để phát hiện OOD cho phép các nhà nghiên cứu khác đánh giá tiến độ của vấn đề quan trọng này. Các lớp vi khuẩn mới dần dần được phát hiện trong những năm qua. Nhóm các lớp theo năm là một cách tự nhiên để bắt chước các ví dụ trong phân phối và OOD.

Bộ dữ liệu chứa các trình tự bộ gen được lấy mẫu từ 10 lớp vi khuẩn được phát hiện trước năm 2011 dưới dạng các lớp đang phân phối, 60 lớp vi khuẩn được phát hiện trong giai đoạn 2011-2016 dưới dạng OOD để xác thực và 60 lớp vi khuẩn khác được phát hiện sau năm 2016 dưới dạng OOD để thử nghiệm, trong tổng số 130 lớp vi khuẩn. Lưu ý rằng dữ liệu đào tạo, xác thực và kiểm tra được cung cấp cho các lớp trong bản phân phối và dữ liệu kiểm tra và xác thực được cung cấp cho các lớp OOD. Về bản chất, dữ liệu OOD không có sẵn tại thời điểm đào tạo.

Trình tự bộ gen dài 250, bao gồm các ký tự của {A, C, G, T}. Cỡ mẫu của mỗi lớp là 100.000 đối với tập huấn luyện và 10.000 đối với tập xác nhận và kiểm tra.

Đối với mỗi ví dụ, các tính năng bao gồm: seq: chuỗi DNA đầu vào được tạo bởi {A, C, G, T}. nhãn: tên của lớp vi khuẩn. seq_info: nguồn của trình tự DNA, tức là tên bộ gen, số gia nhập NCBI và vị trí mà nó được lấy mẫu. miền: nếu vi khuẩn được phân phối (in) hoặc OOD (ood)

Các chi tiết của tập dữ liệu có thể được tìm thấy trong bài báo bổ sung.

Tách ra ví dụ
'test' 100.000
'test_ood' 600.000
'train' 1.000.000
'validation' 100.000
'validation_ood' 600.000
  • Cấu trúc tính năng :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
miền Chữ sợi dây
nhãn mác LớpNhãn int64
tiếp theo Chữ sợi dây
seq_info Chữ sợi dây
  • trích dẫn :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}