genomics_ood

  • 설명 :

게놈 서열을 기반으로 한 박테리아 식별은 질병의 조기 발견을 약속하지만 훈련 데이터에 없는 새로운 박테리아의 OOD(out-of-distribution) 게놈 서열에 대한 낮은 신뢰도 예측을 출력할 수 있는 모델이 필요합니다.

우리는 다른 연구자들이 이 중요한 문제에 대한 진행 상황을 벤치마킹할 수 있도록 하는 OOD 감지를 위한 게놈 데이터 세트를 소개합니다. 새로운 박테리아 클래스는 수년에 걸쳐 점차적으로 발견됩니다. 연도별로 클래스를 그룹화하는 것은 배포본 및 OOD 예제를 모방하는 자연스러운 방법입니다.

데이터 세트에는 2011년 이전에 분포 내 클래스로 발견된 10개 박테리아 클래스, 2011-2016년 사이에 검증용 OOD로 발견된 60개 박테리아 클래스, 2016년 이후에 테스트용 OOD로 발견된 다른 60개 박테리아 클래스, 총 130개의 박테리아 클래스. 학습, 검증, 테스트 데이터는 인분류 클래스에 제공되며 검증 및 테스트 데이터는 OOD 클래스에 제공됩니다. 본질적으로 OOD 데이터는 교육 시간에 사용할 수 없습니다.

게놈 서열은 {A, C, G, T}의 문자로 구성된 250 길이입니다. 각 클래스의 샘플 크기는 훈련에서 100,000이고 검증 및 테스트 세트에서 10,000입니다.

각 예의 특징은 다음과 같습니다. seq: {A, C, G, T}로 구성된 입력 DNA 서열. 레이블: 박테리아 클래스의 이름. seq_info: DNA 시퀀스의 소스, 즉 게놈 이름, NCBI 수탁 번호 및 샘플링된 위치. 도메인: 박테리아가 분포 내(in) 또는 OOD(ood)인 경우

데이터 세트의 세부 사항은 논문 보충 자료에서 찾을 수 있습니다.

나뉘다
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • 특징 :
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • 인용 :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}