- 설명 :
게놈 서열을 기반으로 한 박테리아 식별은 질병의 조기 발견을 약속하지만 훈련 데이터에 없는 새로운 박테리아의 OOD(out-of-distribution) 게놈 서열에 대한 낮은 신뢰도 예측을 출력할 수 있는 모델이 필요합니다.
우리는 다른 연구자들이 이 중요한 문제에 대한 진행 상황을 벤치마킹할 수 있도록 하는 OOD 감지를 위한 게놈 데이터 세트를 소개합니다. 새로운 박테리아 클래스는 수년에 걸쳐 점차적으로 발견됩니다. 연도별로 클래스를 그룹화하는 것은 배포본 및 OOD 예제를 모방하는 자연스러운 방법입니다.
데이터 세트에는 2011년 이전에 분포 내 클래스로 발견된 10개 박테리아 클래스, 2011-2016년 사이에 검증용 OOD로 발견된 60개 박테리아 클래스, 2016년 이후에 테스트용 OOD로 발견된 다른 60개 박테리아 클래스, 총 130개의 박테리아 클래스. 학습, 검증, 테스트 데이터는 인분류 클래스에 제공되며 검증 및 테스트 데이터는 OOD 클래스에 제공됩니다. 본질적으로 OOD 데이터는 교육 시간에 사용할 수 없습니다.
게놈 서열은 {A, C, G, T}의 문자로 구성된 250 길이입니다. 각 클래스의 샘플 크기는 훈련에서 100,000이고 검증 및 테스트 세트에서 10,000입니다.
각 예의 특징은 다음과 같습니다. seq: {A, C, G, T}로 구성된 입력 DNA 서열. 레이블: 박테리아 클래스의 이름. seq_info: DNA 시퀀스의 소스, 즉 게놈 이름, NCBI 수탁 번호 및 샘플링된 위치. 도메인: 박테리아가 분포 내(in) 또는 OOD(ood)인 경우
데이터 세트의 세부 사항은 논문 보충 자료에서 찾을 수 있습니다.
홈페이지 : https://github.com/google-research/google-research/tree/master/genomics_ood
소스 코드 :
tfds.structured.GenomicsOod
버전 :
-
0.0.1
(기본값) : 없음 릴리스 노트.
-
다운로드 크기 :
Unknown size
데이터 집합 크기 :
926.87 MiB
자동 캐시 ( 문서 ) : 없음
분할 :
나뉘다 | 예 |
---|---|
'test' | 100,000 |
'test_ood' | 600,000 |
'train' | 1,000,000 |
'validation' | 100,000 |
'validation_ood' | 600,000 |
- 특징 :
FeaturesDict({
'domain': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
'seq': Text(shape=(), dtype=tf.string),
'seq_info': Text(shape=(), dtype=tf.string),
})
감독 키 (참조
as_supervised
문서를 ) :('seq', 'label')
그림 ( tfds.show_examples ) : 지원되지 않음.
예 ( tfds.as_dataframe ) :
- 인용 :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}