- Descrição :
A identificação de bactérias com base em sequências genômicas promete a detecção precoce de doenças, mas requer um modelo que possa gerar previsões de baixa confiança em sequências genômicas fora de distribuição (OOD) de novas bactérias que não estavam presentes nos dados de treinamento.
Apresentamos um conjunto de dados genômicos para detecção de OOD que permite a outros pesquisadores comparar o progresso desse importante problema. Novas classes bacterianas são gradualmente descobertas ao longo dos anos. Agrupar classes por anos é uma maneira natural de imitar os exemplos de distribuição e OOD.
O conjunto de dados contém sequências genômicas amostradas de 10 classes de bactérias que foram descobertas antes do ano de 2011 como classes de distribuição, 60 classes de bactérias descobertas entre 2011-2016 como OOD para validação e outras 60 classes diferentes de bactérias descobertas após 2016 como OOD para teste, no total 130 classes de bactérias. Observe que os dados de treinamento, validação e teste são fornecidos para as classes em distribuição, e os dados de validação e teste são fornecidos para as classes OOD. Por sua natureza, os dados OOD não estão disponíveis no momento do treinamento.
A sequência genômica tem 250 de comprimento, composta por caracteres de {A, C, G, T}. O tamanho da amostra de cada classe é 100.000 no treinamento e 10.000 para os conjuntos de validação e teste.
Para cada exemplo, os recursos incluem: seq: a sequência de DNA de entrada composta por {A, C, G, T}. label: o nome da classe de bactérias. seq_info: a fonte da sequência de DNA, ou seja, o nome do genoma, o número de acesso do NCBI e a posição de onde foi feita a amostragem. domínio: se a bactéria está em distribuição (in) ou OOD (ood)
Os detalhes do conjunto de dados podem ser encontrados no artigo suplementar.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/google-research/google-research/tree/master/genomics_ood
Código -fonte:
tfds.structured.GenomicsOod
Versões :
-
0.0.1
(padrão): sem notas de versão.
-
Tamanho do download :
Unknown size
Tamanho do conjunto de dados :
926.87 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 100.000 |
'test_ood' | 600.000 |
'train' | 1.000.000 |
'validation' | 100.000 |
'validation_ood' | 600.000 |
- Estrutura de recursos :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
domínio | Texto | corda | ||
etiqueta | ClassLabel | int64 | ||
sequência | Texto | corda | ||
seq_info | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):('seq', 'label')
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}