genomica_ood

  • Descrizione:

L'identificazione dei batteri basata su sequenze genomiche mantiene la promessa di una diagnosi precoce delle malattie, ma richiede un modello in grado di produrre previsioni a bassa confidenza sulle sequenze genomiche fuori distribuzione (OOD) da nuovi batteri che non erano presenti nei dati di addestramento.

Introduciamo un set di dati genomici per il rilevamento di OOD che consente ad altri ricercatori di confrontare i progressi su questo importante problema. Nuove classi batteriche vengono scoperte gradualmente nel corso degli anni. Raggruppare le classi per anni è un modo naturale per imitare l'in-distribuzione e gli esempi OOD.

Il set di dati contiene sequenze genomiche campionate da 10 classi di batteri scoperte prima dell'anno 2011 come classi di distribuzione, 60 classi di batteri scoperte tra il 2011-2016 come OOD per la convalida e altre 60 diverse classi di batteri scoperte dopo il 2016 come OOD per il test, in totale 130 classi di batteri. Si noti che i dati di addestramento, convalida e test sono forniti per le classi in-distribuzione e i dati di convalida e test sono forniti per le classi OOD. Per sua natura, i dati OOD non sono disponibili al momento della formazione.

La sequenza genomica è lunga 250, composta dai caratteri {A, C, G, T}. La dimensione del campione di ogni classe è 100.000 nella formazione e 10.000 per i set di convalida e test.

Per ogni esempio, le caratteristiche includono: seq: la sequenza di DNA in ingresso composta da {A, C, G, T}. etichetta: il nome della classe di batteri. seq_info: la fonte della sequenza di DNA, ovvero il nome del genoma, il numero di accesso NCBI e la posizione da cui è stata campionata. domain: se il batterio è in distribuzione (in), o OOD (ood)

I dettagli del set di dati possono essere trovati nel supplemento alla carta.

Diviso Esempi
'test' 100.000
'test_ood' 600.000
'train' 1.000.000
'validation' 100.000
'validation_ood' 600.000
  • Caratteristiche:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • citazione:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}