genomics_ood

  • Beschreibung:

Die Bakterienidentifizierung basierend auf genomischen Sequenzen verspricht eine frühzeitige Erkennung von Krankheiten, erfordert jedoch ein Modell, das Vorhersagen mit geringer Konfidenz über genomische Sequenzen außerhalb der Verteilung (OOD) von neuen Bakterien, die in den Trainingsdaten nicht vorhanden waren, ausgeben kann.

Wir stellen einen Genomik-Datensatz für die OOD-Erkennung vor, der es anderen Forschern ermöglicht, Fortschritte bei diesem wichtigen Problem zu vergleichen. Im Laufe der Jahre werden nach und nach neue Bakterienklassen entdeckt. Das Gruppieren von Klassen nach Jahren ist ein natürlicher Weg, um die In-Distribution- und OOD-Beispiele nachzuahmen.

Der Datensatz enthält genomische Sequenzen aus 10 Bakterienklassen, die vor dem Jahr 2011 als In-Distribution-Klassen entdeckt wurden, 60 Bakterienklassen, die zwischen 2011-2016 als OOD zur Validierung entdeckt wurden, und weitere 60 verschiedene Bakterienklassen, die nach 2016 als OOD zum Test entdeckt wurden. insgesamt 130 Bakterienklassen. Beachten Sie, dass Trainings-, Validierungs- und Testdaten für die Verteilungsklassen und Validierungs- und Testdaten für OOD-Klassen bereitgestellt werden. OOD-Daten sind naturgemäß zum Trainingszeitpunkt nicht verfügbar.

Die genomische Sequenz ist 250 lang und besteht aus den Zeichen {A, C, G, T}. Die Stichprobengröße jeder Klasse beträgt 100.000 für das Training und 10.000 für die Validierungs- und Test-Sets.

Für jedes Beispiel umfassen die Merkmale: seq: die eingegebene DNA-Sequenz, die aus {A, C, G, T} besteht. Label: der Name der Bakterienklasse. seq_info: die Quelle der DNA-Sequenz, dh der Genomname, die NCBI-Zugangsnummer und die Position, von der sie entnommen wurde. Domäne: wenn das Bakterium in-Verteilung (in) oder OOD (ood) ist

Die Details des Datensatzes sind in der Beilage zum Papier zu finden.

Teilt Beispiele
'test' 100.000
'test_ood' 600.000
'train' 1.000.000
'validation' 100.000
'validation_ood' 600.000
  • Eigenschaften:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • Zitat:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}