dikendalikan_noisy_web_labels

  • Deskripsi :

Label Web Berisik Terkendali adalah kumpulan ~212.000 URL ke gambar yang setiap gambar dianotasi dengan cermat oleh 3-5 profesional pelabelan oleh Layanan Pelabelan Data Google Cloud. Dengan menggunakan anotasi ini, ini menetapkan tolok ukur pertama dari derau label dunia nyata terkontrol dari web.

Kami menyediakan konfigurasi Mini-ImageNet Merah (noise web dunia nyata) dan Mini-ImageNet Biru: - controlled_noisy_web_labels/mini_imagenet_red - controlled_noisy_web_labels/mini_imagenet_blue

Setiap konfigurasi berisi sepuluh varian dengan sepuluh tingkat kebisingan p dari 0% hingga 80%. Set validasi memiliki label bersih dan dibagikan ke semua set pelatihan yang berisik. Oleh karena itu, setiap konfigurasi memiliki pembagian berikut:

  • kereta_00
  • kereta_05
  • kereta_10
  • kereta_15
  • kereta_20
  • kereta_30
  • kereta_40
  • kereta_50
  • kereta_60
  • kereta_80
  • validasi

Detail untuk konstruksi dan analisis dataset dapat ditemukan di makalah. Semua gambar diubah ukurannya menjadi resolusi 84x84.

  1. Unduh pembagian dan anotasinya di sini
  2. Ekstrak dataset_no_images.zip ke dataset_no_images/.
  3. Unduh semua gambar di dataset_no_images/mini-imagenet-annotations.json ke folder baru bernama dataset_no_images/noisy_images/. Nama file keluaran harus sesuai dengan id gambar yang disediakan di mini-imagenet-annotations.json. Misalnya, jika "image/id": "5922767e5677aef4", maka gambar yang diunduh harus berupa dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4. Daftar di https://image-net.org/download-images dan unduh ILSVRC2012_img_train.tar dan ILSVRC2012_img_val.tar.

Struktur direktori yang dihasilkan kemudian dapat diproses oleh TFDS:

  • dataset_no_images/
    • mini-imagenet/
    • nama_kelas.txt
    • membelah/
      • blue_noise_nl_0.0
      • blue_noise_nl_0.1
      • ...
      • red_noise_nl_0.0
      • red_noise_nl_0.1
      • ...
      • clean_validation
    • mini-imagenet-annotations.json
  • ILSVRC2012_img_train.tar
  • ILSVRC2012_img_val.tar
  • gambar_berisik/

    • 5922767e5677aef4.jpg
  • Di-cache otomatis ( dokumentasi ): Tidak

  • Struktur fitur :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
Indo Teks rangkaian
gambar Gambar (Tidak ada, Tidak ada, 3) uint8
bersih Tensor bool
label LabelKelas int64
@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

controlled_noisy_web_labels/mini_imagenet_red (konfigurasi default)

  • Ukuran dataset : 1.19 GiB

  • Perpecahan :

Membelah Contoh
'train_00' 50.000
'train_05' 50.000
'train_10' 50.000
'train_15' 50.000
'train_20' 50.000
'train_30' 49.985
'train_40' 50.010
'train_50' 49.962
'train_60' 50.000
'train_80' 50.008
'validation' 5.000

Visualisasi

controlled_noisy_web_labels/mini_imagenet_blue

  • Ukuran dataset : 1.39 GiB

  • Perpecahan :

Membelah Contoh
'train_00' 60.000
'train_05' 60.000
'train_10' 60.000
'train_15' 60.000
'train_20' 60.000
'train_30' 60.000
'train_40' 60.000
'train_50' 60.000
'train_60' 60.000
'train_80' 60.000
'validation' 5.000

Visualisasi