- Deskripsi :
Label Web Berisik Terkendali adalah kumpulan ~212.000 URL ke gambar yang setiap gambar dianotasi dengan cermat oleh 3-5 profesional pelabelan oleh Layanan Pelabelan Data Google Cloud. Dengan menggunakan anotasi ini, ini menetapkan tolok ukur pertama dari derau label dunia nyata terkontrol dari web.
Kami menyediakan konfigurasi Mini-ImageNet Merah (noise web dunia nyata) dan Mini-ImageNet Biru: - controlled_noisy_web_labels/mini_imagenet_red - controlled_noisy_web_labels/mini_imagenet_blue
Setiap konfigurasi berisi sepuluh varian dengan sepuluh tingkat kebisingan p dari 0% hingga 80%. Set validasi memiliki label bersih dan dibagikan ke semua set pelatihan yang berisik. Oleh karena itu, setiap konfigurasi memiliki pembagian berikut:
- kereta_00
- kereta_05
- kereta_10
- kereta_15
- kereta_20
- kereta_30
- kereta_40
- kereta_50
- kereta_60
- kereta_80
- validasi
Detail untuk konstruksi dan analisis dataset dapat ditemukan di makalah. Semua gambar diubah ukurannya menjadi resolusi 84x84.
Beranda : https://google.github.io/controlled-noisy-web-labels/index.html
Kode sumber :
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
1.83 MiB
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):
Untuk mengunduh data ini secara manual, pengguna harus melakukan operasi berikut:
- Unduh pembagian dan anotasinya di sini
- Ekstrak dataset_no_images.zip ke dataset_no_images/.
- Unduh semua gambar di dataset_no_images/mini-imagenet-annotations.json ke folder baru bernama dataset_no_images/noisy_images/. Nama file keluaran harus sesuai dengan id gambar yang disediakan di mini-imagenet-annotations.json. Misalnya, jika "image/id": "5922767e5677aef4", maka gambar yang diunduh harus berupa dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4. Daftar di https://image-net.org/download-images dan unduh ILSVRC2012_img_train.tar dan ILSVRC2012_img_val.tar.
Struktur direktori yang dihasilkan kemudian dapat diproses oleh TFDS:
- dataset_no_images/
- mini-imagenet/
- nama_kelas.txt
- membelah/
- blue_noise_nl_0.0
- blue_noise_nl_0.1
- ...
- red_noise_nl_0.0
- red_noise_nl_0.1
- ...
- clean_validation
- mini-imagenet-annotations.json
- ILSVRC2012_img_train.tar
- ILSVRC2012_img_val.tar
gambar_berisik/
- 5922767e5677aef4.jpg
Di-cache otomatis ( dokumentasi ): Tidak
Struktur fitur :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
Indo | Teks | rangkaian | ||
gambar | Gambar | (Tidak ada, Tidak ada, 3) | uint8 | |
bersih | Tensor | bool | ||
label | LabelKelas | int64 |
Kunci yang diawasi (Lihat
as_supervised
doc ):('image', 'label')
Kutipan :
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
controlled_noisy_web_labels/mini_imagenet_red (konfigurasi default)
Ukuran dataset :
1.19 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'train_00' | 50.000 |
'train_05' | 50.000 |
'train_10' | 50.000 |
'train_15' | 50.000 |
'train_20' | 50.000 |
'train_30' | 49.985 |
'train_40' | 50.010 |
'train_50' | 49.962 |
'train_60' | 50.000 |
'train_80' | 50.008 |
'validation' | 5.000 |
- Gambar ( tfds.show_examples ):
- Contoh ( tfds.as_dataframe ):
controlled_noisy_web_labels/mini_imagenet_blue
Ukuran dataset :
1.39 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'train_00' | 60.000 |
'train_05' | 60.000 |
'train_10' | 60.000 |
'train_15' | 60.000 |
'train_20' | 60.000 |
'train_30' | 60.000 |
'train_40' | 60.000 |
'train_50' | 60.000 |
'train_60' | 60.000 |
'train_80' | 60.000 |
'validation' | 5.000 |
- Gambar ( tfds.show_examples ):
- Contoh ( tfds.as_dataframe ):