Controlled_noisy_web_labels

説明:

Controlled Noisy Web Labels は、画像への最大 212,000 の URL のコレクションであり、すべての画像は、Google Cloud Data Labeling Service によって 3 ～ 5 人のラベル付けの専門家によって慎重に注釈が付けられています。これらの注釈を使用して、Web から制御された現実世界のラベルノイズの最初のベンチマークを確立します。

赤の Mini-ImageNet (現実世界の Web ノイズ) と青の Mini-ImageNet 構成を提供します。

各構成には、0% から 80% までの 10 のノイズレベル p を持つ 10 のバリアントが含まれています。検証セットにはクリーンなラベルがあり、ノイズの多いすべてのトレーニングセットで共有されます。したがって、各構成には次の分割があります。

train_00
train_05
train_10
train_15
train_20
train_30
train_40
train_50
train_60
train_80
検証

データセットの構築と分析の詳細については、論文を参照してください。すべての画像は 84x84 の解像度にサイズ変更されます。

ホームページ: https://google.github.io/controld-noisy-web-labels/index.html
ソースコード: tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
バージョン:
- 1.0.0 (デフォルト): 初期リリース。
ダウンロードサイズ: 1.83 MiB
手動ダウンロードの手順: このデータセットでは、ソースデータを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
このデータを手動でダウンロードするには、ユーザーは次の操作を実行する必要があります。

分割と注釈はこちらからダウンロードしてください
dataset_no_images.zip を dataset_no_images/ に解凍します。
dataset_no_images/mini-imagenet-annotations.json 内のすべての画像を、dataset_no_images/noisy_images/ という名前の新しいフォルダーにダウンロードします。出力ファイル名は、mini-imagenet-annotations.json で提供されるイメージ ID と一致する必要があります。たとえば、"image/id": "5922767e5677aef4" の場合、ダウンロードされる画像は dataset_no_images/noisy_images/5922767e5677aef4.jpg になります。 4. https://image-net.org/download-imagesに登録し、ILSVRC2012_img_train.tar と ILSVRC2012_img_val.tar をダウンロードします。

結果のディレクトリ構造は、TFDS によって処理される場合があります。

dataset_no_images/
- ミニイメージネット/
- クラス名.txt
- スプリット/
  - blue_noise_nl_0.0
  - blue_noise_nl_0.1
  - ...
  - red_noise_nl_0.0
  - red_noise_nl_0.1
  - ...
  - clean_validation
- mini-imagenet-annotations.json
ILSVRC2012_img_train.tar
ILSVRC2012_img_val.tar
うるさい_画像/
- 5922767e5677aef4.jpg
自動キャッシュ(ドキュメント): いいえ
機能構造:

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
ID	文章		ストリング
画像	画像	(なし、なし、3)	uint8
is_clean	テンソル		ブール
ラベル	クラスラベル		int64

監視されたキー( as_supervised docを参照): ('image', 'label')
引用：

@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

controls_noisy_web_labels/mini_imagenet_red (デフォルト設定)

データセットサイズ: 1.19 GiB
スプリット:

スプリット	例
`'train_00'`	50,000
`'train_05'`	50,000
`'train_10'`	50,000
`'train_15'`	50,000
`'train_20'`	50,000
`'train_30'`	49,985
`'train_40'`	50,010
`'train_50'`	49,962
`'train_60'`	50,000
`'train_80'`	50,008
`'validation'`	5,000

図( tfds.show_examples ):

視覚化

例( tfds.as_dataframe ):

controls_noisy_web_labels/mini_imagenet_blue

データセットサイズ: 1.39 GiB
スプリット:

スプリット	例
`'train_00'`	60,000
`'train_05'`	60,000
`'train_10'`	60,000
`'train_15'`	60,000
`'train_20'`	60,000
`'train_30'`	60,000
`'train_40'`	60,000
`'train_50'`	60,000
`'train_60'`	60,000
`'train_80'`	60,000
`'validation'`	5,000

図( tfds.show_examples ):

視覚化

例( tfds.as_dataframe ):

Controlled_noisy_web_labels コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

controls_noisy_web_labels/mini_imagenet_red (デフォルト設定)

controls_noisy_web_labels/mini_imagenet_blue

Controlled_noisy_web_labels