Speech_commands
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
キーワード スポッティング システムのトレーニングと評価に役立つように設計された、話し言葉の音声データセット。その主な目標は、バックグラウンド ノイズや無関係な発話による誤検出をできるだけ少なくして、10 個のターゲット ワードのセットから 1 つの単語が話されたことを検出する小さなモデルを構築してテストする方法を提供することです。トレーニングと検証セットでは、「不明」というラベルが、ターゲットの単語やバックグラウンド ノイズのラベルよりもはるかに一般的であることに注意してください。リリース バージョンとの違いの 1 つは、サイレント セグメントの処理です。テスト セットでは無音セグメントは通常の 1 秒のファイルですが、トレーニングでは "background_noise" フォルダーの下に長いセグメントとして提供されます。ここでは、これらのバックグラウンド ノイズを 1 秒のクリップに分割し、ファイルの 1 つを検証セット用に保持します。
スプリット | 例 |
---|
'test' | 4,890 |
'train' | 85,511 |
'validation' | 10,102 |
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
特徴 | クラス | 形 | Dtype | 説明 |
---|
| 特徴辞書 | | | |
オーディオ | オーディオ | (なし、) | int16 | |
ラベル | クラスラベル | | int64 | |
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2023-01-13 UTC。
[null,null,["最終更新日 2023-01-13 UTC。"],[],[],null,["# speech_commands\n\n\u003cbr /\u003e\n\n- **Description**:\n\nAn audio dataset of spoken words designed to help train and evaluate keyword\nspotting systems. Its primary goal is to provide a way to build and test small\nmodels that detect when a single word is spoken, from a set of ten target words,\nwith as few false positives as possible from background noise or unrelated\nspeech. Note that in the train and validation set, the label \"unknown\" is much\nmore prevalent than the labels of the target words or background noise. One\ndifference from the release version is the handling of silent segments. While in\nthe test set the silence segments are regular 1 second files, in the training\nthey are provided as long segments under \"background_noise\" folder. Here we\nsplit these background noise into 1 second clips, and also keep one of the files\nfor the validation set.\n\n- **Additional Documentation** :\n [Explore on Papers With Code\n north_east](https://paperswithcode.com/dataset/speech-commands)\n\n- **Homepage** :\n \u003chttps://arxiv.org/abs/1804.03209\u003e\n\n- **Source code** :\n [`tfds.datasets.speech_commands.Builder`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/datasets/speech_commands/speech_commands_dataset_builder.py)\n\n- **Versions**:\n\n - **`0.0.3`** (default): Fix audio data type with dtype=tf.int16.\n- **Download size** : `2.37 GiB`\n\n- **Dataset size** : `8.17 GiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n No\n\n- **Splits**:\n\n| Split | Examples |\n|----------------|----------|\n| `'test'` | 4,890 |\n| `'train'` | 85,511 |\n| `'validation'` | 10,102 |\n\n- **Feature structure**:\n\n FeaturesDict({\n 'audio': Audio(shape=(None,), dtype=int16),\n 'label': ClassLabel(shape=(), dtype=int64, num_classes=12),\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|---------|--------------|---------|-------|-------------|\n| | FeaturesDict | | | |\n| audio | Audio | (None,) | int16 | |\n| label | ClassLabel | | int64 | |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('audio', 'label')`\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\n- **Citation**:\n\n @article{speechcommandsv2,\n author = { {Warden}, P.},\n title = \"{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}\",\n journal = {ArXiv e-prints},\n archivePrefix = \"arXiv\",\n eprint = {1804.03209},\n primaryClass = \"cs.CL\",\n keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},\n year = 2018,\n month = apr,\n url = {https://arxiv.org/abs/1804.03209},\n }"]]