- Descrição :
WebVid é um conjunto de dados em larga escala de vídeos curtos com descrições textuais provenientes da web. Os vídeos são diversos e ricos em seu conteúdo.
WebVid-10M contém:
10,7 milhões de pares de legendas de vídeo. 52K horas totais de vídeo.
Página inicial : https://m-bain.github.io/webvid-dataset/
Código-fonte :
tfds.datasets.webvid.Builder
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
Unknown size
Tamanho do conjunto de dados :
Unknown size
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Siga as instruções de download em https://m-bain.github.io/webvid-dataset/ para obter os dados. Coloque os arquivos csv e os diretórios de vídeo emmanual_dir/webvid
, de forma que os arquivos mp4 sejam colocados emmanual_dir/webvid/*/*_*/*.mp4
.
O primeiro diretório normalmente é um diretório de parte arbitrária (para download fragmentado), o segundo diretório é o diretório da página (dois números ao redor do sublinhado), dentro do qual há um ou mais arquivos mp4.
Armazenado em cache automaticamente ( documentação ): Desconhecido
Divisões :
Dividir | Exemplos |
---|
- Estrutura de recursos :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
- Documentação do recurso :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
rubrica | Texto | corda | ||
eu ia | Texto | corda | ||
url | Texto | corda | ||
vídeo | Vídeo(Imagem) | (Nenhum, 360, 640, 3) | uint8 |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ): Ausente.
Citação :
@misc{bain2021frozen,
title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
year={2021},
eprint={2104.00650},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
, - Descrição :
WebVid é um conjunto de dados em larga escala de vídeos curtos com descrições textuais provenientes da web. Os vídeos são diversos e ricos em seu conteúdo.
WebVid-10M contém:
10,7 milhões de pares de legendas de vídeo. 52K horas totais de vídeo.
Página inicial : https://m-bain.github.io/webvid-dataset/
Código-fonte :
tfds.datasets.webvid.Builder
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
Unknown size
Tamanho do conjunto de dados :
Unknown size
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Siga as instruções de download em https://m-bain.github.io/webvid-dataset/ para obter os dados. Coloque os arquivos csv e os diretórios de vídeo emmanual_dir/webvid
, de forma que os arquivos mp4 sejam colocados emmanual_dir/webvid/*/*_*/*.mp4
.
O primeiro diretório normalmente é um diretório de parte arbitrária (para download fragmentado), o segundo diretório é o diretório da página (dois números ao redor do sublinhado), dentro do qual há um ou mais arquivos mp4.
Armazenado em cache automaticamente ( documentação ): Desconhecido
Divisões :
Dividir | Exemplos |
---|
- Estrutura de recursos :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
- Documentação do recurso :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
rubrica | Texto | corda | ||
eu ia | Texto | corda | ||
url | Texto | corda | ||
vídeo | Vídeo(Imagem) | (Nenhum, 360, 640, 3) | uint8 |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ): Ausente.
Citação :
@misc{bain2021frozen,
title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
year={2021},
eprint={2104.00650},
archivePrefix={arXiv},
primaryClass={cs.CV}
}