webvid

  • Descrição :

WebVid é um conjunto de dados em larga escala de vídeos curtos com descrições textuais provenientes da web. Os vídeos são diversos e ricos em seu conteúdo.

WebVid-10M contém:

10,7 milhões de pares de legendas de vídeo. 52K horas totais de vídeo.

  • Página inicial : https://m-bain.github.io/webvid-dataset/

  • Código-fonte : tfds.datasets.webvid.Builder

  • Versões :

    • 1.0.0 (padrão): versão inicial.
  • Tamanho do download : Unknown size

  • Tamanho do conjunto de dados : Unknown size

  • Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    Siga as instruções de download em https://m-bain.github.io/webvid-dataset/ para obter os dados. Coloque os arquivos csv e os diretórios de vídeo em manual_dir/webvid , de forma que os arquivos mp4 sejam colocados em manual_dir/webvid/*/*_*/*.mp4 .

O primeiro diretório normalmente é um diretório de parte arbitrária (para download fragmentado), o segundo diretório é o diretório da página (dois números ao redor do sublinhado), dentro do qual há um ou mais arquivos mp4.

  • Armazenado em cache automaticamente ( documentação ): Desconhecido

  • Divisões :

Dividir Exemplos
  • Estrutura de recursos :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
  • Documentação do recurso :
Recurso Aula Forma Tipo D Descrição
RecursosDict
rubrica Texto corda
eu ia Texto corda
url Texto corda
vídeo Vídeo(Imagem) (Nenhum, 360, 640, 3) uint8
@misc{bain2021frozen,
      title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
      author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
      year={2021},
      eprint={2104.00650},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}
,

  • Descrição :

WebVid é um conjunto de dados em larga escala de vídeos curtos com descrições textuais provenientes da web. Os vídeos são diversos e ricos em seu conteúdo.

WebVid-10M contém:

10,7 milhões de pares de legendas de vídeo. 52K horas totais de vídeo.

  • Página inicial : https://m-bain.github.io/webvid-dataset/

  • Código-fonte : tfds.datasets.webvid.Builder

  • Versões :

    • 1.0.0 (padrão): versão inicial.
  • Tamanho do download : Unknown size

  • Tamanho do conjunto de dados : Unknown size

  • Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    Siga as instruções de download em https://m-bain.github.io/webvid-dataset/ para obter os dados. Coloque os arquivos csv e os diretórios de vídeo em manual_dir/webvid , de forma que os arquivos mp4 sejam colocados em manual_dir/webvid/*/*_*/*.mp4 .

O primeiro diretório normalmente é um diretório de parte arbitrária (para download fragmentado), o segundo diretório é o diretório da página (dois números ao redor do sublinhado), dentro do qual há um ou mais arquivos mp4.

  • Armazenado em cache automaticamente ( documentação ): Desconhecido

  • Divisões :

Dividir Exemplos
  • Estrutura de recursos :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
  • Documentação do recurso :
Recurso Aula Forma Tipo D Descrição
RecursosDict
rubrica Texto corda
eu ia Texto corda
url Texto corda
vídeo Vídeo(Imagem) (Nenhum, 360, 640, 3) uint8
@misc{bain2021frozen,
      title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
      author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
      year={2021},
      eprint={2104.00650},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}