bc_z

  • Descrição :

Robô teleopado do Google fazendo principalmente escolhas em uma mesa

Dividir Exemplos
'train' 39.350
'val' 3.914
  • Estrutura de recursos :
FeaturesDict({
    'steps': Dataset({
        'action': FeaturesDict({
            'future/axis_angle_residual': Tensor(shape=(30,), dtype=float32, description=The next 10 actions for the rotation. Each action is a 3D delta to add to the current axis angle.),
            'future/target_close': Tensor(shape=(10,), dtype=int64, description=The next 10 actions for the gripper. Each action is the value the gripper closure should be changed to (notably it is *not* a delta.)),
            'future/xyz_residual': Tensor(shape=(30,), dtype=float32, description=The next 10 actions for the positions. Each action is a 3D delta to add to current position.),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'episode_success': float32,
            'image': Image(shape=(171, 213, 3), dtype=uint8, description=Camera image of the robot, downsampled 3x),
            'natural_language_embedding': Tensor(shape=(512,), dtype=float32, description=An embedding of the task via Universal Sentence Encoder (https://tfhub.dev/google/universal-sentence-encoder/4)),
            'natural_language_instruction': string,
            'present/autonomous': int64,
            'present/axis_angle': Tensor(shape=(3,), dtype=float32, description=The current rotation of the end effector in axis-angle representation.),
            'present/intervention': int64,
            'present/sensed_close': Tensor(shape=(1,), dtype=float32, description=How much the gripper is currently closed. Scaled from 0 to 1, but not all values from 0 to 1 are reachable. The range in the data is about 0.2 to 1),
            'present/xyz': Tensor(shape=(3,), dtype=float32, description=The current position of the end effector in axis-angle representation, in robot frame),
            'sequence_length': int64,
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
passos Conjunto de dados
etapas/ação RecursosDict
etapas/ação/futuro/axis_angle_residual Tensor (30,) float32 As próximas 10 ações para a rotação. Cada ação é um delta 3D a ser adicionado ao ângulo do eixo atual.
etapas/ação/futuro/target_close Tensor (10,) int64 As próximas 10 ações para a pinça. Cada ação é o valor para o qual o fechamento da garra deve ser alterado (notadamente, não é um delta).
etapas/ação/futuro/xyz_residual Tensor (30,) float32 As próximas 10 ações para as posições. Cada ação é um delta 3D para adicionar à posição atual.
passos/é_primeiro Tensor bool
passos/é_último Tensor bool
etapas/is_terminal Tensor bool
passos/observação RecursosDict
etapas/observação/episódio_sucesso Tensor float32 Um rótulo de sucesso 0-1
passos/observação/imagem Imagem (171, 213, 3) uint8 Imagem da câmera do robô, com resolução reduzida de 3x
etapas/observação/integração_de_linguagem_natural Tensor (512,) float32 Uma incorporação da tarefa por meio do Universal Sentence Encoder ( https://tfhub.dev/google/universal-sentence-encoder/4 )
etapas/observação/instrução_de_linguagem_natural Tensor corda A tarefa que o robô foi solicitado a realizar.
passos/observação/presente/autônomo Tensor int64 Os episódios são coletados via DAgger. Este é um rótulo 0/1 para saber se a ação é da política ou do teleoperador. 1 = da política.
passos/observação/presente/axis_angle Tensor (3,) float32 A rotação atual do efetor final na representação do ângulo do eixo.
etapas/observação/presente/intervenção Tensor int64 Os episódios são coletados via DAgger. Este é um rótulo 0/1 para saber se a ação é da política ou do teleoperador. 1 = da teleoperadora. Isto é exatamente o oposto de presente/autônomo
etapas/observação/presente/sensed_close Tensor (1,) float32 Quanto a garra está atualmente fechada. Escalado de 0 a 1, mas nem todos os valores de 0 a 1 são acessíveis. O intervalo nos dados é de cerca de 0,2 a 1
etapas/observação/presente/xyz Tensor (3,) float32 A posição atual do efetor final na representação do ângulo do eixo, na estrutura do robô
passos/observação/sequence_length Tensor int64 Duração do episódio
passos/recompensa Escalar float32
  • Citação :
@inproceedings{jang2021bc,
title={ {BC}-Z: Zero-Shot Task Generalization with Robotic Imitation Learning},
author={Eric Jang and Alex Irpan and Mohi Khansari and Daniel Kappler and Frederik Ebert and Corey Lynch and Sergey Levine and Chelsea Finn},
booktitle={5th Annual Conference on Robot Learning},
year={2021},
url={https://openreview.net/forum?id=8kbp23tSGYv} }