bc_z

  • Opis :

Teleoped robot Google, który głównie wybiera miejsce ze stołu

Podział Przykłady
'train' 39350
'val' 3914
  • Struktura funkcji :
FeaturesDict({
    'steps': Dataset({
        'action': FeaturesDict({
            'future/axis_angle_residual': Tensor(shape=(30,), dtype=float32, description=The next 10 actions for the rotation. Each action is a 3D delta to add to the current axis angle.),
            'future/target_close': Tensor(shape=(10,), dtype=int64, description=The next 10 actions for the gripper. Each action is the value the gripper closure should be changed to (notably it is *not* a delta.)),
            'future/xyz_residual': Tensor(shape=(30,), dtype=float32, description=The next 10 actions for the positions. Each action is a 3D delta to add to current position.),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'episode_success': float32,
            'image': Image(shape=(171, 213, 3), dtype=uint8, description=Camera image of the robot, downsampled 3x),
            'natural_language_embedding': Tensor(shape=(512,), dtype=float32, description=An embedding of the task via Universal Sentence Encoder (https://tfhub.dev/google/universal-sentence-encoder/4)),
            'natural_language_instruction': string,
            'present/autonomous': int64,
            'present/axis_angle': Tensor(shape=(3,), dtype=float32, description=The current rotation of the end effector in axis-angle representation.),
            'present/intervention': int64,
            'present/sensed_close': Tensor(shape=(1,), dtype=float32, description=How much the gripper is currently closed. Scaled from 0 to 1, but not all values from 0 to 1 are reachable. The range in the data is about 0.2 to 1),
            'present/xyz': Tensor(shape=(3,), dtype=float32, description=The current position of the end effector in axis-angle representation, in robot frame),
            'sequence_length': int64,
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDykt
kroki Zbiór danych
kroki/akcja FunkcjeDykt
kroki/akcja/przyszłość/oś_kąta_resztowa Napinacz (30,) pływak32 Kolejne 10 akcji dla rotacji. Każda akcja to delta 3D, którą należy dodać do bieżącego kąta osi.
kroki/akcja/przyszłość/zamknięcie celu Napinacz (10,) int64 Kolejne 10 akcji dla chwytaka. Każda akcja to wartość, na którą należy zmienić zamknięcie chwytaka (w szczególności nie jest to delta).
kroki/akcja/przyszłość/xyz_residual Napinacz (30,) pływak32 Kolejne 10 akcji dla pozycji. Każda akcja to delta 3D, którą należy dodać do bieżącej pozycji.
kroki/jest_pierwszy Napinacz bool
kroki/jest_ostatni Napinacz bool
kroki/is_terminal Napinacz bool
kroki/obserwacje FunkcjeDykt
kroki/obserwacja/sukces_odcinka Napinacz pływak32 Etykieta sukcesu 0-1
kroki/obserwacja/obraz Obraz (171, 213, 3) uint8 Obraz z kamery robota, próbkowany 3x
kroki/obserwacja/osadzanie_języka_naturalnego Napinacz (512,) pływak32 Osadzanie zadania poprzez Universal Sentence Encoder ( https://tfhub.dev/google/universal-sentence-encoder/4 )
kroki/obserwacja/instrukcja_języka_naturalnego Napinacz smyczkowy Zadanie, które miał wykonać robot.
kroki/obserwacja/obecność/autonomia Napinacz int64 Odcinki są zbierane za pomocą DAggera. Jest to etykieta 0/1 określająca, czy akcja pochodzi z polisy, czy z teleoperatora. 1 = z polityki.
kroki/obserwacja/obecność/kąt_osi Napinacz (3,) pływak32 Bieżący obrót efektora końcowego w reprezentacji kąta osi.
kroki/obserwacja/obecność/interwencja Napinacz int64 Odcinki są zbierane za pomocą DAggera. Jest to etykieta 0/1 określająca, czy akcja pochodzi z polisy, czy z teleoperatora. 1 = od teleoperatora. Jest to dokładne przeciwieństwo teraźniejszości/autonomii
kroki/obserwacja/obecność/sensed_close Napinacz (1,) pływak32 Stopień, w jakim chwytak jest aktualnie zamknięty. Skalowane od 0 do 1, ale nie wszystkie wartości od 0 do 1 są osiągalne. Zakres danych wynosi około 0,2 do 1
kroki/obserwacja/obecność/xyz Napinacz (3,) pływak32 Bieżąca pozycja efektora końcowego w reprezentacji kąta osi w ramie robota
kroki/obserwacja/długość_sekwencji Napinacz int64 Długość odcinka
kroki/nagroda Skalarny pływak32
  • Cytat :
@inproceedings{jang2021bc,
title={ {BC}-Z: Zero-Shot Task Generalization with Robotic Imitation Learning},
author={Eric Jang and Alex Irpan and Mohi Khansari and Daniel Kappler and Frederik Ebert and Corey Lynch and Sergey Levine and Chelsea Finn},
booktitle={5th Annual Conference on Robot Learning},
year={2021},
url={https://openreview.net/forum?id=8kbp23tSGYv} }