передвижение

  • Описание :

Наборы данных были созданы с помощью агента SAC, обученного работе с окружающей средой в задачах передвижения MuJoCo. Эти наборы данных используются в разделе «Что важно для состязательного имитационного обучения?» Орсини и др. 2021 .

Наборы данных соответствуют формату RLDS для представления шагов и эпизодов.

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic (конфигурация по умолчанию)

  • Описание конфигурации : набор данных, созданный агентом SAC, обученным шагам 1M для Ant.

  • Размер загрузки : 6.49 MiB

  • Размер набора данных : 23.02 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 50
  • Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
шаги Набор данных
шаги/действие Тензор (8,) поплавок32
шаги/скидка Тензор поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение Тензор (111,) поплавок32
шаги/награда Тензор поплавок32

передвижение/hopper_sac_1M_single_policy_stochastic

  • Описание конфигурации : набор данных, созданный агентом SAC, обученным шагам 1M для Hopper.

  • Размер загрузки : 2.26 MiB

  • Размер набора данных : 2.62 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 50
  • Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
шаги Набор данных
шаги/действие Тензор (3,) поплавок32
шаги/скидка Тензор поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение Тензор (11,) поплавок32
шаги/награда Тензор поплавок32

передвижение/halfcheetah_sac_1M_single_policy_stochastic

  • Описание конфигурации : набор данных, созданный агентом SAC, обученным шагам 1M для HalfCheetah.

  • Размер загрузки : 4.49 MiB

  • Размер набора данных : 4.93 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 50
  • Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
шаги Набор данных
шаги/действие Тензор (6,) поплавок32
шаги/скидка Тензор поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение Тензор (17,) поплавок32
шаги/награда Тензор поплавок32

передвижение/ходок2d_sac_1M_single_policy_stochastic

  • Описание конфигурации : набор данных, созданный агентом SAC, обученным шагам 1M для Walker2d.

  • Размер загрузки : 4.35 MiB

  • Размер набора данных : 4.91 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 50
  • Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
шаги Набор данных
шаги/действие Тензор (6,) поплавок32
шаги/скидка Тензор поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение Тензор (17,) поплавок32
шаги/награда Тензор поплавок32

передвижение/humanoid_sac_15M_single_policy_stochastic

  • Описание конфигурации : набор данных, сгенерированный агентом SAC, обученным 15 млн шагов для гуманоида.

  • Размер загрузки : 192.78 MiB

  • Размер набора данных : 300.94 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 200
  • Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
шаги Набор данных
шаги/действие Тензор (17,) поплавок32
шаги/скидка Тензор поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение Тензор (376,) поплавок32
шаги/награда Тензор поплавок32