TFDS теперь поддерживает формат Croissant 🥐 ! Прочтите документацию , чтобы узнать больше.

Эта страница переведена с помощью Cloud Translation API.

передвижение

Описание :

Наборы данных были созданы с помощью агента SAC, обученного выполнять задачи передвижения MuJoCo в условиях окружающей среды. Эти наборы данных используются в документе «Что имеет значение для состязательного имитационного обучения?» Орсини и др. 2021 .

Наборы данных соответствуют формату RLDS для представления шагов и эпизодов.

Домашняя страница : https://github.com/google-research/rlds.
Исходный код : tfds.rlds.datasets.locomotion.Locomotion
Версии :
- 1.0.0 (по умолчанию): первоначальный выпуск.
Контролируемые ключи (см. документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic (конфигурация по умолчанию)

Описание конфигурации : набор данных, созданный агентом SAC, обученным на 1 млн шагов для Ant.
Размер загрузки : 6.49 MiB
Размер набора данных : 23.02 MiB
Автокэширование ( документация ): Да
Расколы :

Расколоть	Примеры
`'train'`	50

Структура функции :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Функциональная документация :

Особенность	Сорт	Форма	Дтип
	ВозможностиDict
шаги	Набор данных
шаги/действия	Тензор	(8,)	поплавок32
шаги/скидка	Тензор		поплавок32
шаги/is_first	Тензор		логическое значение
шаги/is_last	Тензор		логическое значение
шаги/is_terminal	Тензор		логическое значение
шаги/наблюдение	Тензор	(111,)	поплавок32
шаги/награда	Тензор		поплавок32

Примеры ( tfds.as_dataframe ):

локомоция/hopper_sac_1M_single_policy_stochastic

Описание конфигурации : набор данных, созданный агентом SAC, обученным выполнять 1 миллион шагов для Hopper.
Размер загрузки : 2.26 MiB
Размер набора данных : 2.62 MiB
Автокэширование ( документация ): Да
Расколы :

Расколоть	Примеры
`'train'`	50

Структура функции :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Функциональная документация :

Особенность	Сорт	Форма	Дтип
	ВозможностиDict
шаги	Набор данных
шаги/действия	Тензор	(3,)	поплавок32
шаги/скидка	Тензор		поплавок32
шаги/is_first	Тензор		логическое значение
шаги/is_last	Тензор		логическое значение
шаги/is_terminal	Тензор		логическое значение
шаги/наблюдение	Тензор	(11,)	поплавок32
шаги/награда	Тензор		поплавок32

Примеры ( tfds.as_dataframe ):

локомоция/halfcheetah_sac_1M_single_policy_stochastic

Описание конфигурации : набор данных, созданный агентом SAC, обученным выполнять 1 миллион шагов для HalfCheetah.
Размер загрузки : 4.49 MiB
Размер набора данных : 4.93 MiB
Автокэширование ( документация ): Да
Расколы :

Расколоть	Примеры
`'train'`	50

Структура функции :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Функциональная документация :

Особенность	Сорт	Форма	Дтип
	ВозможностиDict
шаги	Набор данных
шаги/действия	Тензор	(6,)	поплавок32
шаги/скидка	Тензор		поплавок32
шаги/is_first	Тензор		логическое значение
шаги/is_last	Тензор		логическое значение
шаги/is_terminal	Тензор		логическое значение
шаги/наблюдение	Тензор	(17,)	поплавок32
шаги/награда	Тензор		поплавок32

Примеры ( tfds.as_dataframe ):

локомоция/walker2d_sac_1M_single_policy_stochastic

Описание конфигурации : набор данных, созданный агентом SAC, обученным выполнять 1 млн шагов для Walker2d.
Размер загрузки : 4.35 MiB
Размер набора данных : 4.91 MiB
Автокэширование ( документация ): Да
Расколы :

Расколоть	Примеры
`'train'`	50

Структура функции :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Функциональная документация :

Особенность	Сорт	Форма	Дтип
	ВозможностиDict
шаги	Набор данных
шаги/действия	Тензор	(6,)	float32
шаги/скидка	Тензор		поплавок32
шаги/is_first	Тензор		логическое значение
шаги/is_last	Тензор		логическое значение
шаги/is_terminal	Тензор		логическое значение
шаги/наблюдение	Тензор	(17,)	поплавок32
шаги/награда	Тензор		поплавок32

Примеры ( tfds.as_dataframe ):

локомоция/humanoid_sac_15M_single_policy_stochastic

Описание конфигурации : набор данных, созданный агентом SAC, обученным на 15 миллионов шагов для гуманоида.
Размер загрузки : 192.78 MiB
Размер набора данных : 300.94 MiB
Автокэширование ( документация ): Нет
Расколы :

Расколоть	Примеры
`'train'`	200

Структура функции :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})

Функциональная документация :

Особенность	Сорт	Форма	Дтип
	ВозможностиDict
шаги	Набор данных
шаги/действия	Тензор	(17,)	поплавок32
шаги/скидка	Тензор		поплавок32
шаги/is_first	Тензор		логическое значение
шаги/is_last	Тензор		логическое значение
шаги/is_terminal	Тензор		логическое значение
шаги/наблюдение	Тензор	(376,)	поплавок32
шаги/награда	Тензор		поплавок32

Примеры ( tfds.as_dataframe ):

передвижение Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.