TFDS теперь поддерживает формат Croissant 🥐 ! Прочтите документацию , чтобы узнать больше.

Эта страница переведена с помощью Cloud Translation API.

rlu_control_suite

Описание :

RL Unplugged — это набор тестов для автономного обучения с подкреплением. RL Unplugged разработан с учетом следующих соображений: чтобы упростить использование, мы предоставляем наборы данных с унифицированным API, который позволяет практикующим специалистам легко работать со всеми данными в наборе после того, как общий конвейер был установлен.

Наборы данных соответствуют формату RLDS для представления шагов и эпизодов.

DeepMind Control Suite Tassa et al., 2018 — набор задач управления, реализованный в MuJoCo Todorov et al., 2012 . Мы рассматриваем подмножество заданий, представленных в наборе, которые охватывают широкий спектр трудностей.

Большинство наборов данных в этой области создаются с использованием D4PG. Для сред Манипулятор вставки шара и Манипулятор вставки штифта мы используем V-MPO Song et al., 2020 для генерации данных, поскольку D4PG не может решить эти задачи. Мы выпускаем наборы данных для 9 задач контрольного набора. Подробнее о том, как был сгенерирован набор данных, см. в документе.

DeepMind Control Suite — это традиционный тест непрерывного действия RL. В частности, мы рекомендуем вам протестировать свой подход в DeepMind Control Suite, если вы заинтересованы в сравнении с другими современными методами автономного RL.

Домашняя страница : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Исходный код : tfds.rl_unplugged.rlu_control_suite.RluControlSuite
Версии :
- 1.0.0 (по умолчанию): Первоначальный выпуск.
Размер загрузки : Unknown size
Ключи под наблюдением (см . документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_control_suite/cartpole_swingup (конфигурация по умолчанию)

Размер набора данных : 2.12 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	40

Структура функции :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
id_эпизода	Тензор		int64
шаги	Набор данных
шаги/действие	Тензор	(1,)	поплавок32
шаги/скидка	Тензор		поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/позиция	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(2,)	поплавок32
шаги/награда	Тензор		поплавок32
отметка времени	Тензор		int64

Примеры ( tfds.as_dataframe ):

rlu_control_suite/cheetah_run

Размер набора данных : 36.58 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	300

Структура функции :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(8,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
id_эпизода	Тензор		int64
шаги	Набор данных
шаги/действие	Тензор	(6,)	поплавок32
шаги/скидка	Тензор		поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/позиция	Тензор	(8,)	поплавок32
шаги/наблюдение/скорость	Тензор	(9,)	поплавок32
шаги/награда	Тензор		поплавок32
отметка времени	Тензор		int64

Примеры ( tfds.as_dataframe ):

rlu_control_suite/finger_turn_hard

Размер набора данных : 47.61 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	500

Структура функции :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(2,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dist_to_target': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(4,), dtype=float32),
            'target_position': Tensor(shape=(2,), dtype=float32),
            'velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
id_эпизода	Тензор		int64
шаги	Набор данных
шаги/действие	Тензор	(2,)	поплавок32
шаги/скидка	Тензор		поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/dist_to_target	Тензор	(1,)	поплавок32
шаги/наблюдение/позиция	Тензор	(4,)	поплавок32
шаги/наблюдение/target_position	Тензор	(2,)	поплавок32
шаги/наблюдение/скорость	Тензор	(3,)	поплавок32
шаги/награда	Тензор		поплавок32
отметка времени	Тензор		int64

Примеры ( tfds.as_dataframe ):

rlu_control_suite/fish_swim

Размер набора данных : 32.81 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	200

Структура функции :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'joint_angles': Tensor(shape=(7,), dtype=float32),
            'target': Tensor(shape=(3,), dtype=float32),
            'upright': Tensor(shape=(1,), dtype=float32),
            'velocity': Tensor(shape=(13,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
id_эпизода	Тензор		int64
шаги	Набор данных
шаги/действие	Тензор	(5,)	поплавок32
шаги/скидка	Тензор		поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/joint_angles	Тензор	(7,)	поплавок32
шаги/наблюдение/цель	Тензор	(3,)	поплавок32
шаги / наблюдение / вертикально	Тензор	(1,)	поплавок32
шаги/наблюдение/скорость	Тензор	(13,)	поплавок32
шаги/награда	Тензор		поплавок32
отметка времени	Тензор		int64

Примеры ( tfds.as_dataframe ):

rlu_control_suite/humanoid_run

Размер набора данных : 1.21 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	3000

Структура функции :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
id_эпизода	Тензор		int64
шаги	Набор данных
шаги/действие	Тензор	(21,)	поплавок32
шаги/скидка	Тензор		поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/com_velocity	Тензор	(3,)	поплавок32
шаги/наблюдение/конечности	Тензор	(12,)	поплавок32
шаги/наблюдение/head_height	Тензор	(1,)	поплавок32
шаги/наблюдение/joint_angles	Тензор	(21,)	поплавок32
шаги/наблюдение/torso_vertical	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(27,)	поплавок32
шаги/награда	Тензор		поплавок32
отметка времени	Тензор		int64

Примеры ( tfds.as_dataframe ):

rlu_control_suite/manipulator_insert_ball

Размер набора данных : 385.41 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	1500

Структура функции :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
id_эпизода	Тензор		int64
шаги	Набор данных
шаги/действие	Тензор	(5,)	поплавок32
шаги/скидка	Тензор		поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/arm_pos	Тензор	(16,)	поплавок32
шаги/наблюдение/arm_vel	Тензор	(8,)	поплавок32
шаги/наблюдение/hand_pos	Тензор	(4,)	поплавок32
шаги/наблюдение/object_pos	Тензор	(4,)	поплавок32
шаги/наблюдение/object_vel	Тензор	(3,)	поплавок32
шаги/наблюдение/target_pos	Тензор	(4,)	поплавок32
шаги/наблюдение/прикосновение	Тензор	(5,)	поплавок32
шаги/награда	Тензор		поплавок32
отметка времени	Тензор		int64

Примеры ( tfds.as_dataframe ):

rlu_control_suite/manipulator_insert_peg

Размер набора данных : 385.73 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	1500

Структура функции :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
id_эпизода	Тензор		int64
шаги	Набор данных
шаги/действие	Тензор	(5,)	поплавок32
шаги/скидка	Тензор		поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/arm_pos	Тензор	(16,)	поплавок32
шаги/наблюдение/arm_vel	Тензор	(8,)	поплавок32
шаги/наблюдение/hand_pos	Тензор	(4,)	поплавок32
шаги/наблюдение/object_pos	Тензор	(4,)	поплавок32
шаги/наблюдение/object_vel	Тензор	(3,)	поплавок32
шаги/наблюдение/target_pos	Тензор	(4,)	поплавок32
шаги/наблюдение/прикосновение	Тензор	(5,)	поплавок32
шаги/награда	Тензор		поплавок32
отметка времени	Тензор		int64

Примеры ( tfds.as_dataframe ):

rlu_control_suite/walker_stand

Размер набора данных : 31.78 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	200

Структура функции :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
id_эпизода	Тензор		int64
шаги	Набор данных
шаги/действие	Тензор	(6,)	поплавок32
шаги/скидка	Тензор		поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/высота	Тензор	(1,)	поплавок32
шаги/наблюдение/ориентация	Тензор	(14,)	поплавок32
шаги/наблюдение/скорость	Тензор	(9,)	поплавок32
шаги/награда	Тензор		поплавок32
отметка времени	Тензор		int64

Примеры ( tfds.as_dataframe ):

rlu_control_suite/walker_walk

Размер набора данных : 31.78 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	200

Структура функции :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
id_эпизода	Тензор		int64
шаги	Набор данных
шаги/действие	Тензор	(6,)	поплавок32
шаги/скидка	Тензор		поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/высота	Тензор	(1,)	поплавок32
шаги/наблюдение/ориентация	Тензор	(14,)	поплавок32
шаги/наблюдение/скорость	Тензор	(9,)	поплавок32
шаги/награда	Тензор		поплавок32
отметка времени	Тензор		int64

Примеры ( tfds.as_dataframe ):