- Açıklama :
RL Unplugged, çevrimdışı pekiştirmeli öğrenim için karşılaştırmalı değerlendirmeler paketidir. RL Unplugged, aşağıdaki hususlar etrafında tasarlanmıştır: kullanım kolaylığını kolaylaştırmak için, veri kümelerine, genel bir ardışık düzen oluşturulduktan sonra uygulayıcının paketteki tüm verilerle çalışmasını kolaylaştıran birleşik bir API sağlıyoruz.
Veri kümeleri, adımları ve bölümleri temsil etmek için RLDS biçimini izler.
DeepMind Control Suite Tassa ve diğerleri, 2018 , MuJoCo Todorov ve diğerleri, 2012'de uygulanan bir dizi kontrol görevidir. Pakette sağlanan ve çok çeşitli zorlukları kapsayan görevlerin bir alt kümesini ele alıyoruz.
Bu alandaki veri kümelerinin çoğu D4PG kullanılarak oluşturulur. D4PG bu görevleri çözemediğinden, Manipülatör ekleme bilyesi ve Manipülatör ekleme pimi ortamları için verileri oluşturmak üzere V-MPO Song ve diğerleri, 2020'yi kullanıyoruz. 9 kontrol paketi görevi için veri kümeleri yayınlıyoruz. Veri kümesinin nasıl oluşturulduğuna ilişkin ayrıntılar için lütfen makaleye bakın.
DeepMind Control Suite, geleneksel bir sürekli eylem RL kıyaslamasıdır. Özellikle, diğer son teknoloji çevrimdışı RL yöntemleriyle karşılaştırma yapmak istiyorsanız, yaklaşımınızı DeepMind Control Suite'te test etmenizi öneririz.
Ana sayfa : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Kaynak kodu :
tfds.rl_unplugged.rlu_control_suite.RluControlSuite
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
Unknown size
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@inproceedings{gulcehre2020rl,
title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
booktitle = {Advances in Neural Information Processing Systems},
pages = {7248--7259},
volume = {33},
year = {2020}
}
rlu_control_suite/cartpole_swingup (varsayılan yapılandırma)
Veri kümesi boyutu :
2.12 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 40 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (1,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/konum | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/hız | tensör | (2,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_control_suite/cheetah_run
Veri kümesi boyutu :
36.58 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 300 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(8,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (6,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/konum | tensör | (8,) | şamandıra32 | |
adımlar/gözlem/hız | tensör | (9,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_control_suite/finger_turn_hard
Veri kümesi boyutu :
47.61 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 500 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(2,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dist_to_target': Tensor(shape=(1,), dtype=float32),
'position': Tensor(shape=(4,), dtype=float32),
'target_position': Tensor(shape=(2,), dtype=float32),
'velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (2,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/dist_to_target | tensör | (1,) | şamandıra32 | |
adımlar/gözlem/konum | tensör | (4,) | şamandıra32 | |
adımlar/gözlem/hedef_konum | tensör | (2,) | şamandıra32 | |
adımlar/gözlem/hız | tensör | (3,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_control_suite/fish_swim
Veri kümesi boyutu :
32.81 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 200 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'joint_angles': Tensor(shape=(7,), dtype=float32),
'target': Tensor(shape=(3,), dtype=float32),
'upright': Tensor(shape=(1,), dtype=float32),
'velocity': Tensor(shape=(13,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (5,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/joint_angles | tensör | (7,) | şamandıra32 | |
adımlar/gözlem/hedef | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/dik | tensör | (1,) | şamandıra32 | |
adımlar/gözlem/hız | tensör | (13,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_control_suite/humanoid_run
Veri kümesi boyutu :
1.21 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 3.000 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (21,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/com_velocity | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/ekstremiteler | tensör | (12,) | şamandıra32 | |
adımlar/gözlem/head_height | tensör | (1,) | şamandıra32 | |
adımlar/gözlem/joint_angles | tensör | (21,) | şamandıra32 | |
adımlar/gözlem/torso_vertical | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/hız | tensör | (27,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_ball
Veri kümesi boyutu :
385.41 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 1.500 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (5,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/arm_pos | tensör | (16,) | şamandıra32 | |
adımlar/gözlem/arm_vel | tensör | (8,) | şamandıra32 | |
adımlar/gözlem/hand_pos | tensör | (4,) | şamandıra32 | |
adımlar/gözlem/object_pos | tensör | (4,) | şamandıra32 | |
adımlar/gözlem/object_vel | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/target_pos | tensör | (4,) | şamandıra32 | |
adımlar/gözlem/dokunma | tensör | (5,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_peg
Veri kümesi boyutu :
385.73 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 1.500 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (5,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/arm_pos | tensör | (16,) | şamandıra32 | |
adımlar/gözlem/arm_vel | tensör | (8,) | şamandıra32 | |
adımlar/gözlem/hand_pos | tensör | (4,) | şamandıra32 | |
adımlar/gözlem/object_pos | tensör | (4,) | şamandıra32 | |
adımlar/gözlem/object_vel | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/target_pos | tensör | (4,) | şamandıra32 | |
adımlar/gözlem/dokunma | tensör | (5,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_control_suite/walker_stand
Veri kümesi boyutu :
31.78 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 200 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (6,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/yükseklik | tensör | (1,) | şamandıra32 | |
adımlar/gözlem/yönelimler | tensör | (14,) | şamandıra32 | |
adımlar/gözlem/hız | tensör | (9,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_control_suite/walker_walk
Veri kümesi boyutu :
31.78 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 200 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (6,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/yükseklik | tensör | (1,) | şamandıra32 | |
adımlar/gözlem/yönelimler | tensör | (14,) | şamandıra32 | |
adımlar/gözlem/hız | tensör | (9,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):