rlu_control_suite

  • Açıklama :

RL Unplugged, çevrimdışı pekiştirmeli öğrenim için karşılaştırmalı değerlendirmeler paketidir. RL Unplugged, aşağıdaki hususlar etrafında tasarlanmıştır: kullanım kolaylığını kolaylaştırmak için, veri kümelerine, genel bir ardışık düzen oluşturulduktan sonra uygulayıcının paketteki tüm verilerle çalışmasını kolaylaştıran birleşik bir API sağlıyoruz.

Veri kümeleri, adımları ve bölümleri temsil etmek için RLDS biçimini izler.

DeepMind Control Suite Tassa ve diğerleri, 2018 , MuJoCo Todorov ve diğerleri, 2012'de uygulanan bir dizi kontrol görevidir. Pakette sağlanan ve çok çeşitli zorlukları kapsayan görevlerin bir alt kümesini ele alıyoruz.

Bu alandaki veri kümelerinin çoğu D4PG kullanılarak oluşturulur. D4PG bu görevleri çözemediğinden, Manipülatör ekleme bilyesi ve Manipülatör ekleme pimi ortamları için verileri oluşturmak üzere V-MPO Song ve diğerleri, 2020'yi kullanıyoruz. 9 kontrol paketi görevi için veri kümeleri yayınlıyoruz. Veri kümesinin nasıl oluşturulduğuna ilişkin ayrıntılar için lütfen makaleye bakın.

DeepMind Control Suite, geleneksel bir sürekli eylem RL kıyaslamasıdır. Özellikle, diğer son teknoloji çevrimdışı RL yöntemleriyle karşılaştırma yapmak istiyorsanız, yaklaşımınızı DeepMind Control Suite'te test etmenizi öneririz.

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_control_suite/cartpole_swingup (varsayılan yapılandırma)

  • Veri kümesi boyutu : 2.12 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 40
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (1,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/konum tensör (3,) şamandıra32
adımlar/gözlem/hız tensör (2,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_control_suite/cheetah_run

  • Veri kümesi boyutu : 36.58 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 300
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(8,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (6,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/konum tensör (8,) şamandıra32
adımlar/gözlem/hız tensör (9,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_control_suite/finger_turn_hard

  • Veri kümesi boyutu : 47.61 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 500
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(2,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dist_to_target': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(4,), dtype=float32),
            'target_position': Tensor(shape=(2,), dtype=float32),
            'velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (2,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/dist_to_target tensör (1,) şamandıra32
adımlar/gözlem/konum tensör (4,) şamandıra32
adımlar/gözlem/hedef_konum tensör (2,) şamandıra32
adımlar/gözlem/hız tensör (3,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_control_suite/fish_swim

  • Veri kümesi boyutu : 32.81 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 200
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'joint_angles': Tensor(shape=(7,), dtype=float32),
            'target': Tensor(shape=(3,), dtype=float32),
            'upright': Tensor(shape=(1,), dtype=float32),
            'velocity': Tensor(shape=(13,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (5,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/joint_angles tensör (7,) şamandıra32
adımlar/gözlem/hedef tensör (3,) şamandıra32
adımlar/gözlem/dik tensör (1,) şamandıra32
adımlar/gözlem/hız tensör (13,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_control_suite/humanoid_run

  • Veri kümesi boyutu : 1.21 GiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • bölmeler :

Bölmek örnekler
'train' 3.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (21,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/com_velocity tensör (3,) şamandıra32
adımlar/gözlem/ekstremiteler tensör (12,) şamandıra32
adımlar/gözlem/head_height tensör (1,) şamandıra32
adımlar/gözlem/joint_angles tensör (21,) şamandıra32
adımlar/gözlem/torso_vertical tensör (3,) şamandıra32
adımlar/gözlem/hız tensör (27,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_control_suite/manipulator_insert_ball

  • Veri kümesi boyutu : 385.41 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • bölmeler :

Bölmek örnekler
'train' 1.500
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (5,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/arm_pos tensör (16,) şamandıra32
adımlar/gözlem/arm_vel tensör (8,) şamandıra32
adımlar/gözlem/hand_pos tensör (4,) şamandıra32
adımlar/gözlem/object_pos tensör (4,) şamandıra32
adımlar/gözlem/object_vel tensör (3,) şamandıra32
adımlar/gözlem/target_pos tensör (4,) şamandıra32
adımlar/gözlem/dokunma tensör (5,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_control_suite/manipulator_insert_peg

  • Veri kümesi boyutu : 385.73 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • bölmeler :

Bölmek örnekler
'train' 1.500
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (5,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/arm_pos tensör (16,) şamandıra32
adımlar/gözlem/arm_vel tensör (8,) şamandıra32
adımlar/gözlem/hand_pos tensör (4,) şamandıra32
adımlar/gözlem/object_pos tensör (4,) şamandıra32
adımlar/gözlem/object_vel tensör (3,) şamandıra32
adımlar/gözlem/target_pos tensör (4,) şamandıra32
adımlar/gözlem/dokunma tensör (5,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_control_suite/walker_stand

  • Veri kümesi boyutu : 31.78 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 200
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (6,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yükseklik tensör (1,) şamandıra32
adımlar/gözlem/yönelimler tensör (14,) şamandıra32
adımlar/gözlem/hız tensör (9,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_control_suite/walker_walk

  • Veri kümesi boyutu : 31.78 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 200
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (6,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yükseklik tensör (1,) şamandıra32
adımlar/gözlem/yönelimler tensör (14,) şamandıra32
adımlar/gözlem/hız tensör (9,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64