- Tanım :
D4RL, çevrimdışı takviyeli öğrenim için açık kaynaklı bir kıyaslamadır. Eğitim ve kıyaslama algoritmaları için standartlaştırılmış ortamlar ve veri kümeleri sağlar.
Veri kümeleri, adımları ve bölümleri temsil etmek için RLDS formatını takip eder.
Ana sayfa : https://sites.google.com/view/d4rl-anonymous
Kaynak kodu :
tfds.d4rl.d4rl_adroit_pen.D4rlAdroitPen
Sürümler :
-
1.0.0
: İlk sürüm. -
1.1.0
(varsayılan): is_last eklendi.
-
Denetlenen anahtarlar (
as_supervised
belgesine bakın):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_adroit_pen/v0-human (varsayılan yapılandırma)
Yapılandırma açıklaması : https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit adresinde görev ve sürümleri hakkında daha fazla ayrıntıya bakın
İndirme boyutu :
1.94 MiB
Veri kümesi boyutu :
2.52 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet
Bölünmeler :
Bölmek | Örnekler |
---|---|
'train' | 50 |
- Özellik yapısı :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
adımlar | Veri kümesi | |||
adımlar/eylem | Tensör | (24,) | kayan nokta32 | |
adımlar/indirim | Tensör | kayan nokta32 | ||
adımlar/bilgiler | ÖzelliklerDict | |||
adımlar/bilgiler/qpos | Tensör | (30,) | kayan nokta32 | |
adımlar/bilgiler/qvel | Tensör | (30,) | kayan nokta32 | |
adımlar/is_first | Tensör | bool | ||
adımlar/is_last | Tensör | bool | ||
adımlar/is_terminal | Tensör | bool | ||
adımlar/gözlem | Tensör | (45,) | kayan nokta32 | |
adımlar/ödül | Tensör | kayan nokta32 |
- Örnekler ( tfds.as_dataframe ):
d4rl_adroit_pen/v0-klonlandı
Yapılandırma açıklaması : https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit adresinde görev ve sürümleri hakkında daha fazla ayrıntıya bakın
İndirme boyutu :
292.85 MiB
Veri kümesi boyutu :
252.55 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'train' | 5.023 |
- Özellik yapısı :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float64,
'infos': FeaturesDict({
'qpos': Tensor(shape=(30,), dtype=float64),
'qvel': Tensor(shape=(30,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float64),
'reward': float64,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
adımlar | Veri kümesi | |||
adımlar/eylem | Tensör | (24,) | kayan nokta32 | |
adımlar/indirim | Tensör | kayan nokta64 | ||
adımlar/bilgiler | ÖzelliklerDict | |||
adımlar/bilgiler/qpos | Tensör | (30,) | kayan nokta64 | |
adımlar/bilgiler/qvel | Tensör | (30,) | kayan nokta64 | |
adımlar/is_first | Tensör | bool | ||
adımlar/is_last | Tensör | bool | ||
adımlar/is_terminal | Tensör | bool | ||
adımlar/gözlem | Tensör | (45,) | kayan nokta64 | |
adımlar/ödül | Tensör | kayan nokta64 |
- Örnekler ( tfds.as_dataframe ):
d4rl_adroit_pen/v0-expert
Yapılandırma açıklaması : https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit adresinde görev ve sürümleri hakkında daha fazla ayrıntıya bakın
İndirme boyutu :
250.13 MiB
Veri kümesi boyutu :
344.41 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'train' | 5.000 |
- Özellik yapısı :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_logstd': Tensor(shape=(24,), dtype=float32),
'action_mean': Tensor(shape=(24,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
adımlar | Veri kümesi | |||
adımlar/eylem | Tensör | (24,) | kayan nokta32 | |
adımlar/indirim | Tensör | kayan nokta32 | ||
adımlar/bilgiler | ÖzelliklerDict | |||
adımlar/bilgiler/action_logstd | Tensör | (24,) | kayan nokta32 | |
adımlar/bilgiler/action_mean | Tensör | (24,) | kayan nokta32 | |
adımlar/bilgiler/qpos | Tensör | (30,) | kayan nokta32 | |
adımlar/bilgiler/qvel | Tensör | (30,) | kayan nokta32 | |
adımlar/is_first | Tensör | bool | ||
adımlar/is_last | Tensör | bool | ||
adımlar/is_terminal | Tensör | bool | ||
adımlar/gözlem | Tensör | (45,) | kayan nokta32 | |
adımlar/ödül | Tensör | kayan nokta32 |
- Örnekler ( tfds.as_dataframe ):
d4rl_adroit_pen/v1-insan
Yapılandırma açıklaması : https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit adresinde görev ve sürümleri hakkında daha fazla ayrıntıya bakın
İndirme boyutu :
1.95 MiB
Veri kümesi boyutu :
2.60 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet
Bölünmeler :
Bölmek | Örnekler |
---|---|
'train' | 25 |
- Özellik yapısı :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'desired_orien': Tensor(shape=(4,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
adımlar | Veri kümesi | |||
adımlar/eylem | Tensör | (24,) | kayan nokta32 | |
adımlar/indirim | Tensör | kayan nokta32 | ||
adımlar/bilgiler | ÖzelliklerDict | |||
adımlar/bilgiler/desired_orien | Tensör | (4,) | kayan nokta32 | |
adımlar/bilgiler/qpos | Tensör | (30,) | kayan nokta32 | |
adımlar/bilgiler/qvel | Tensör | (30,) | kayan nokta32 | |
adımlar/is_first | Tensör | bool | ||
adımlar/is_last | Tensör | bool | ||
adımlar/is_terminal | Tensör | bool | ||
adımlar/gözlem | Tensör | (45,) | kayan nokta32 | |
adımlar/ödül | Tensör | kayan nokta32 |
- Örnekler ( tfds.as_dataframe ):
d4rl_adroit_pen/v1-klonlandı
Yapılandırma açıklaması : https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit adresinde görev ve sürümleri hakkında daha fazla ayrıntıya bakın
İndirme boyutu :
147.89 MiB
Veri kümesi boyutu :
1.43 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'train' | 3.755 |
- Özellik yapısı :
FeaturesDict({
'algorithm': string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(45, 256), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(24,), dtype=float32),
'weight': Tensor(shape=(256, 24), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'desired_orien': Tensor(shape=(4,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
algoritma | Tensör | sicim | ||
politika | ÖzelliklerDict | |||
politika/fc0 | ÖzelliklerDict | |||
politika/fc0/önyargı | Tensör | (256,) | kayan nokta32 | |
politika/fc0/ağırlık | Tensör | (45, 256) | kayan nokta32 | |
politika/fc1 | ÖzelliklerDict | |||
politika/fc1/önyargı | Tensör | (256,) | kayan nokta32 | |
politika/fc1/ağırlık | Tensör | (256, 256) | kayan nokta32 | |
politika/last_fc | ÖzelliklerDict | |||
politika/last_fc/bias | Tensör | (24,) | kayan nokta32 | |
politika/last_fc/ağırlık | Tensör | (256, 24) | kayan nokta32 | |
politika/doğrusal olmama | Tensör | sicim | ||
politika/çıkış_dağıtımı | Tensör | sicim | ||
adımlar | Veri kümesi | |||
adımlar/eylem | Tensör | (24,) | kayan nokta32 | |
adımlar/indirim | Tensör | kayan nokta32 | ||
adımlar/bilgiler | ÖzelliklerDict | |||
adımlar/bilgiler/desired_orien | Tensör | (4,) | kayan nokta32 | |
adımlar/bilgiler/qpos | Tensör | (30,) | kayan nokta32 | |
adımlar/bilgiler/qvel | Tensör | (30,) | kayan nokta32 | |
adımlar/is_first | Tensör | bool | ||
adımlar/is_last | Tensör | bool | ||
adımlar/is_terminal | Tensör | bool | ||
adımlar/gözlem | Tensör | (45,) | kayan nokta32 | |
adımlar/ödül | Tensör | kayan nokta32 |
- Örnekler ( tfds.as_dataframe ):
d4rl_adroit_pen/v1-expert
İndirme boyutu :
249.90 MiB
Veri kümesi boyutu :
548.47 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'train' | 5.000 |
- Özellik yapısı :
FeaturesDict({
'algorithm': string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(64,), dtype=float32),
'weight': Tensor(shape=(64, 45), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(64,), dtype=float32),
'weight': Tensor(shape=(64, 64), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(24,), dtype=float32),
'weight': Tensor(shape=(24, 64), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(24,), dtype=float32),
'weight': Tensor(shape=(24, 64), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(24,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_std': Tensor(shape=(24,), dtype=float32),
'action_mean': Tensor(shape=(24,), dtype=float32),
'desired_orien': Tensor(shape=(4,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(45,), dtype=float32),
'reward': float32,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
algoritma | Tensör | sicim | ||
politika | ÖzelliklerDict | |||
politika/fc0 | ÖzelliklerDict | |||
politika/fc0/önyargı | Tensör | (64,) | kayan nokta32 | |
politika/fc0/ağırlık | Tensör | (64, 45) | kayan nokta32 | |
politika/fc1 | ÖzelliklerDict | |||
politika/fc1/önyargı | Tensör | (64,) | kayan nokta32 | |
politika/fc1/ağırlık | Tensör | (64, 64) | kayan nokta32 | |
politika/last_fc | ÖzelliklerDict | |||
politika/last_fc/bias | Tensör | (24,) | kayan nokta32 | |
politika/last_fc/ağırlık | Tensör | (24, 64) | kayan nokta32 | |
politika/last_fc_log_std | ÖzelliklerDict | |||
politika/last_fc_log_std/bias | Tensör | (24,) | kayan nokta32 | |
politika/last_fc_log_std/weight | Tensör | (24, 64) | kayan nokta32 | |
politika/doğrusal olmama | Tensör | sicim | ||
politika/çıkış_dağıtımı | Tensör | sicim | ||
adımlar | Veri kümesi | |||
adımlar/eylem | Tensör | (24,) | kayan nokta32 | |
adımlar/indirim | Tensör | kayan nokta32 | ||
adımlar/bilgiler | ÖzelliklerDict | |||
adımlar/bilgiler/action_log_std | Tensör | (24,) | kayan nokta32 | |
adımlar/bilgiler/action_mean | Tensör | (24,) | kayan nokta32 | |
adımlar/bilgiler/desired_orien | Tensör | (4,) | kayan nokta32 | |
adımlar/bilgiler/qpos | Tensör | (30,) | kayan nokta32 | |
adımlar/bilgiler/qvel | Tensör | (30,) | kayan nokta32 | |
adımlar/is_first | Tensör | bool | ||
adımlar/is_last | Tensör | bool | ||
adımlar/is_terminal | Tensör | bool | ||
adımlar/gözlem | Tensör | (45,) | kayan nokta32 | |
adımlar/ödül | Tensör | kayan nokta32 |
- Örnekler ( tfds.as_dataframe ):