- 설명 :
데이터 세트는 MuJoCo 이동 작업의 환경 보상에 대해 훈련된 SAC 에이전트를 사용하여 생성되었습니다. 이러한 데이터세트는 적대적 모방 학습에 무엇이 중요합니까? Orsiniet al. 2021 .
데이터 세트는 RLDS 형식을 따라 단계와 에피소드를 나타냅니다.
버전 :
-
1.0.0
(기본값): 최초 릴리스입니다.
-
감독되는 키 (
as_supervised
doc 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@article{orsini2021matters,
title={What Matters for Adversarial Imitation Learning?},
author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
journal={International Conference in Machine Learning},
year={2021}
}
locomotion/ant_sac_1M_single_policy_stochastic (기본 구성)
구성 설명 : Ant에 대해 1M 단계에 대해 훈련된 SAC 에이전트에 의해 생성된 데이터 세트입니다.
다운로드 크기 :
6.49 MiB
데이터세트 크기 :
23.02 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 50 |
- 기능 구조 :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- 기능 문서 :
특징 | 수업 | 모양 | Dtype | 설명 |
---|---|---|---|---|
특징Dict | ||||
단계 | 데이터세트 | |||
단계/작업 | 텐서 | (8,) | float32 | |
걸음수/할인 | 텐서 | float32 | ||
걸음수/is_first | 텐서 | 부울 | ||
걸음수/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 텐서 | (111,) | float32 | |
걸음수/보상 | 텐서 | float32 |
- 예 ( tfds.as_dataframe ):
운동/hopper_sac_1M_single_policy_stochastic
구성 설명 : Hopper에 대해 1M 단계에 대해 훈련된 SAC 에이전트에 의해 생성된 데이터 세트입니다.
다운로드 크기 :
2.26 MiB
데이터세트 크기 :
2.62 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 50 |
- 기능 구조 :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(11,), dtype=float32),
'reward': float32,
}),
})
- 기능 문서 :
특징 | 수업 | 모양 | Dtype | 설명 |
---|---|---|---|---|
특징Dict | ||||
단계 | 데이터세트 | |||
단계/작업 | 텐서 | (삼,) | float32 | |
걸음수/할인 | 텐서 | float32 | ||
걸음수/is_first | 텐서 | 부울 | ||
걸음수/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 텐서 | (11,) | float32 | |
걸음수/보상 | 텐서 | float32 |
- 예 ( tfds.as_dataframe ):
운동/halfcheetah_sac_1M_single_policy_stochastic
구성 설명 : HalfCheetah에 대해 1M 단계에 대해 훈련된 SAC 에이전트에 의해 생성된 데이터 세트입니다.
다운로드 크기 :
4.49 MiB
데이터세트 크기 :
4.93 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 50 |
- 기능 구조 :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- 기능 문서 :
특징 | 수업 | 모양 | Dtype | 설명 |
---|---|---|---|---|
특징Dict | ||||
단계 | 데이터세트 | |||
단계/작업 | 텐서 | (6,) | float32 | |
걸음수/할인 | 텐서 | float32 | ||
걸음수/is_first | 텐서 | 부울 | ||
걸음수/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 텐서 | (17,) | float32 | |
걸음수/보상 | 텐서 | float32 |
- 예 ( tfds.as_dataframe ):
운동/walker2d_sac_1M_single_policy_stochastic
구성 설명 : Walker2d에 대해 1M 단계에 대해 훈련된 SAC 에이전트에 의해 생성된 데이터 세트입니다.
다운로드 크기 :
4.35 MiB
데이터세트 크기 :
4.91 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 50 |
- 기능 구조 :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- 기능 문서 :
특징 | 수업 | 모양 | Dtype | 설명 |
---|---|---|---|---|
특징Dict | ||||
단계 | 데이터세트 | |||
단계/작업 | 텐서 | (6,) | float32 | |
걸음수/할인 | 텐서 | float32 | ||
걸음수/is_first | 텐서 | 부울 | ||
걸음수/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 텐서 | (17,) | float32 | |
걸음수/보상 | 텐서 | float32 |
- 예 ( tfds.as_dataframe ):
운동/humanoid_sac_15M_single_policy_stochastic
구성 설명 : 휴머노이드에 대해 15M 단계에 대해 훈련된 SAC 에이전트에 의해 생성된 데이터 세트입니다.
다운로드 크기 :
192.78 MiB
데이터세트 크기 :
300.94 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'train' | 200 |
- 기능 구조 :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(17,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(376,), dtype=float32),
'reward': float32,
}),
})
- 기능 문서 :
특징 | 수업 | 모양 | Dtype | 설명 |
---|---|---|---|---|
특징Dict | ||||
단계 | 데이터세트 | |||
단계/작업 | 텐서 | (17,) | float32 | |
걸음수/할인 | 텐서 | float32 | ||
걸음수/is_first | 텐서 | 부울 | ||
걸음수/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 텐서 | (376,) | float32 | |
걸음수/보상 | 텐서 | float32 |
- 예 ( tfds.as_dataframe ):