TFDS sekarang mendukung format Croissant 🥐 ! Baca dokumentasi untuk mengetahui lebih lanjut.

Halaman ini diterjemahkan oleh Cloud Translation API.

d4rl_adroit_door

Keterangan :

D4RL adalah tolok ukur sumber terbuka untuk pembelajaran penguatan offline. Ini menyediakan lingkungan dan kumpulan data standar untuk pelatihan dan algoritma benchmarking.

Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.

Deskripsi konfigurasi : Lihat detail selengkapnya tentang tugas dan versinya di https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
Beranda : https://sites.google.com/view/d4rl-anonymous
Kode sumber : tfds.d4rl.d4rl_adroit_door.D4rlAdroitDoor
Versi :
- 1.0.0 : Rilis awal.
- 1.1.0 (default): Ditambahkan is_last.
Kunci yang diawasi (Lihat dokumen as_supervised ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_adroit_door/v0-human (konfigurasi default)

Ukuran unduhan : 2.97 MiB
Ukuran kumpulan data : 3.36 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	50

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(28,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/qpos	Tensor	(30,)	float32
langkah/info/qvel	Tensor	(30,)	float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(39,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_adroit_door/v0-kloning

Ukuran unduhan : 602.42 MiB
Ukuran kumpulan data : 497.47 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	6.214

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float64,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float64),
            'qvel': Tensor(shape=(30,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float64),
        'reward': float64,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(28,)	float32
langkah/diskon	Tensor		float64
langkah/info	FiturDict
langkah/info/qpos	Tensor	(30,)	float64
langkah/info/qvel	Tensor	(30,)	float64
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(39,)	float64
langkah/hadiah	Tensor		float64

Contoh ( tfds.as_dataframe ):

d4rl_adroit_door/v0-expert

Ukuran unduhan : 511.05 MiB
Ukuran kumpulan data : 710.30 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	5.000

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_logstd': Tensor(shape=(28,), dtype=float32),
            'action_mean': Tensor(shape=(28,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(28,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_logstd	Tensor	(28,)	float32
langkah/info/action_mean	Tensor	(28,)	float32
langkah/info/qpos	Tensor	(30,)	float32
langkah/info/qvel	Tensor	(30,)	float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(39,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_adroit_door/v1-human

Ukuran unduhan : 2.98 MiB
Ukuran kumpulan data : 3.42 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	25

Struktur fitur :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'door_body_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
Langkah	Himpunan data
langkah/tindakan	Tensor	(28,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/infos/door_body_pos	Tensor	(3,)	float32
langkah/info/qpos	Tensor	(30,)	float32
langkah/info/qvel	Tensor	(30,)	float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(39,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_adroit_door/v1-kloning

Ukuran unduhan : 280.72 MiB
Ukuran kumpulan data : 1.85 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	4.358

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(39, 256), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(28,), dtype=float32),
            'weight': Tensor(shape=(256, 28), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'door_body_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
kebijakan	FiturDict
kebijakan/fc0	FiturDict
kebijakan/fc0/bias	Tensor	(256,)	float32
kebijakan/fc0/bobot	Tensor	(39, 256)	float32
kebijakan/fc1	FiturDict
kebijakan/fc1/bias	Tensor	(256,)	float32
kebijakan/fc1/bobot	Tensor	(256, 256)	float32
kebijakan/last_fc	FiturDict
kebijakan/last_fc/bias	Tensor	(28,)	float32
policy/last_fc/weight	Tensor	(256, 28)	float32
kebijakan/nonlinier	Tensor		rangkaian
kebijakan/output_distribusi	Tensor		rangkaian
Langkah	Himpunan data
langkah/tindakan	Tensor	(28,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/infos/door_body_pos	Tensor	(3,)	float32
langkah/info/qpos	Tensor	(30,)	float32
langkah/info/qvel	Tensor	(30,)	float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(39,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_adroit_door/v1-expert

Ukuran unduhan : 511.22 MiB
Ukuran kumpulan data : 803.48 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	5.000

Struktur fitur :

FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(32,), dtype=float32),
            'weight': Tensor(shape=(32, 39), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(32,), dtype=float32),
            'weight': Tensor(shape=(32, 32), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(28,), dtype=float32),
            'weight': Tensor(shape=(28, 32), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(28,), dtype=float32),
            'weight': Tensor(shape=(28, 32), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_std': Tensor(shape=(28,), dtype=float32),
            'action_mean': Tensor(shape=(28,), dtype=float32),
            'door_body_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
algoritma	Tensor		rangkaian
kebijakan	FiturDict
kebijakan/fc0	FiturDict
kebijakan/fc0/bias	Tensor	(32,)	float32
kebijakan/fc0/bobot	Tensor	(32, 39)	float32
kebijakan/fc1	FiturDict
kebijakan/fc1/bias	Tensor	(32,)	float32
kebijakan/fc1/bobot	Tensor	(32, 32)	float32
kebijakan/last_fc	FiturDict
kebijakan/last_fc/bias	Tensor	(28,)	float32
policy/last_fc/weight	Tensor	(28, 32)	float32
kebijakan/last_fc_log_std	FiturDict
kebijakan/last_fc_log_std/bias	Tensor	(28,)	float32
policy/last_fc_log_std/weight	Tensor	(28, 32)	float32
kebijakan/nonlinier	Tensor		rangkaian
kebijakan/output_distribusi	Tensor		rangkaian
Langkah	Himpunan data
langkah/tindakan	Tensor	(28,)	float32
langkah/diskon	Tensor		float32
langkah/info	FiturDict
langkah/info/action_log_std	Tensor	(28,)	float32
langkah/info/action_mean	Tensor	(28,)	float32
langkah/infos/door_body_pos	Tensor	(3,)	float32
langkah/info/qpos	Tensor	(30,)	float32
langkah/info/qvel	Tensor	(30,)	float32
langkah/adalah_pertama	Tensor		bodoh
langkah/adalah_terakhir	Tensor		bodoh
langkah/is_terminal	Tensor		bodoh
langkah/pengamatan	Tensor	(39,)	float32
langkah/hadiah	Tensor		float32

Contoh ( tfds.as_dataframe ):

d4rl_adroit_door Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.