TFDS এখন Croissant 🥐 ফরম্যাট সমর্থন করে! আরও জানতে ডকুমেন্টেশন পড়ুন।

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

d4rl_adroit_pen

বর্ণনা :

D4RL অফলাইন রিইনফোর্সমেন্ট শেখার জন্য একটি ওপেন সোর্স বেঞ্চমার্ক। এটি প্রশিক্ষণ এবং বেঞ্চমার্কিং অ্যালগরিদমের জন্য মানসম্মত পরিবেশ এবং ডেটাসেট সরবরাহ করে।

ডেটাসেটগুলি ধাপ এবং পর্বগুলি উপস্থাপন করতে RLDS বিন্যাস অনুসরণ করে।

হোমপেজ : https://sites.google.com/view/d4rl-anonymous
সোর্স কোড : tfds.d4rl.d4rl_adroit_pen.D4rlAdroitPen
সংস্করণ :
- 1.0.0 : প্রাথমিক প্রকাশ।
- 1.1.0 (ডিফল্ট): যোগ করা হয়েছে is_last।
তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_adroit_pen/v0-human (ডিফল্ট কনফিগারেশন)

কনফিগারের বিবরণ : https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit- এ টাস্ক এবং এর সংস্করণ সম্পর্কে আরও বিশদ দেখুন
ডাউনলোড আকার : 1.94 MiB
ডেটাসেটের আকার : 2.52 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	50

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(24,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
পদক্ষেপ/তথ্য/qpos	টেনসর	(30,)	float32
পদক্ষেপ/infos/qvel	টেনসর	(30,)	float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(৪৫,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_adroit_pen/v0-ক্লোন

কনফিগারের বিবরণ : https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit- এ টাস্ক এবং এর সংস্করণ সম্পর্কে আরও বিশদ দেখুন
ডাউনলোড সাইজ : 292.85 MiB
ডেটাসেটের আকার : 252.55 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	৫,০২৩

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float64,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float64),
            'qvel': Tensor(shape=(30,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float64),
        'reward': float64,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(24,)	float32
পদক্ষেপ/ছাড়	টেনসর		float64
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
পদক্ষেপ/তথ্য/qpos	টেনসর	(30,)	float64
পদক্ষেপ/infos/qvel	টেনসর	(30,)	float64
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(৪৫,)	float64
পদক্ষেপ/পুরস্কার	টেনসর		float64

উদাহরণ ( tfds.as_dataframe ):

d4rl_adroit_pen/v0-expert

কনফিগারের বিবরণ : https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit- এ টাস্ক এবং এর সংস্করণ সম্পর্কে আরও বিশদ দেখুন
ডাউনলোড সাইজ : 250.13 MiB
ডেটাসেটের আকার : 344.41 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	5,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_logstd': Tensor(shape=(24,), dtype=float32),
            'action_mean': Tensor(shape=(24,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(24,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_logstd	টেনসর	(24,)	float32
steps/infos/action_mean	টেনসর	(24,)	float32
পদক্ষেপ/তথ্য/qpos	টেনসর	(30,)	float32
পদক্ষেপ/infos/qvel	টেনসর	(30,)	float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(৪৫,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_adroit_pen/v1-মানুষ

কনফিগারের বিবরণ : https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit- এ টাস্ক এবং এর সংস্করণ সম্পর্কে আরও বিশদ দেখুন
ডাউনলোড আকার : 1.95 MiB
ডেটাসেটের আকার : 2.60 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	25

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'desired_orien': Tensor(shape=(4,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(24,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/desired_orien	টেনসর	(৪,)	float32
পদক্ষেপ/তথ্য/qpos	টেনসর	(30,)	float32
পদক্ষেপ/infos/qvel	টেনসর	(30,)	float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(৪৫,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_adroit_pen/v1-ক্লোন

কনফিগারের বিবরণ : https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit- এ টাস্ক এবং এর সংস্করণ সম্পর্কে আরও বিশদ দেখুন
ডাউনলোড আকার : 147.89 MiB
ডেটাসেটের আকার : 1.43 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	3,755

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(45, 256), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(24,), dtype=float32),
            'weight': Tensor(shape=(256, 24), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'desired_orien': Tensor(shape=(4,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
অ্যালগরিদম	টেনসর		স্ট্রিং
নীতি	ফিচারসডিক্ট
নীতি/fc0	ফিচারসডিক্ট
নীতি/fc0/পক্ষপাত	টেনসর	(256,)	float32
নীতি/fc0/ওজন	টেনসর	(৪৫, ২৫৬)	float32
নীতি/fc1	ফিচারসডিক্ট
নীতি/fc1/পক্ষপাত	টেনসর	(256,)	float32
নীতি/fc1/ওজন	টেনসর	(256, 256)	float32
নীতি/লাস্ট_এফসি	ফিচারসডিক্ট
নীতি/লাস্ট_এফসি/পক্ষপাত	টেনসর	(24,)	float32
নীতি/লাস্ট_এফসি/ওজন	টেনসর	(256, 24)	float32
নীতি/অরৈখিকতা	টেনসর		স্ট্রিং
নীতি/আউটপুট_ডিস্ট্রিবিউশন	টেনসর		স্ট্রিং
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(24,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/desired_orien	টেনসর	(৪,)	float32
পদক্ষেপ/তথ্য/qpos	টেনসর	(30,)	float32
পদক্ষেপ/infos/qvel	টেনসর	(30,)	float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(৪৫,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_adroit_pen/v1-বিশেষজ্ঞ

ডাউনলোডের আকার : 249.90 MiB
ডেটাসেটের আকার : 548.47 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	5,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(64,), dtype=float32),
            'weight': Tensor(shape=(64, 45), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(64,), dtype=float32),
            'weight': Tensor(shape=(64, 64), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(24,), dtype=float32),
            'weight': Tensor(shape=(24, 64), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(24,), dtype=float32),
            'weight': Tensor(shape=(24, 64), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_std': Tensor(shape=(24,), dtype=float32),
            'action_mean': Tensor(shape=(24,), dtype=float32),
            'desired_orien': Tensor(shape=(4,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(45,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
অ্যালগরিদম	টেনসর		স্ট্রিং
নীতি	ফিচারসডিক্ট
নীতি/fc0	ফিচারসডিক্ট
নীতি/fc0/পক্ষপাত	টেনসর	(64,)	float32
নীতি/fc0/ওজন	টেনসর	(64, 45)	float32
নীতি/fc1	ফিচারসডিক্ট
নীতি/fc1/পক্ষপাত	টেনসর	(64,)	float32
নীতি/fc1/ওজন	টেনসর	(৬৪, ৬৪)	float32
নীতি/লাস্ট_এফসি	ফিচারসডিক্ট
নীতি/লাস্ট_এফসি/পক্ষপাত	টেনসর	(24,)	float32
নীতি/লাস্ট_এফসি/ওজন	টেনসর	(24, 64)	float32
নীতি/last_fc_log_std	ফিচারসডিক্ট
নীতি/last_fc_log_std/bias	টেনসর	(24,)	float32
নীতি/last_fc_log_std/ওজন	টেনসর	(24, 64)	float32
নীতি/অরৈখিকতা	টেনসর		স্ট্রিং
নীতি/আউটপুট_ডিস্ট্রিবিউশন	টেনসর		স্ট্রিং
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(24,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_log_std	টেনসর	(24,)	float32
steps/infos/action_mean	টেনসর	(24,)	float32
steps/infos/desired_orien	টেনসর	(৪,)	float32
পদক্ষেপ/তথ্য/qpos	টেনসর	(30,)	float32
পদক্ষেপ/infos/qvel	টেনসর	(30,)	float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(৪৫,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):