Google Cloud Storage (GCS) را می توان به دلایل متعدد با tfds استفاده کرد:
- ذخیره سازی داده های از پیش پردازش شده
- دسترسی به مجموعه داده هایی که داده های ذخیره شده در GCS دارند
دسترسی از طریق سطل TFDS GCS
برخی از مجموعه های داده مستقیماً در سطل GCS ما gs://tfds-data/datasets/
بدون هیچ گونه احراز هویت در دسترس هستند:
- اگر
tfds.load(..., try_gcs=False)
(پیشفرض)، مجموعه داده به صورت محلی در~/tensorflow_datasets
در طولdownload_and_prepare
کپی میشود. - اگر
tfds.load(..., try_gcs=True)
، مجموعه داده مستقیماً از GCS پخش می شود (download_and_prepare
نادیده گرفته می شود).
میتوانید با tfds.is_dataset_on_gcs('mnist')
بررسی کنید که آیا یک مجموعه داده در سطل عمومی میزبانی میشود.
احراز هویت
قبل از شروع، باید تصمیم بگیرید که چگونه می خواهید احراز هویت کنید. سه گزینه وجود دارد:
- بدون احراز هویت (با نام مستعار دسترسی ناشناس)
- با استفاده از حساب Google خود
- با استفاده از یک حساب خدمات (به راحتی می توان با سایرین در تیم خود به اشتراک گذاشت)
می توانید اطلاعات دقیق را در اسناد Google Cloud بیابید
دستورالعمل های ساده شده
اگر از colab اجرا میکنید، میتوانید با حساب خود احراز هویت کنید، اما در حال اجرا:
from google.colab import auth
auth.authenticate_user()
اگر روی ماشین محلی خود (یا در VM) اجرا میکنید، میتوانید با اجرای زیر با حساب خود احراز هویت کنید:
gcloud auth application-default login
اگر می خواهید با حساب سرویس وارد شوید، کلید فایل JSON را دانلود کرده و تنظیم کنید
export GOOGLE_APPLICATION_CREDENTIALS=<JSON_FILE_PATH>
استفاده از Google Cloud Storage برای ذخیره داده های از پیش پردازش شده
معمولاً وقتی از TensorFlow Datasets استفاده می کنید، داده های دانلود شده و آماده شده در یک فهرست محلی (به طور پیش فرض ~/tensorflow_datasets
) در حافظه پنهان ذخیره می شوند.
در برخی از محیطهایی که دیسک محلی ممکن است زودگذر باشد (یک سرور موقت ابری یا یک نوت بوک Colab ) یا نیاز دارید که دادهها توسط چندین ماشین قابل دسترسی باشد، تنظیم data_dir
روی یک سیستم ذخیرهسازی ابری مفید است، مانند Google Cloud Storage (GCS) سطل
چگونه؟
یک سطل GCS ایجاد کنید و مطمئن شوید که شما (یا حساب سرویستان) مجوزهای خواندن/نوشتن در آن را دارید (به دستورالعملهای مجوز در بالا مراجعه کنید)
وقتی از tfds
استفاده می کنید، می توانید data_dir
روی "gs://YOUR_BUCKET_NAME"
تنظیم کنید
ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"], data_dir="gs://YOUR_BUCKET_NAME")
هشدارها:
- این رویکرد برای مجموعه داده هایی که فقط از
tf.io.gfile
برای دسترسی به داده ها استفاده می کنند کار می کند. این برای اکثر مجموعه داده ها صادق است، اما نه همه. - به یاد داشته باشید که دسترسی به GCS دسترسی به یک سرور راه دور و پخش داده ها از آن است، بنابراین ممکن است هزینه های شبکه را متحمل شوید.
دسترسی به مجموعه داده های ذخیره شده در GCS
اگر صاحبان مجموعه داده اجازه دسترسی ناشناس را میدادند، میتوانید ادامه دهید و کد tfds.load را اجرا کنید - و مانند دانلود معمولی اینترنتی کار میکند.
اگر مجموعه داده نیاز به احراز هویت دارد، لطفاً از دستورالعملهای بالا استفاده کنید تا تصمیم بگیرید کدام گزینه را میخواهید (حساب خود در مقابل حساب سرویس) و نام حساب (با نام مستعار ایمیل) را به صاحب مجموعه داده ارسال کنید. پس از اینکه آنها شما را قادر به دسترسی به دایرکتوری GCS کردند، باید بتوانید کد دانلود tfds را اجرا کنید.