TFDS اکنون از فرمت Croissant 🥐 پشتیبانی می کند! برای دانستن بیشتر مستندات را بخوانید.

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

فیلم لنز

توضیحات :

این مجموعه داده شامل مجموعه ای از رتبه بندی فیلم ها از وب سایت MovieLens، یک سرویس توصیه فیلم است. این مجموعه داده توسط GroupLens ، یک گروه تحقیقاتی در دانشگاه مینه‌سوتا جمع‌آوری و نگهداری شد. 5 نسخه شامل "25 متر"، "آخرین کوچک"، "100k"، "1m"، "20m" وجود دارد. در همه مجموعه‌های داده، داده‌های فیلم و داده‌های رتبه‌بندی در "movieId" به هم متصل می‌شوند. مجموعه داده 25 میلیونی، آخرین مجموعه داده کوچک و مجموعه داده 20 میلیونی فقط حاوی داده های فیلم و داده های رتبه بندی هستند. مجموعه داده 1 میلیونی و مجموعه داده 100 هزار نفری علاوه بر داده‌های فیلم و رتبه‌بندی، حاوی داده‌های جمعیتی هستند.

"25m": این آخرین نسخه پایدار مجموعه داده MovieLens است. برای اهداف تحقیقاتی توصیه می شود.
"latest-small": این زیرمجموعه کوچکی از آخرین نسخه مجموعه داده MovieLens است. با گذشت زمان توسط GroupLens تغییر و به روز می شود.
"100k": این قدیمی ترین نسخه مجموعه داده های MovieLens است. این یک مجموعه داده کوچک با داده های جمعیتی است.
"1m": این بزرگترین مجموعه داده MovieLens است که حاوی داده های جمعیتی است.
"20m": این یکی از پرکاربردترین مجموعه داده های MovieLens در مقالات دانشگاهی به همراه مجموعه داده 1 متری است.

برای هر نسخه، کاربران می‌توانند تنها داده‌های فیلم‌ها را با افزودن پسوند «-movies» (مثلاً «25m-movies») یا داده‌های رتبه‌بندی همراه با داده‌های فیلم (و داده‌های کاربران در مجموعه‌های داده‌های 1m و 100k) مشاهده کنند. پسوند "-ratings" (به عنوان مثال "25m-ratings").

ویژگی های زیر در تمام نسخه ها با پسوند "-ratings" گنجانده شده است.

"movie_id": یک شناسه منحصربه‌فرد برای فیلم رتبه‌بندی شده
"فیلم_عنوان": عنوان فیلم رتبه بندی شده با سال اکران داخل پرانتز
"ژانر_فیلم": دنباله ای از ژانرهایی که فیلم رتبه بندی شده به آن تعلق دارد
"user_id": شناسه منحصر به فرد کاربری که رتبه بندی را انجام داده است
"user_rating": امتیاز رتبه بندی در مقیاس پنج ستاره
«مهر زمانی»: مُهر زمانی رتبه‌بندی‌ها که از نیمه‌شب ساعت جهانی هماهنگ شده (UTC) ۱ ژانویه ۱۹۷۰ بر حسب ثانیه نمایش داده می‌شود.

علاوه بر این، نسخه‌های «100k-ratings» و «1m-ratings» ویژگی‌های جمعیتی زیر را نیز شامل می‌شوند.

"user_gender": جنسیت کاربری که رتبه بندی را انجام داده است. یک مقدار واقعی مربوط به مرد است
"bucketized_user_age": مقادیر سنی کاربر که رتبه بندی را ایجاد کرده است، مقادیر و محدوده های مربوطه عبارتند از:
- 1: "زیر 18"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
"user_occupation_label": شغل کاربری که رتبه بندی را با یک برچسب رمزگذاری شده با عدد صحیح ارائه کرده است. برچسب ها از قبل پردازش می شوند تا در نسخه های مختلف سازگار باشند
"user_occupation_text": شغل کاربری که رتبه بندی را در رشته اصلی ایجاد کرده است. نسخه های مختلف می توانند مجموعه متفاوتی از برچسب های متن خام داشته باشند
"user_zip_code": کد پستی کاربری که رتبه بندی را انجام داده است

علاوه بر این، مجموعه داده "100k-ratings" دارای ویژگی "raw_user_age" نیز خواهد بود که سن دقیق کاربرانی است که رتبه بندی را انجام داده اند.

مجموعه های داده با پسوند "-movies" فقط دارای ویژگی های "movie_id"، "movie_title" و "movie_genres" هستند.

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://grouplens.org/datasets/movielens/
کد منبع : tfds.structured.Movielens
نسخه ها :
- 0.1.1 (پیش فرض): بدون یادداشت انتشار.
کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-ratings (پیکربندی پیش فرض)

توضیحات پیکربندی : این مجموعه داده شامل 25,000,095 رتبه بندی در بین 62,423 فیلم است که توسط 162,541 کاربر بین 9 ژانویه 1995 تا 21 نوامبر ایجاد شده است.
این مجموعه داده آخرین نسخه پایدار مجموعه داده MovieLens است که در 21 نوامبر 2019 تولید شده است.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه بندی ها با افزایش نیم ستاره است. این مجموعه داده شامل اطلاعات جمعیت شناختی نیست.

حجم دانلود : 249.84 MiB
حجم مجموعه داده : 3.89 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'train'`	25,000,095

ساختار ویژگی :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
ژانرهای_فیلم	دنباله (ClassLabel)	(هیچ یک،)	int64
فیلم_id	تانسور		رشته
عنوان_فیلم	تانسور		رشته
مهر زمانی	تانسور		int64
شناسه کاربر	تانسور		رشته
امتیاز_کاربر	تانسور		float32

مثال‌ها ( tfds.as_dataframe ):

movielens/25m-movies

توضیحات پیکربندی : این مجموعه داده حاوی اطلاعات 62423 فیلم است که در مجموعه داده 25 متری رتبه بندی شده اند.
حجم دانلود : 249.84 MiB
حجم مجموعه داده : 5.71 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'train'`	62,423

ساختار ویژگی :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
ژانرهای_فیلم	دنباله (ClassLabel)	(هیچ یک،)	int64
فیلم_id	تانسور		رشته
عنوان_فیلم	تانسور		رشته

مثال‌ها ( tfds.as_dataframe ):

movielens/جدیدترین رتبه‌بندی‌های کوچک

توضیحات پیکربندی : این مجموعه داده شامل 100,836 رتبه بندی در بین 9,742 فیلم است که توسط 610 کاربر بین 29 مارس 1996 تا 24 سپتامبر 2018 ایجاد شده است. این مجموعه داده در 26 سپتامبر 2018 ایجاد شده است و زیر مجموعه ای از آخرین نسخه کامل مجموعه داده MovieLens است. . این مجموعه داده در طول زمان تغییر و به روز می شود.

حجم دانلود : 955.28 KiB
حجم مجموعه داده : 15.82 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'train'`	100,836

ساختار ویژگی :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
ژانرهای_فیلم	دنباله (ClassLabel)	(هیچ یک،)	int64
فیلم_id	تانسور		رشته
عنوان_فیلم	تانسور		رشته
مهر زمانی	تانسور		int64
شناسه کاربر	تانسور		رشته
امتیاز_کاربر	تانسور		float32

مثال‌ها ( tfds.as_dataframe ):

movielens/جدیدترین-فیلم های کوچک

توضیحات پیکربندی : این مجموعه داده حاوی داده‌های 9742 فیلم است که در آخرین مجموعه داده کوچک رتبه‌بندی شده‌اند.
حجم دانلود : 955.28 KiB
اندازه مجموعه داده : 910.64 KiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'train'`	9742

ساختار ویژگی :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
ژانرهای_فیلم	دنباله (ClassLabel)	(هیچ یک،)	int64
فیلم_id	تانسور		رشته
عنوان_فیلم	تانسور		رشته

مثال‌ها ( tfds.as_dataframe ):

movielens/100k-rats

توضیحات پیکربندی : این مجموعه داده شامل 100000 رتبه بندی از 943 کاربر در 1682 فیلم است. این مجموعه داده قدیمی ترین نسخه مجموعه داده MovieLens است.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه‌بندی‌ها با افزایش ستاره کامل است. این مجموعه داده شامل داده های جمعیت شناختی کاربران علاوه بر داده های مربوط به فیلم ها و رتبه بندی است.

حجم دانلود : 4.70 MiB
حجم مجموعه داده : 32.41 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'train'`	100000

ساختار ویژگی :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
bucketized_user_age	تانسور		float32
ژانرهای_فیلم	دنباله (ClassLabel)	(هیچ یک،)	int64
فیلم_id	تانسور		رشته
عنوان_فیلم	تانسور		رشته
raw_user_age	تانسور		float32
مهر زمانی	تانسور		int64
user_gender	تانسور		بوول
شناسه کاربر	تانسور		رشته
user_occupation_label	ClassLabel		int64
user_occupation_text	تانسور		رشته
امتیاز_کاربر	تانسور		float32
user_zip_code	تانسور		رشته

مثال‌ها ( tfds.as_dataframe ):

movielens/100k-movies

توضیحات پیکربندی : این مجموعه داده شامل داده‌های 1682 فیلم است که در مجموعه داده‌های 100k رتبه‌بندی شده‌اند.
حجم دانلود : 4.70 MiB
حجم مجموعه داده : 150.35 KiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'train'`	1682

ساختار ویژگی :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
ژانرهای_فیلم	دنباله (ClassLabel)	(هیچ یک،)	int64
فیلم_id	تانسور		رشته
عنوان_فیلم	تانسور		رشته

مثال‌ها ( tfds.as_dataframe ):

movielens/1m-rats

توضیحات پیکربندی : این مجموعه داده شامل 1000209 رتبه ناشناس از تقریباً 3900 فیلم ساخته شده توسط 6040 کاربر MovieLens است که به MovieLens پیوسته اند.
این مجموعه داده بزرگترین مجموعه داده ای است که شامل داده های جمعیتی است.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه‌بندی‌ها با افزایش ستاره کامل است. در داده‌های جمعیتی، مقادیر سنی به محدوده‌ها تقسیم می‌شوند و کمترین مقدار سن برای هر محدوده به جای مقادیر واقعی در داده‌ها استفاده می‌شود.

حجم دانلود : 5.64 MiB
حجم مجموعه داده : 308.42 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'train'`	1,000,209

ساختار ویژگی :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
bucketized_user_age	تانسور		float32
ژانرهای_فیلم	دنباله (ClassLabel)	(هیچ یک،)	int64
فیلم_id	تانسور		رشته
عنوان_فیلم	تانسور		رشته
مهر زمانی	تانسور		int64
user_gender	تانسور		بوول
شناسه کاربر	تانسور		رشته
user_occupation_label	ClassLabel		int64
user_occupation_text	تانسور		رشته
امتیاز_کاربر	تانسور		float32
user_zip_code	تانسور		رشته

مثال‌ها ( tfds.as_dataframe ):

movielens/1m-movies

توضیحات پیکربندی : این مجموعه داده حاوی داده های تقریباً 3900 فیلم است که در مجموعه داده 1 متری رتبه بندی شده اند.
حجم دانلود : 5.64 MiB
حجم مجموعه داده : 351.12 KiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'train'`	3,883

ساختار ویژگی :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
ژانرهای_فیلم	دنباله (ClassLabel)	(هیچ یک،)	int64
فیلم_id	تانسور		رشته
عنوان_فیلم	تانسور		رشته

مثال‌ها ( tfds.as_dataframe ):

فیلم لنز/20 متر امتیاز

توضیحات پیکربندی : این مجموعه داده شامل 20,000,263 رتبه بندی در بین 27,278 فیلم است که توسط 138,493 کاربر بین 9 ژانویه 1995 تا 31 مارس 2015 ایجاد شده است. این مجموعه داده در 17 اکتبر 2016 ایجاد شده است.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه‌بندی‌ها با افزایش نیم‌ستاره است. این مجموعه داده حاوی اطلاعات جمعیتی نیست.

حجم دانلود : 189.50 MiB
حجم مجموعه داده : 3.10 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'train'`	20000263

ساختار ویژگی :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
ژانرهای_فیلم	دنباله (ClassLabel)	(هیچ یک،)	int64
فیلم_id	تانسور		رشته
عنوان_فیلم	تانسور		رشته
مهر زمانی	تانسور		int64
شناسه کاربر	تانسور		رشته
امتیاز_کاربر	تانسور		float32

مثال‌ها ( tfds.as_dataframe ):

movielens/20m-movies

توضیحات پیکربندی : این مجموعه داده حاوی داده های 27278 فیلم است که در مجموعه داده 20 متری رتبه بندی شده اند.
حجم دانلود : 189.50 MiB
حجم مجموعه داده : 2.55 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'train'`	27278

ساختار ویژگی :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
ژانرهای_فیلم	دنباله (ClassLabel)	(هیچ یک،)	int64
فیلم_id	تانسور		رشته
عنوان_فیلم	تانسور		رشته

مثال‌ها ( tfds.as_dataframe ):

فیلم لنز با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.