أفلام

  • الوصف :

تحتوي مجموعة البيانات هذه على مجموعة من تقييمات الأفلام من موقع MovieLens ، وهي خدمة توصية بالأفلام. تم جمع مجموعة البيانات هذه وصيانتها بواسطة GroupLens ، وهي مجموعة بحثية في جامعة مينيسوتا. هناك 5 إصدارات مضمنة: "25 م" ، "الأحدث-صغير" ، "100 ك" ، "1 م" ، "20 م". في جميع مجموعات البيانات ، يتم ضم بيانات الأفلام وبيانات التصنيفات في "movieId". تحتوي مجموعة البيانات التي يبلغ طولها 25 مليونًا وأحدث مجموعة بيانات صغيرة ومجموعة بيانات 20 مليونًا على بيانات الأفلام وبيانات التصنيف فقط. تحتوي مجموعة البيانات التي يبلغ حجمها 1 مليون ومجموعة البيانات 100 ألف على بيانات ديموغرافية بالإضافة إلى بيانات الأفلام والتصنيف.

  • "25m": هذا هو أحدث إصدار ثابت من مجموعة بيانات MovieLens. فمن المستحسن لأغراض البحث.
  • "الأحدث - صغير": هذه مجموعة فرعية صغيرة من أحدث إصدار من مجموعة بيانات MovieLens. يتم تغييره وتحديثه بمرور الوقت بواسطة GroupLens.
  • "100k": هذا هو أقدم إصدار من مجموعات بيانات MovieLens. إنها مجموعة بيانات صغيرة بها بيانات ديموغرافية.
  • "1m": هذا هو أكبر مجموعة بيانات MovieLens التي تحتوي على بيانات ديموغرافية.
  • "20m": هذه واحدة من أكثر مجموعات بيانات MovieLens استخدامًا في الأوراق الأكاديمية جنبًا إلى جنب مع مجموعة بيانات 1m.

لكل إصدار ، يمكن للمستخدمين عرض إما بيانات الأفلام فقط عن طريق إضافة لاحقة "-أفلام" (على سبيل المثال "25 مليون فيلم") أو بيانات التقييمات المرتبطة ببيانات الأفلام (وبيانات المستخدمين في مجموعات البيانات 1m و 100k) عن طريق إضافة لاحقة "-ratings" (على سبيل المثال "تصنيفات 25m").

يتم تضمين الميزات أدناه في كافة الإصدارات مع لاحقة "التقييمات".

  • "movie_id": معرّف فريد للفيلم المصنف
  • "movie_title": عنوان الفيلم المصنف مع وجود سنة الإصدار بين قوسين
  • "movie_genres": سلسلة من الأنواع التي ينتمي إليها الفيلم المصنف
  • "user_id": معرّف فريد للمستخدم الذي أجرى التقييم
  • "user_rating": درجة التقييم على مقياس من فئة الخمس نجوم
  • "الطابع الزمني": الطابع الزمني للتقييمات ، يتم تمثيله بالثواني منذ منتصف الليل بالتوقيت العالمي المنسق (UTC) في 1 يناير 1970

يتضمن الإصداران "100 ألف تقييم" و "مليون تقييم" بالإضافة إلى الميزات الديموغرافية التالية.

  • "user_gender": جنس المستخدم الذي قام بالتقييم ؛ القيمة الحقيقية تقابل الذكر
  • "bucketized_user_age": القيم العمرية المجمعة للمستخدم الذي أجرى التقييم ، والقيم والنطاقات المقابلة هي:
    • 1: "أقل من 18"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": مهنة المستخدم الذي قام بالتصنيف ممثلة بتسمية مشفرة بعدد صحيح ؛ تمت معالجة الملصقات مسبقًا لتكون متسقة عبر إصدارات مختلفة
  • "user_occupation_text": مهنة المستخدم الذي قام بالتصنيف في السلسلة الأصلية ؛ يمكن أن تحتوي الإصدارات المختلفة على مجموعة مختلفة من تسميات النص الخام
  • "user_zip_code": الرمز البريدي للمستخدم الذي أجرى التقييم

بالإضافة إلى ذلك ، ستحتوي مجموعة البيانات "100 ألف تقييم" أيضًا على ميزة "raw_user_age" وهي الأعمار الدقيقة للمستخدمين الذين قاموا بالتقييم

تحتوي مجموعات البيانات التي تحتوي على لاحقة "-أفلام" على ميزات "movie_id" و "movie_title" و "movie_genres" فقط.

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens / تصنيفات 25m (التكوين الافتراضي)

  • وصف التكوين : تحتوي مجموعة البيانات هذه على 25000،095 تصنيفًا عبر 62،423 فيلمًا ، تم إنشاؤها بواسطة 162،541 مستخدمًا بين 09 يناير 1995 و 21 نوفمبر ،
  • مجموعة البيانات هذه هي أحدث إصدار ثابت من مجموعة بيانات MovieLens ، التي تم إنشاؤها في 21 نوفمبر 2019.

قام كل مستخدم بتقييم 20 فيلمًا على الأقل. التصنيفات بزيادات نصف نجمة. لا تتضمن مجموعة البيانات هذه بيانات ديموغرافية.

  • حجم التحميل : 249.84 MiB

  • حجم مجموعة البيانات : 3.89 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 25000،095
  • هيكل الميزة :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
أنواع الأفلام تسلسل (ClassLabel) (لا أحد،) int64
معرّف_الفيلم موتر سلسلة
عنوان الفيلم موتر سلسلة
الطابع الزمني موتر int64
معرف المستخدم موتر سلسلة
تقييم المستخدم موتر تعويم 32

أفلام / 25 م أفلام

  • وصف التكوين : تحتوي مجموعة البيانات هذه على بيانات 62،423 فيلمًا تم تصنيفها في مجموعة بيانات 25 مليونًا.

  • حجم التحميل : 249.84 MiB

  • حجم مجموعة البيانات : 5.71 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 62،423
  • هيكل الميزة :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
أنواع الأفلام تسلسل (ClassLabel) (لا أحد،) int64
معرّف_الفيلم موتر سلسلة
عنوان الفيلم موتر سلسلة

أفلام / أحدث التقييمات الصغيرة

  • وصف التكوين : تحتوي مجموعة البيانات هذه على 100836 تقييمًا عبر 9742 فيلمًا ، تم إنشاؤها بواسطة 610 مستخدمًا بين 29 مارس 1996 و 24 سبتمبر 2018. تم إنشاء مجموعة البيانات هذه في 26 سبتمبر 2018 وهي مجموعة فرعية من أحدث إصدار كامل من مجموعة بيانات MovieLens . يتم تغيير مجموعة البيانات هذه وتحديثها بمرور الوقت.

قام كل مستخدم بتقييم 20 فيلمًا على الأقل. التصنيفات بزيادات نصف نجمة. لا تتضمن مجموعة البيانات هذه بيانات ديموغرافية.

  • حجم التحميل : 955.28 KiB

  • حجم مجموعة البيانات : 15.82 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 100836
  • هيكل الميزة :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
أنواع الأفلام تسلسل (ClassLabel) (لا أحد،) int64
معرّف_الفيلم موتر سلسلة
عنوان الفيلم موتر سلسلة
الطابع الزمني موتر int64
معرف المستخدم موتر سلسلة
تقييم المستخدم موتر تعويم 32

أفلام / أحدث الأفلام الصغيرة

  • وصف التكوين : تحتوي مجموعة البيانات هذه على بيانات عن 9742 فيلمًا تم تصنيفها في أحدث مجموعة بيانات صغيرة.

  • حجم التحميل : 955.28 KiB

  • حجم مجموعة البيانات : 910.64 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 9742
  • هيكل الميزة :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
أنواع الأفلام تسلسل (ClassLabel) (لا أحد،) int64
معرّف_الفيلم موتر سلسلة
عنوان الفيلم موتر سلسلة

أفلام / 100 ألف تصنيفات

  • وصف التكوين : تحتوي مجموعة البيانات هذه على 100،000 تقييم من 943 مستخدمًا في 1،682 فيلمًا. مجموعة البيانات هذه هي الإصدار الأقدم من مجموعة بيانات MovieLens.

قام كل مستخدم بتقييم 20 فيلمًا على الأقل. التقييمات بزيادات نجمة كاملة. تحتوي مجموعة البيانات هذه على بيانات ديموغرافية للمستخدمين بالإضافة إلى بيانات حول الأفلام والتقييمات.

  • حجم التحميل : 4.70 MiB

  • حجم مجموعة البيانات : 32.41 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 100،000
  • هيكل الميزة :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
دلو_المستخدم موتر تعويم 32
أنواع الأفلام تسلسل (ClassLabel) (لا أحد،) int64
معرّف_الفيلم موتر سلسلة
عنوان الفيلم موتر سلسلة
raw_user_age موتر تعويم 32
الطابع الزمني موتر int64
user_gender موتر منطقي
معرف المستخدم موتر سلسلة
user_occupation_label ClassLabel int64
user_occupation_text موتر سلسلة
تقييم المستخدم موتر تعويم 32
user_zip_code موتر سلسلة

أفلام / 100 ألف أفلام

  • وصف التكوين : تحتوي مجموعة البيانات هذه على بيانات من 1،682 فيلمًا تم تصنيفها في مجموعة بيانات 100 ألف.

  • حجم التحميل : 4.70 MiB

  • حجم مجموعة البيانات : 150.35 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 1،682
  • هيكل الميزة :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
أنواع الأفلام تسلسل (ClassLabel) (لا أحد،) int64
معرّف_الفيلم موتر سلسلة
عنوان الفيلم موتر سلسلة

أفلام / 1 م التقييمات

  • وصف التكوين : تحتوي مجموعة البيانات هذه على 1،000،209 تصنيفات مجهولة لما يقرب من 3،900 فيلم تم إنتاجها بواسطة 6،040 من مستخدمي MovieLens الذين انضموا إلى MovieLens في
  • مجموعة البيانات هذه هي أكبر مجموعة بيانات تتضمن بيانات ديموغرافية.

قام كل مستخدم بتقييم 20 فيلمًا على الأقل. التقييمات بزيادات نجمة كاملة. في البيانات الديموغرافية ، يتم تقسيم القيم العمرية إلى نطاقات ويتم استخدام أدنى قيمة عمرية لكل نطاق في البيانات بدلاً من القيم الفعلية.

  • حجم التحميل : 5.64 MiB

  • حجم مجموعة البيانات : 308.42 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 1،000،209
  • هيكل الميزة :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
دلو_المستخدم موتر تعويم 32
أنواع الأفلام تسلسل (ClassLabel) (لا أحد،) int64
معرّف_الفيلم موتر سلسلة
عنوان الفيلم موتر سلسلة
الطابع الزمني موتر int64
user_gender موتر منطقي
معرف المستخدم موتر سلسلة
user_occupation_label ClassLabel int64
user_occupation_text موتر سلسلة
تقييم المستخدم موتر تعويم 32
user_zip_code موتر سلسلة

أفلام / 1 م-أفلام

  • وصف التكوين : تحتوي مجموعة البيانات هذه على بيانات حوالي 3900 فيلم تم تصنيفها في مجموعة بيانات 1 مليون.

  • حجم التحميل : 5.64 MiB

  • حجم مجموعة البيانات : 351.12 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 3883
  • هيكل الميزة :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
أنواع الأفلام تسلسل (ClassLabel) (لا أحد،) int64
معرّف_الفيلم موتر سلسلة
عنوان الفيلم موتر سلسلة

أفلام / 20 م التقييمات

  • وصف التكوين : تحتوي مجموعة البيانات هذه على 20000263 تقييمًا عبر 27278 فيلمًا ، تم إنشاؤها بواسطة 138493 مستخدمًا بين 09 يناير 1995 و 31 مارس 2015. تم إنشاء مجموعة البيانات هذه في 17 أكتوبر 2016.

قام كل مستخدم بتقييم 20 فيلمًا على الأقل. التقييمات بزيادات نصف نجمة. لا تحتوي مجموعة البيانات هذه على بيانات ديموغرافية.

  • حجم التحميل : 189.50 MiB

  • حجم مجموعة البيانات : 3.10 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 20000263
  • هيكل الميزة :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
أنواع الأفلام تسلسل (ClassLabel) (لا أحد،) int64
معرّف_الفيلم موتر سلسلة
عنوان الفيلم موتر سلسلة
الطابع الزمني موتر int64
معرف المستخدم موتر سلسلة
تقييم المستخدم موتر تعويم 32

أفلام / 20 م أفلام

  • وصف التكوين : تحتوي مجموعة البيانات هذه على بيانات 27278 فيلمًا تم تصنيفها في مجموعة بيانات 20 مليونًا

  • حجم التحميل : 189.50 MiB

  • حجم مجموعة البيانات : 2.55 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 27278
  • هيكل الميزة :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
أنواع الأفلام تسلسل (ClassLabel) (لا أحد،) int64
معرّف_الفيلم موتر سلسلة
عنوان الفيلم موتر سلسلة