người làm phim

  • Mô tả :

Tập dữ liệu này chứa một tập hợp các xếp hạng phim từ trang web MovieLens, một dịch vụ đề xuất phim. Bộ dữ liệu này được thu thập và duy trì bởi GroupLens , một nhóm nghiên cứu tại Đại học Minnesota. Có 5 phiên bản bao gồm: "25m", "mới nhất-nhỏ", "100k", "1m", "20m". Trong tất cả các tập dữ liệu, dữ liệu phim và dữ liệu xếp hạng được kết hợp trên "movieId". Tập dữ liệu 25m, tập dữ liệu nhỏ mới nhất và tập dữ liệu 20m chỉ chứa dữ liệu phim và dữ liệu xếp hạng. Tập dữ liệu 1m và tập dữ liệu 100k chứa dữ liệu nhân khẩu học ngoài dữ liệu về phim và xếp hạng.

  • "25m": Đây là phiên bản ổn định mới nhất của bộ dữ liệu MovieLens. Nó được khuyến khích cho các mục đích nghiên cứu.
  • "mới nhất-nhỏ": Đây là một tập con nhỏ của phiên bản mới nhất của tập dữ liệu MovieLens. Nó được thay đổi và cập nhật theo thời gian bởi GroupLens.
  • "100k": Đây là phiên bản cũ nhất của bộ dữ liệu MovieLens. Nó là một tập dữ liệu nhỏ với dữ liệu nhân khẩu học.
  • "1m": Đây là tập dữ liệu MovieLens lớn nhất chứa dữ liệu nhân khẩu học.
  • "20m": Đây là một trong những tập dữ liệu MovieLens được sử dụng nhiều nhất trong các bài báo học thuật cùng với tập dữ liệu 1m.

Đối với mỗi phiên bản, người dùng chỉ có thể xem dữ liệu phim bằng cách thêm hậu tố "-movies" (ví dụ: "phim 25m") hoặc dữ liệu xếp hạng được kết hợp với dữ liệu phim (và dữ liệu người dùng trong tập dữ liệu 1m và 100k) bằng cách thêm hậu tố "-ratings" (ví dụ: "25m-xếp hạng").

Các tính năng dưới đây được bao gồm trong tất cả các phiên bản với hậu tố "-ratings".

  • "movie_id": số nhận dạng duy nhất của phim được xếp hạng
  • "movie_title": tên phim được xếp hạng với năm phát hành trong ngoặc đơn
  • "movie_genres": một chuỗi các thể loại mà phim đã xếp hạng thuộc về
  • "user_id": số nhận dạng duy nhất của người dùng đã xếp hạng
  • "user_rating": điểm xếp hạng trên thang năm sao
  • "timestamp": dấu thời gian của xếp hạng, được biểu thị bằng giây kể từ nửa đêm Giờ Phối hợp Quốc tế (UTC) của ngày 1 tháng 1 năm 1970

Ngoài ra, phiên bản "xếp hạng 100k" và "xếp hạng 1m" còn bao gồm các đặc điểm nhân khẩu học sau.

  • "user_uality": giới tính của người dùng đã xếp hạng; một giá trị thực tương ứng với nam
  • "bucketized_user_age": giá trị độ tuổi được bucketized của người dùng đã thực hiện xếp hạng, các giá trị và phạm vi tương ứng là:
    • 1: "Dưới 18 tuổi"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": nghề nghiệp của người dùng đã thực hiện xếp hạng được thể hiện bằng nhãn mã hóa số nguyên; nhãn được xử lý trước để nhất quán trên các phiên bản khác nhau
  • "user_occupation_text": nghề nghiệp của người dùng đã xếp hạng trong chuỗi gốc; các phiên bản khác nhau có thể có bộ nhãn văn bản thô khác nhau
  • "user_zip_code": mã zip của người dùng đã xếp hạng

Ngoài ra, tập dữ liệu "100k xếp hạng" cũng sẽ có một tính năng "raw_user_age" là độ tuổi chính xác của những người dùng đã thực hiện xếp hạng

Tập dữ liệu có hậu tố "-movies" chỉ chứa các tính năng "movie_id", "movie_title" và "movie_genres".

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

phim điện ảnh / 25m-xếp hạng (cấu hình mặc định)

  • Mô tả cấu hình : Tập dữ liệu này chứa 25.000.095 xếp hạng trên 62.423 phim, được tạo bởi 162.541 người dùng trong khoảng thời gian từ ngày 09 tháng 1 năm 1995 đến ngày 21 tháng 11,
  • Tập dữ liệu này là phiên bản ổn định mới nhất của tập dữ liệu MovieLens, được tạo vào ngày 21 tháng 11 năm 2019.

Mỗi người dùng đã đánh giá ít nhất 20 phim. Xếp hạng tăng dần nửa sao. Tập dữ liệu này không bao gồm dữ liệu nhân khẩu học.

  • Kích thước tải xuống : 249.84 MiB

  • Kích thước tập dữ liệu : 3.89 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 25.000.095
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
movie_genres Trình tự (ClassLabel) (Không có,) tf.int64
movie_id Tensor tf.string
movie_title Tensor tf.string
dấu thời gian Tensor tf.int64
tên người dùng Tensor tf.string
Đánh giá của người dùng Tensor tf.float32

phimmoi / phim 25m

  • Mô tả cấu hình : Tập dữ liệu này chứa dữ liệu của 62.423 phim được xếp hạng trong tập dữ liệu 25m.

  • Kích thước tải xuống : 249.84 MiB

  • Kích thước tập dữ liệu : 5.71 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 62.423
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
movie_genres Trình tự (ClassLabel) (Không có,) tf.int64
movie_id Tensor tf.string
movie_title Tensor tf.string

phim điện ảnh / xếp hạng nhỏ mới nhất

  • Mô tả cấu hình : Tập dữ liệu này chứa 100.836 xếp hạng trên 9.742 phim, được tạo bởi 610 người dùng từ ngày 29 tháng 3 năm 1996 đến ngày 24 tháng 9 năm 2018. Tập dữ liệu này được tạo vào ngày 26 tháng 9 năm 2018 và là tập con của phiên bản mới nhất đầy đủ của tập dữ liệu MovieLens . Tập dữ liệu này được thay đổi và cập nhật theo thời gian.

Mỗi người dùng đã đánh giá ít nhất 20 phim. Xếp hạng tăng dần nửa sao. Tập dữ liệu này không bao gồm dữ liệu nhân khẩu học.

  • Kích thước tải xuống : 955.28 KiB

  • Kích thước tập dữ liệu : 15.82 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 100.836
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
movie_genres Trình tự (ClassLabel) (Không có,) tf.int64
movie_id Tensor tf.string
movie_title Tensor tf.string
dấu thời gian Tensor tf.int64
tên người dùng Tensor tf.string
Đánh giá của người dùng Tensor tf.float32

phim ngắn / phim nhỏ mới nhất

  • Mô tả cấu hình : Tập dữ liệu này chứa dữ liệu của 9.742 phim được xếp hạng trong tập dữ liệu nhỏ và mới nhất.

  • Kích thước tải xuống : 955.28 KiB

  • Kích thước tập dữ liệu: 910.64 KiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 9,742
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
movie_genres Trình tự (ClassLabel) (Không có,) tf.int64
movie_id Tensor tf.string
movie_title Tensor tf.string

những người làm phim / 100k-lượt xếp hạng

  • Mô tả cấu hình : Tập dữ liệu này chứa 100.000 xếp hạng từ 943 người dùng trên 1.682 phim. Tập dữ liệu này là phiên bản cũ nhất của tập dữ liệu MovieLens.

Mỗi người dùng đã đánh giá ít nhất 20 phim. Xếp hạng theo mức tăng toàn sao. Tập dữ liệu này chứa dữ liệu nhân khẩu học của người dùng ngoài dữ liệu về phim và xếp hạng.

  • Kích thước tải xuống : 4.70 MiB

  • Kích thước tập dữ liệu : 32.41 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 100.000
  • Cấu trúc tính năng :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
bucketized_user_age Tensor tf.float32
movie_genres Trình tự (ClassLabel) (Không có,) tf.int64
movie_id Tensor tf.string
movie_title Tensor tf.string
raw_user_age Tensor tf.float32
dấu thời gian Tensor tf.int64
người dùng Tensor tf.bool
tên người dùng Tensor tf.string
user_occupation_label ClassLabel tf.int64
user_occupation_text Tensor tf.string
Đánh giá của người dùng Tensor tf.float32
user_zip_code Tensor tf.string

phim ngắn / 100k-phim

  • Mô tả cấu hình : Tập dữ liệu này chứa dữ liệu của 1.682 phim được xếp hạng trong tập dữ liệu 100k.

  • Kích thước tải xuống : 4.70 MiB

  • Kích thước tập dữ liệu: 150.35 KiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 1.682
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
movie_genres Trình tự (ClassLabel) (Không có,) tf.int64
movie_id Tensor tf.string
movie_title Tensor tf.string

những người làm phim / xếp hạng 1m

  • Mô tả cấu hình : Tập dữ liệu này chứa 1.000.209 xếp hạng ẩn danh của khoảng 3.900 phim được thực hiện bởi 6.040 người dùng MovieLens đã tham gia MovieLens trong
  • Tập dữ liệu này là tập dữ liệu lớn nhất bao gồm dữ liệu nhân khẩu học.

Mỗi người dùng đã đánh giá ít nhất 20 phim. Xếp hạng theo mức tăng toàn sao. Trong dữ liệu nhân khẩu học, giá trị độ tuổi được chia thành các phạm vi và giá trị độ tuổi thấp nhất cho mỗi phạm vi được sử dụng trong dữ liệu thay vì các giá trị thực tế.

  • Kích thước tải xuống : 5.64 MiB

  • Kích thước tập dữ liệu: 308.42 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 1.000.209
  • Cấu trúc tính năng :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
bucketized_user_age Tensor tf.float32
movie_genres Trình tự (ClassLabel) (Không có,) tf.int64
movie_id Tensor tf.string
movie_title Tensor tf.string
dấu thời gian Tensor tf.int64
người dùng Tensor tf.bool
tên người dùng Tensor tf.string
user_occupation_label ClassLabel tf.int64
user_occupation_text Tensor tf.string
Đánh giá của người dùng Tensor tf.float32
user_zip_code Tensor tf.string

phim ngắn / phim dài 1m

  • Mô tả cấu hình : Tập dữ liệu này chứa dữ liệu của khoảng 3.900 phim được xếp hạng trong tập dữ liệu 1m.

  • Kích thước tải xuống : 5.64 MiB

  • Kích thước tập dữ liệu: 351.12 KiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 3.883
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
movie_genres Trình tự (ClassLabel) (Không có,) tf.int64
movie_id Tensor tf.string
movie_title Tensor tf.string

phim / 20 phút xếp hạng

  • Mô tả cấu hình : Tập dữ liệu này chứa 20.000.263 xếp hạng trên 27.278 phim, được tạo bởi 138.493 người dùng trong khoảng thời gian từ ngày 09 tháng 1 năm 1995 đến ngày 31 tháng 3 năm 2015. Tập dữ liệu này được tạo vào ngày 17 tháng 10 năm 2016.

Mỗi người dùng đã đánh giá ít nhất 20 phim. Xếp hạng tăng dần nửa sao. Tập dữ liệu này không chứa dữ liệu nhân khẩu học.

  • Kích thước tải xuống : 189.50 MiB

  • Kích thước tập dữ liệu : 3.10 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 20.000.263
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
movie_genres Trình tự (ClassLabel) (Không có,) tf.int64
movie_id Tensor tf.string
movie_title Tensor tf.string
dấu thời gian Tensor tf.int64
tên người dùng Tensor tf.string
Đánh giá của người dùng Tensor tf.float32

phim ngắn / phim dài 20m

  • Mô tả cấu hình : Tập dữ liệu này chứa dữ liệu của 27.278 phim được xếp hạng trong tập dữ liệu 20m

  • Kích thước tải xuống : 189.50 MiB

  • Kích thước tập dữ liệu : 2.55 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 27.278
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
movie_genres Trình tự (ClassLabel) (Không có,) tf.int64
movie_id Tensor tf.string
movie_title Tensor tf.string