- คำอธิบาย :
ชุดข้อมูลนี้มีชุดการจัดเรตภาพยนตร์จากเว็บไซต์ MovieLens ซึ่งเป็นบริการแนะนำภาพยนตร์ ชุดข้อมูลนี้รวบรวมและดูแลโดย GroupLens ซึ่งเป็นกลุ่มวิจัยของมหาวิทยาลัยมินนิโซตา มี 5 เวอร์ชัน ได้แก่ "25m", "latest-small", "100k", "1m", "20m" ในชุดข้อมูลทั้งหมด ข้อมูลภาพยนตร์และข้อมูลการจัดอันดับจะรวมเข้ากับ "movieId" ชุดข้อมูล 25m ชุดข้อมูลขนาดเล็กล่าสุด และชุดข้อมูล 20m มีเฉพาะข้อมูลภาพยนตร์และข้อมูลการจัดเรตเท่านั้น ชุดข้อมูล 1m และชุดข้อมูล 100k ประกอบด้วยข้อมูลประชากรนอกเหนือจากข้อมูลภาพยนตร์และการจัดอันดับ
- "25m": นี่คือชุดข้อมูล MovieLens เวอร์ชันเสถียรล่าสุด ขอแนะนำเพื่อวัตถุประสงค์ในการวิจัย
- "latest-small": นี่คือส่วนย่อยเล็กๆ ของชุดข้อมูล MovieLens เวอร์ชันล่าสุด มีการเปลี่ยนแปลงและอัปเดตเมื่อเวลาผ่านไปโดย GroupLens
- "100k": นี่คือชุดข้อมูล MovieLens เวอร์ชันเก่าที่สุด เป็นชุดข้อมูลขนาดเล็กที่มีข้อมูลประชากร
- "1m": นี่คือชุดข้อมูล MovieLens ที่ใหญ่ที่สุดที่มีข้อมูลประชากร
- "20m": นี่เป็นหนึ่งในชุดข้อมูล MovieLens ที่ใช้มากที่สุดในเอกสารทางวิชาการพร้อมกับชุดข้อมูล 1m
สำหรับแต่ละเวอร์ชัน ผู้ใช้สามารถดูเฉพาะข้อมูลภาพยนตร์โดยเพิ่ม "-movies" ต่อท้าย (เช่น "25m-movies") หรือข้อมูลการจัดเรตร่วมกับข้อมูลภาพยนตร์ (และข้อมูลผู้ใช้ในชุดข้อมูล 1m และ 100k) โดยการเพิ่ม คำต่อท้าย "-เรทติ้ง" (เช่น "เรทติ้ง 25m")
คุณสมบัติด้านล่างนี้รวมอยู่ในทุกเวอร์ชันที่มี "-ratings" ต่อท้าย
- "movie_id": ตัวระบุเฉพาะของภาพยนตร์ที่ได้รับการจัดอันดับ
- "movie_title": ชื่อของภาพยนตร์ที่มีการจัดอันดับพร้อมปีที่ออกฉายในวงเล็บ
- "movie_genres": ลำดับของประเภทภาพยนตร์ที่มีการจัดเรต
- "user_id": ตัวระบุเฉพาะของผู้ใช้ที่ให้คะแนน
- "user_rating": คะแนนของการให้คะแนนในระดับห้าดาว
- "การประทับเวลา": การประทับเวลาของการให้คะแนน แสดงเป็นวินาทีตั้งแต่เที่ยงคืนตามเวลาสากลเชิงพิกัด (UTC) ของวันที่ 1 มกราคม พ.ศ. 2513
นอกจากนี้ เวอร์ชัน "100k-ratings" และ "1m-ratings" ยังรวมถึงคุณลักษณะด้านประชากรดังต่อไปนี้
- "user_gender": เพศของผู้ใช้ที่ให้คะแนน; ค่าที่แท้จริงสอดคล้องกับเพศชาย
- "bucketized_user_age": ค่าอายุที่เก็บข้อมูลของผู้ใช้ที่ให้คะแนน ค่าและช่วงที่เกี่ยวข้องคือ:
- 1: "อายุต่ำกว่า 18 ปี"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
- "user_occupation_label": อาชีพของผู้ใช้ที่ให้คะแนนแทนด้วยป้ายกำกับที่เข้ารหัสด้วยจำนวนเต็ม ฉลากได้รับการประมวลผลล่วงหน้าเพื่อให้สอดคล้องกันในเวอร์ชันต่างๆ
- "user_occupation_text": อาชีพของผู้ใช้ที่ให้คะแนนในสตริงเดิม เวอร์ชันต่างๆ สามารถมีชุดป้ายกำกับข้อความดิบที่แตกต่างกันได้
- "user_zip_code": รหัสไปรษณีย์ของผู้ใช้ที่ให้คะแนน
นอกจากนี้ ชุดข้อมูล "100k-ratings" ยังมีคุณสมบัติ "raw_user_age" ซึ่งเป็นอายุที่แน่นอนของผู้ใช้ที่ให้คะแนน
ชุดข้อมูลที่มี "-movies" ต่อท้ายมีคุณลักษณะ "movie_id", "movie_title" และ "movie_genres" เท่านั้น
รหัสที่มา :
tfds.structured.MovieLens
รุ่น :
-
0.1.1
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
movie_lens/25m-ratings (การกำหนดค่าเริ่มต้น)
- คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีการจัดอันดับ 25,000,095 ในภาพยนตร์ 62,423 เรื่อง สร้างโดยผู้ใช้ 162,541 คนระหว่างวันที่ 9 มกราคม 1995 ถึง 21 พฤศจิกายน
- ชุดข้อมูลนี้เป็นชุดข้อมูล MovieLens เวอร์ชันเสถียรล่าสุด ซึ่งสร้างขึ้นเมื่อวันที่ 21 พฤศจิกายน 2019
ผู้ใช้แต่ละคนให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง เรตติ้งขึ้นทีละครึ่งดาว ชุดข้อมูลนี้ไม่รวมข้อมูลประชากร
ขนาดการดาวน์โหลด :
249.84 MiB
ขนาดชุดข้อมูล :
3.89 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 25,000,095 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
movie_genres | ลำดับ (ClassLabel) | (ไม่มี,) | int64 | |
movie_id | เทนเซอร์ | สตริง | ||
ชื่อหนัง | เทนเซอร์ | สตริง | ||
การประทับเวลา | เทนเซอร์ | int64 | ||
user_id | เทนเซอร์ | สตริง | ||
user_rating | เทนเซอร์ | ลอย32 |
- ตัวอย่าง ( tfds.as_dataframe ):
movie_lens/ภาพยนตร์ 25 ม
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ประกอบด้วยข้อมูลของภาพยนตร์ 62,423 เรตในชุดข้อมูล 25m
ขนาดการดาวน์โหลด :
249.84 MiB
ขนาดชุดข้อมูล :
5.71 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 62,423 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
movie_genres | ลำดับ (ClassLabel) | (ไม่มี,) | int64 | |
movie_id | เทนเซอร์ | สตริง | ||
ชื่อหนัง | เทนเซอร์ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
movie_lens/latest-small-ratings
- คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีการจัดอันดับ 100,836 เรื่องในภาพยนตร์ 9,742 เรื่อง สร้างขึ้นโดยผู้ใช้ 610 คนระหว่างวันที่ 29 มีนาคม 1996 ถึง 24 กันยายน 2018 ชุดข้อมูลนี้สร้างขึ้นเมื่อวันที่ 26 กันยายน 2018 และเป็นส่วนย่อยของชุดข้อมูล MovieLens เวอร์ชันล่าสุด . ชุดข้อมูลนี้มีการเปลี่ยนแปลงและอัปเดตเมื่อเวลาผ่านไป
ผู้ใช้แต่ละคนให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง เรตติ้งขึ้นทีละครึ่งดาว ชุดข้อมูลนี้ไม่รวมข้อมูลประชากร
ขนาดการดาวน์โหลด :
955.28 KiB
ขนาดชุดข้อมูล :
15.82 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 100,836 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
movie_genres | ลำดับ (ClassLabel) | (ไม่มี,) | int64 | |
movie_id | เทนเซอร์ | สตริง | ||
ชื่อหนัง | เทนเซอร์ | สตริง | ||
การประทับเวลา | เทนเซอร์ | int64 | ||
user_id | เทนเซอร์ | สตริง | ||
user_rating | เทนเซอร์ | ลอย32 |
- ตัวอย่าง ( tfds.as_dataframe ):
movie_lens/latest-small-movies
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีข้อมูลของภาพยนตร์ 9,742 เรื่องซึ่งจัดเรตในชุดข้อมูลขนาดเล็กล่าสุด
ขนาดการดาวน์โหลด :
955.28 KiB
ขนาดชุดข้อมูล :
910.64 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 9,742 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
movie_genres | ลำดับ (ClassLabel) | (ไม่มี,) | int64 | |
movie_id | เทนเซอร์ | สตริง | ||
ชื่อหนัง | เทนเซอร์ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
movie_lens/100k-เรทติ้ง
- คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีการจัดอันดับ 100,000 รายการจากผู้ใช้ 943 คนในภาพยนตร์ 1,682 เรื่อง ชุดข้อมูลนี้เป็นชุดข้อมูล MovieLens เวอร์ชันเก่าที่สุด
ผู้ใช้แต่ละคนให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง การให้คะแนนจะเพิ่มขึ้นทีละดาว ชุดข้อมูลนี้ประกอบด้วยข้อมูลประชากรของผู้ใช้ นอกเหนือจากข้อมูลเกี่ยวกับภาพยนตร์และการให้คะแนน
ขนาดการดาวน์โหลด :
4.70 MiB
ขนาดชุดข้อมูล :
32.41 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 100,000 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'raw_user_age': float32,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
bucketized_user_age | เทนเซอร์ | ลอย32 | ||
movie_genres | ลำดับ (ClassLabel) | (ไม่มี,) | int64 | |
movie_id | เทนเซอร์ | สตริง | ||
ชื่อหนัง | เทนเซอร์ | สตริง | ||
raw_user_age | เทนเซอร์ | ลอย32 | ||
การประทับเวลา | เทนเซอร์ | int64 | ||
user_gender | เทนเซอร์ | บูล | ||
user_id | เทนเซอร์ | สตริง | ||
user_occupation_label | ป้ายกำกับคลาส | int64 | ||
user_occupation_text | เทนเซอร์ | สตริง | ||
user_rating | เทนเซอร์ | ลอย32 | ||
user_zip_code | เทนเซอร์ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
movie_lens/100k-movies
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีข้อมูลของภาพยนตร์ 1,682 เรื่องที่จัดเรตในชุดข้อมูล 100k
ขนาดการดาวน์โหลด :
4.70 MiB
ขนาดชุดข้อมูล :
150.35 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1,682 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
movie_genres | ลำดับ (ClassLabel) | (ไม่มี,) | int64 | |
movie_id | เทนเซอร์ | สตริง | ||
ชื่อหนัง | เทนเซอร์ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
movie_lens/เรทติ้ง 1m
- คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีการจัดอันดับแบบไม่ระบุชื่อ 1,000,209 เรื่องจากภาพยนตร์ประมาณ 3,900 เรื่องที่สร้างโดยผู้ใช้ MovieLens 6,040 รายที่เข้าร่วม MovieLens ใน
- ชุดข้อมูลนี้เป็นชุดข้อมูลที่ใหญ่ที่สุดที่มีข้อมูลประชากร
ผู้ใช้แต่ละคนให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง การให้คะแนนจะเพิ่มขึ้นทีละดาว ในข้อมูลประชากร ค่าอายุจะแบ่งออกเป็นช่วงต่างๆ และค่าอายุที่ต่ำที่สุดสำหรับแต่ละช่วงจะถูกใช้ในข้อมูลแทนค่าจริง
ขนาดการดาวน์โหลด :
5.64 MiB
ขนาดชุดข้อมูล :
308.42 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1,000,209 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
bucketized_user_age | เทนเซอร์ | ลอย32 | ||
movie_genres | ลำดับ (ClassLabel) | (ไม่มี,) | int64 | |
movie_id | เทนเซอร์ | สตริง | ||
ชื่อหนัง | เทนเซอร์ | สตริง | ||
การประทับเวลา | เทนเซอร์ | int64 | ||
user_gender | เทนเซอร์ | บูล | ||
user_id | เทนเซอร์ | สตริง | ||
user_occupation_label | ป้ายกำกับคลาส | int64 | ||
user_occupation_text | เทนเซอร์ | สตริง | ||
user_rating | เทนเซอร์ | ลอย32 | ||
user_zip_code | เทนเซอร์ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
movie_lens/1m-movies
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีข้อมูลของภาพยนตร์ประมาณ 3,900 เรื่องที่มีการจัดอันดับในชุดข้อมูล 1m
ขนาดการดาวน์โหลด :
5.64 MiB
ขนาดชุดข้อมูล :
351.12 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 3,883 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
movie_genres | ลำดับ (ClassLabel) | (ไม่มี,) | int64 | |
movie_id | เทนเซอร์ | สตริง | ||
ชื่อหนัง | เทนเซอร์ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
movie_lens/เรทติ้ง 20m
- คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีการจัดอันดับ 20,000,263 ในภาพยนตร์ 27,278 เรื่อง สร้างโดยผู้ใช้ 138,493 คนระหว่างวันที่ 9 มกราคม 1995 ถึง 31 มีนาคม 2015 ชุดข้อมูลนี้สร้างขึ้นเมื่อวันที่ 17 ตุลาคม 2016
ผู้ใช้แต่ละคนให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง การให้คะแนนจะเพิ่มทีละครึ่งดาว ชุดข้อมูลนี้ไม่มีข้อมูลประชากร
ขนาดการดาวน์โหลด :
189.50 MiB
ขนาดชุดข้อมูล :
3.10 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 20,000,263 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
movie_genres | ลำดับ (ClassLabel) | (ไม่มี,) | int64 | |
movie_id | เทนเซอร์ | สตริง | ||
ชื่อหนัง | เทนเซอร์ | สตริง | ||
การประทับเวลา | เทนเซอร์ | int64 | ||
user_id | เทนเซอร์ | สตริง | ||
user_rating | เทนเซอร์ | ลอย32 |
- ตัวอย่าง ( tfds.as_dataframe ):
movie_lens/ภาพยนตร์ 20 ม
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ประกอบด้วยข้อมูลของภาพยนตร์ 27,278 เรตในชุดข้อมูล 20m
ขนาดการดาวน์โหลด :
189.50 MiB
ขนาดชุดข้อมูล :
2.55 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 27,278 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
movie_genres | ลำดับ (ClassLabel) | (ไม่มี,) | int64 | |
movie_id | เทนเซอร์ | สตริง | ||
ชื่อหนัง | เทนเซอร์ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):