- Описание :
Этот набор данных содержит набор рейтингов фильмов с веб-сайта MovieLens, службы рекомендаций фильмов. Этот набор данных был собран и поддерживается GroupLens , исследовательской группой Университета Миннесоты. В комплекте 5 версий: "25м", "последняя-маленькая", "100к", "1м", "20м". Во всех наборах данных данные фильмов и данные рейтингов объединяются в «movieId». Набор данных 25 м, последний небольшой набор данных и набор данных 20 м содержат только данные о фильмах и данные о рейтингах. Набор данных 1 млн и набор данных 100 тыс. содержат демографические данные в дополнение к данным о фильмах и рейтингах.
- «25m»: это последняя стабильная версия набора данных MovieLens. Рекомендуется для исследовательских целей.
- «latest-small»: это небольшое подмножество последней версии набора данных MovieLens. GroupLens со временем изменяет и обновляет его.
- «100k»: это самая старая версия наборов данных MovieLens. Это небольшой набор данных с демографическими данными.
- «1m»: это самый большой набор данных MovieLens, содержащий демографические данные.
- «20 м»: это один из наиболее часто используемых наборов данных MovieLens в научных статьях наряду с набором данных 1 м.
Для каждой версии пользователи могут просматривать либо только данные о фильмах, добавляя суффикс «-movies» (например, «25 млн фильмов»), либо данные о рейтингах, объединенные с данными о фильмах (и данные о пользователях в наборах данных 1 млн и 100 тыс.), добавляя суффикс "-рейтинги" (например, "25m-рейтинги").
Перечисленные ниже функции включены во все версии с суффиксом «-ratings».
- "movie_id": уникальный идентификатор оцениваемого фильма.
- «movie_title»: название рейтингового фильма с годом выпуска в скобках.
- «movie_genres»: последовательность жанров, к которым относится оцениваемый фильм.
- "user_id": уникальный идентификатор пользователя, составившего рейтинг
- "user_rating": оценка рейтинга по пятизвездочной шкале
- «отметка времени»: отметка времени рейтингов, представленная в секундах с полуночи по всемирному координированному времени (UTC) 1 января 1970 г.
Версии «100k-рейтинги» и «1m-рейтинги» дополнительно включают следующие демографические характеристики.
- "user_gender": пол пользователя, составившего рейтинг; истинное значение соответствует мужскому
-  «bucketized_user_age»: значения возраста пользователя, составившего рейтинг, с разбивкой по сегментам, значения и соответствующие диапазоны:- 1: «До 18 лет»
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: «50-55»
- 56: «56+»
 
- «user_occupation_label»: род занятий пользователя, составившего рейтинг, представленный меткой в целочисленном коде; метки предварительно обработаны, чтобы быть согласованными в разных версиях
- "user_occupation_text": род занятий пользователя, составившего рейтинг в исходной строке; разные версии могут иметь разный набор текстовых меток
- "user_zip_code": почтовый индекс пользователя, составившего рейтинг
Кроме того, набор данных «100k-ratings» также будет иметь функцию «raw_user_age», которая представляет собой точный возраст пользователей, составивших рейтинг.
Наборы данных с суффиксом «-movies» содержат только функции «movie_id», «movie_title» и «movie_genres».
- Дополнительная документация : изучить документы с кодом 
- Домашняя страница : https://grouplens.org/datasets/movielens/ 
- Исходный код : - tfds.structured.Movielens
- Версии : -  0.1.1(по умолчанию): нет примечаний к выпуску.
 
-  
- Ключи под наблюдением (см . документ - as_supervised):- None
- Рисунок ( tfds.show_examples ): не поддерживается. 
- Цитата : 
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
movielens/25m-рейтинги (конфигурация по умолчанию)
- Описание конфигурации : этот набор данных содержит 25 000 095 оценок для 62 423 фильмов, созданных 162 541 пользователем в период с 9 января 1995 года по 21 ноября.
- Этот набор данных является последней стабильной версией набора данных MovieLens, созданной 21 ноября 2019 года.
Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не включает демографические данные.
- Размер загрузки : - 249.84 MiB
- Размер набора данных : - 3.89 GiB
- Автоматическое кэширование ( документация ): Нет 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 25 000 095 | 
- Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
| movie_id | Тензор | нить | ||
| название фильма | Тензор | нить | ||
| отметка времени | Тензор | int64 | ||
| ID пользователя | Тензор | нить | ||
| рейтинг пользователей | Тензор | поплавок32 | 
- Примеры ( tfds.as_dataframe ):
кинообъектив/25м-фильмы
- Описание конфигурации : этот набор данных содержит данные о 62 423 фильмах, оцененных в наборе данных 25 м. 
- Размер загрузки : - 249.84 MiB
- Размер набора данных : - 5.71 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 62 423 | 
- Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
| movie_id | Тензор | нить | ||
| название фильма | Тензор | нить | 
- Примеры ( tfds.as_dataframe ):
кинообъектив/последние-маленькие-рейтинги
- Описание конфигурации : этот набор данных содержит 100 836 оценок для 9 742 фильмов, созданных 610 пользователями в период с 29 марта 1996 г. по 24 сентября 2018 г. Этот набор данных создан 26 сентября 2018 г. и является подмножеством полной последней версии набора данных MovieLens. . Этот набор данных изменяется и обновляется с течением времени.
Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не включает демографические данные.
- Размер загрузки : - 955.28 KiB
- Размер набора данных : - 15.82 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 100 836 | 
- Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
| movie_id | Тензор | нить | ||
| название фильма | Тензор | нить | ||
| отметка времени | Тензор | int64 | ||
| ID пользователя | Тензор | нить | ||
| рейтинг пользователей | Тензор | поплавок32 | 
- Примеры ( tfds.as_dataframe ):
кинообъектив/последние маленькие фильмы
- Описание конфигурации : этот набор данных содержит данные о 9742 фильмах, оцененных в последнем небольшом наборе данных. 
- Размер загрузки : - 955.28 KiB
- Размер набора данных : - 910.64 KiB
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 9742 | 
- Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
| movie_id | Тензор | нить | ||
| название фильма | Тензор | нить | 
- Примеры ( tfds.as_dataframe ):
кинообъектив/100k-рейтинги
- Описание конфигурации : этот набор данных содержит 100 000 оценок 943 пользователей для 1 682 фильмов. Этот набор данных является самой старой версией набора данных MovieLens.
Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в целую звезду. Этот набор данных содержит демографические данные пользователей в дополнение к данным о фильмах и рейтингах.
- Размер загрузки : - 4.70 MiB
- Размер набора данных : - 32.41 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 100 000 | 
- Структура функции :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| Bucketized_user_age | Тензор | поплавок32 | ||
| кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
| movie_id | Тензор | нить | ||
| название фильма | Тензор | нить | ||
| raw_user_age | Тензор | поплавок32 | ||
| отметка времени | Тензор | int64 | ||
| user_gender | Тензор | логический | ||
| ID пользователя | Тензор | нить | ||
| user_occupation_label | Метка класса | int64 | ||
| user_occupation_text | Тензор | нить | ||
| рейтинг пользователей | Тензор | поплавок32 | ||
| user_zip_code | Тензор | нить | 
- Примеры ( tfds.as_dataframe ):
кинообъектив/100 000 фильмов
- Описание конфигурации : этот набор данных содержит данные о 1682 фильмах, оцененных в наборе данных 100 000. 
- Размер загрузки : - 4.70 MiB
- Размер набора данных : - 150.35 KiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 1682 | 
- Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
| movie_id | Тензор | нить | ||
| название фильма | Тензор | нить | 
- Примеры ( tfds.as_dataframe ):
кинообъектив/1м-рейтинги
- Описание конфигурации : этот набор данных содержит 1 000 209 анонимных оценок примерно 3 900 фильмов, созданных 6 040 пользователями MovieLens, присоединившимися к MovieLens в
- Этот набор данных является самым большим набором данных, который включает демографические данные.
Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в целую звезду. В демографических данных значения возраста делятся на диапазоны, и вместо фактических значений в данных используется наименьшее значение возраста для каждого диапазона.
- Размер загрузки : - 5.64 MiB
- Размер набора данных : - 308.42 MiB.
- Автоматическое кэширование ( документация ): Нет 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 1 000 209 | 
- Структура функции :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| Bucketized_user_age | Тензор | поплавок32 | ||
| кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
| movie_id | Тензор | нить | ||
| название фильма | Тензор | нить | ||
| отметка времени | Тензор | int64 | ||
| user_gender | Тензор | логический | ||
| ID пользователя | Тензор | нить | ||
| user_occupation_label | Метка класса | int64 | ||
| user_occupation_text | Тензор | нить | ||
| рейтинг пользователей | Тензор | поплавок32 | ||
| user_zip_code | Тензор | нить | 
- Примеры ( tfds.as_dataframe ):
кинообъектив/1м-фильмы
- Описание конфигурации : этот набор данных содержит данные примерно о 3900 фильмах, оцененных в наборе данных 1 м. 
- Размер загрузки : - 5.64 MiB
- Размер набора данных : - 351.12 KiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 3883 | 
- Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
| movie_id | Тензор | нить | ||
| название фильма | Тензор | нить | 
- Примеры ( tfds.as_dataframe ):
кинообъектив/20м-рейтинги
- Описание конфигурации : этот набор данных содержит 20 000 263 оценки для 27 278 фильмов, созданных 138 493 пользователями в период с 09 января 1995 года по 31 марта 2015 года. Этот набор данных был сгенерирован 17 октября 2016 года.
Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не содержит демографических данных.
- Размер загрузки : - 189.50 MiB
- Размер набора данных : - 3.10 GiB
- Автоматическое кэширование ( документация ): Нет 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 20 000 263 | 
- Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
| movie_id | Тензор | нить | ||
| название фильма | Тензор | нить | ||
| отметка времени | Тензор | int64 | ||
| ID пользователя | Тензор | нить | ||
| рейтинг пользователей | Тензор | поплавок32 | 
- Примеры ( tfds.as_dataframe ):
кинообъектив/20м-фильмы
- Описание конфигурации : этот набор данных содержит данные о 27 278 фильмах, оцененных в наборе данных 20 м. 
- Размер загрузки : - 189.50 MiB
- Размер набора данных : - 2.55 MiB.
- Автоматическое кэширование ( документация ): Да 
- Сплиты : 
| Расколоть | Примеры | 
|---|---|
| 'train' | 27 278 | 
- Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание | 
|---|---|---|---|---|
| ОсобенностиDict | ||||
| кино_жанры | Последовательность (метка класса) | (Никто,) | int64 | |
| movie_id | Тензор | нить | ||
| название фильма | Тензор | нить | 
- Примеры ( tfds.as_dataframe ):