- Descrizione :
Questo set di dati contiene una serie di classificazioni dei film dal sito Web MovieLens, un servizio di consigli sui film. Questo set di dati è stato raccolto e gestito da GroupLens , un gruppo di ricerca dell'Università del Minnesota. Sono incluse 5 versioni: "25m", "latest-small", "100k", "1m", "20m". In tutti i set di dati, i dati sui film e i dati sulle valutazioni vengono uniti in "movieId". Il set di dati da 25 milioni, il set di dati più piccolo e il set di dati da 20 milioni contengono solo dati sui film e dati sulla valutazione. Il set di dati da 1 milione e il set di dati da 100.000 contengono dati demografici oltre ai dati sui film e sulla valutazione.
- "25m": questa è l'ultima versione stabile del set di dati MovieLens. Consigliato per scopi di ricerca.
- "latest-small": questo è un piccolo sottoinsieme dell'ultima versione del set di dati MovieLens. Viene modificato e aggiornato nel tempo da GroupLens.
- "100k": questa è la versione meno recente dei set di dati MovieLens. È un piccolo set di dati con dati demografici.
- "1m": questo è il set di dati MovieLens più grande che contiene dati demografici.
- "20m": questo è uno dei set di dati MovieLens più utilizzati nei documenti accademici insieme al set di dati 1m.
Per ciascuna versione, gli utenti possono visualizzare solo i dati dei film aggiungendo il suffisso "-movies" (ad es. "25m-movies") oppure i dati delle valutazioni uniti ai dati dei film (e i dati degli utenti nei set di dati da 1 milione e 100.000) aggiungendo il suffisso "-ratings" (es. "25m-ratings").
Le funzionalità seguenti sono incluse in tutte le versioni con il suffisso "-ratings".
- "movie_id": un identificatore univoco del film valutato
- "movie_title": il titolo del film valutato con l'anno di uscita tra parentesi
- "movie_genres": una sequenza di generi a cui appartiene il film valutato
- "user_id": identificatore univoco dell'utente che ha effettuato la valutazione
- "user_rating": il punteggio della valutazione su una scala a cinque stelle
- "timestamp": il timestamp delle valutazioni, rappresentato in secondi dalla mezzanotte Coordinated Universal Time (UTC) del 1 gennaio 1970
Le versioni "100k-ratings" e "1m-ratings" includono inoltre le seguenti caratteristiche demografiche.
- "user_gender": sesso dell'utente che ha effettuato la valutazione; un vero valore corrisponde al maschio
- "bucketized_user_age": i valori di età suddivisi in bucket dell'utente che ha effettuato la valutazione, i valori e gli intervalli corrispondenti sono:
- 1: "Sotto i 18 anni"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
- "user_occupation_label": l'occupazione dell'utente che ha effettuato la valutazione rappresentata da un'etichetta con codifica intera; le etichette vengono preelaborate per essere coerenti tra le diverse versioni
- "user_occupation_text": l'occupazione dell'utente che ha effettuato la valutazione nella stringa originale; versioni diverse possono avere diversi set di etichette di testo non elaborato
- "user_zip_code": il codice postale dell'utente che ha effettuato la valutazione
Inoltre, il set di dati "100k-ratings" avrebbe anche una funzione "raw_user_age" che rappresenta l'età esatta degli utenti che hanno effettuato la valutazione
I set di dati con il suffisso "-movies" contengono solo le funzioni "movie_id", "movie_title" e "movie_genres".
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://grouplens.org/datasets/movielens/
Codice sorgente :
tfds.structured.Movielens
Versioni :
-
0.1.1
(impostazione predefinita): nessuna nota di rilascio.
-
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
movielens/25m-ratings (configurazione predefinita)
- Descrizione della configurazione : questo set di dati contiene 25.000.095 valutazioni di 62.423 film, creati da 162.541 utenti tra il 9 gennaio 1995 e il 21 novembre
- Questo set di dati è l'ultima versione stabile del set di dati MovieLens, generato il 21 novembre 2019.
Ogni utente ha valutato almeno 20 film. Le valutazioni sono in incrementi di mezza stella. Questo set di dati non include dati demografici.
Dimensione del download :
249.84 MiB
Dimensione del set di dati:
3.89 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'train' | 25.000.095 |
- Struttura delle caratteristiche :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
movie_genres | Sequenza(EtichettaClasse) | (Nessuno,) | int64 | |
ID_film | Tensore | corda | ||
titolo del film | Tensore | corda | ||
timestamp | Tensore | int64 | ||
ID utente | Tensore | corda | ||
voto dell'utente | Tensore | galleggiante32 |
- Esempi ( tfds.as_dataframe ):
movielens/25m-film
Descrizione della configurazione : questo set di dati contiene i dati di 62.423 film classificati nel set di dati di 25 milioni.
Dimensione del download :
249.84 MiB
Dimensione del set di dati:
5.71 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 62.423 |
- Struttura delle caratteristiche :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
movie_genres | Sequenza(EtichettaClasse) | (Nessuno,) | int64 | |
ID_film | Tensore | corda | ||
titolo del film | Tensore | corda |
- Esempi ( tfds.as_dataframe ):
movielens/latest-small-ratings
- Descrizione della configurazione : questo set di dati contiene 100.836 valutazioni di 9.742 film, creati da 610 utenti tra il 29 marzo 1996 e il 24 settembre 2018. Questo set di dati viene generato il 26 settembre 2018 ed è un sottoinsieme dell'ultima versione completa del set di dati MovieLens . Questo set di dati viene modificato e aggiornato nel tempo.
Ogni utente ha valutato almeno 20 film. Le valutazioni sono in incrementi di mezza stella. Questo set di dati non include dati demografici.
Dimensione del download :
955.28 KiB
Dimensione del set di dati:
15.82 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 100.836 |
- Struttura delle caratteristiche :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
movie_genres | Sequenza(EtichettaClasse) | (Nessuno,) | int64 | |
ID_film | Tensore | corda | ||
titolo del film | Tensore | corda | ||
timestamp | Tensore | int64 | ||
ID utente | Tensore | corda | ||
voto dell'utente | Tensore | galleggiante32 |
- Esempi ( tfds.as_dataframe ):
movielens/ultimi-piccoli-film
Descrizione della configurazione : questo set di dati contiene i dati di 9.742 film classificati nell'ultimo set di dati più piccolo.
Dimensione del download :
955.28 KiB
Dimensione del set di dati:
910.64 KiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 9.742 |
- Struttura delle caratteristiche :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
movie_genres | Sequenza(EtichettaClasse) | (Nessuno,) | int64 | |
ID_film | Tensore | corda | ||
titolo del film | Tensore | corda |
- Esempi ( tfds.as_dataframe ):
movielens/100k-rating
- Descrizione della configurazione : questo set di dati contiene 100.000 valutazioni di 943 utenti su 1.682 film. Questo set di dati è la versione meno recente del set di dati MovieLens.
Ogni utente ha valutato almeno 20 film. Le valutazioni sono in incrementi di stelle intere. Questo set di dati contiene dati demografici degli utenti oltre a dati su film e valutazioni.
Dimensione del download :
4.70 MiB
Dimensione del set di dati:
32.41 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 100.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'raw_user_age': float32,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
bucketized_user_age | Tensore | galleggiante32 | ||
movie_genres | Sequenza(EtichettaClasse) | (Nessuno,) | int64 | |
ID_film | Tensore | corda | ||
titolo del film | Tensore | corda | ||
raw_user_age | Tensore | galleggiante32 | ||
timestamp | Tensore | int64 | ||
user_gender | Tensore | bool | ||
ID utente | Tensore | corda | ||
etichetta_occupazione_utente | ClassLabel | int64 | ||
testo_occupazione_utente | Tensore | corda | ||
voto dell'utente | Tensore | galleggiante32 | ||
codice_di_zip_utente | Tensore | corda |
- Esempi ( tfds.as_dataframe ):
movielens/100k-film
Descrizione della configurazione : questo set di dati contiene i dati di 1.682 film classificati nel set di dati da 100.000.
Dimensione del download :
4.70 MiB
Dimensione del set di dati:
150.35 KiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 1.682 |
- Struttura delle caratteristiche :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
movie_genres | Sequenza(EtichettaClasse) | (Nessuno,) | int64 | |
ID_film | Tensore | corda | ||
titolo del film | Tensore | corda |
- Esempi ( tfds.as_dataframe ):
movielens/1m-rating
- Descrizione della configurazione : questo set di dati contiene 1.000.209 valutazioni anonime di circa 3.900 film realizzati da 6.040 utenti di MovieLens che si sono iscritti a MovieLens in
- Questo set di dati è il set di dati più grande che include dati demografici.
Ogni utente ha valutato almeno 20 film. Le valutazioni sono in incrementi di stelle intere. Nei dati demografici, i valori di età sono divisi in intervalli e nei dati viene utilizzato il valore di età più basso per ogni intervallo anziché i valori effettivi.
Dimensione del download :
5.64 MiB
Dimensione del set di dati:
308.42 MiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'train' | 1.000.209 |
- Struttura delle caratteristiche :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
bucketized_user_age | Tensore | galleggiante32 | ||
movie_genres | Sequenza(EtichettaClasse) | (Nessuno,) | int64 | |
ID_film | Tensore | corda | ||
titolo del film | Tensore | corda | ||
timestamp | Tensore | int64 | ||
user_gender | Tensore | bool | ||
ID utente | Tensore | corda | ||
etichetta_occupazione_utente | ClassLabel | int64 | ||
testo_occupazione_utente | Tensore | corda | ||
voto dell'utente | Tensore | galleggiante32 | ||
codice_di_zip_utente | Tensore | corda |
- Esempi ( tfds.as_dataframe ):
movielens/1m-film
Descrizione della configurazione : questo set di dati contiene i dati di circa 3.900 film classificati nel set di dati di 1 milione.
Dimensione del download :
5.64 MiB
Dimensione del set di dati:
351.12 KiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 3.883 |
- Struttura delle caratteristiche :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
movie_genres | Sequenza(EtichettaClasse) | (Nessuno,) | int64 | |
ID_film | Tensore | corda | ||
titolo del film | Tensore | corda |
- Esempi ( tfds.as_dataframe ):
movielens/20m-rating
- Descrizione della configurazione : questo set di dati contiene 20.000.263 valutazioni di 27.278 film, creati da 138.493 utenti tra il 9 gennaio 1995 e il 31 marzo 2015. Questo set di dati è stato generato il 17 ottobre 2016.
Ogni utente ha valutato almeno 20 film. Le valutazioni sono in incrementi di mezza stella. Questo set di dati non contiene dati demografici.
Dimensione del download :
189.50 MiB
Dimensione del set di dati :
3.10 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'train' | 20.000.263 |
- Struttura delle caratteristiche :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
movie_genres | Sequenza(EtichettaClasse) | (Nessuno,) | int64 | |
ID_film | Tensore | corda | ||
titolo del film | Tensore | corda | ||
timestamp | Tensore | int64 | ||
ID utente | Tensore | corda | ||
voto dell'utente | Tensore | galleggiante32 |
- Esempi ( tfds.as_dataframe ):
movielens/20m-film
Descrizione della configurazione : questo set di dati contiene i dati di 27.278 film classificati nel set di dati di 20 milioni
Dimensione del download :
189.50 MiB
Dimensione del set di dati :
2.55 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 27.278 |
- Struttura delle caratteristiche :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
movie_genres | Sequenza(EtichettaClasse) | (Nessuno,) | int64 | |
ID_film | Tensore | corda | ||
titolo del film | Tensore | corda |
- Esempi ( tfds.as_dataframe ):