TFDS ora supporta il formato Croissant 🥐 ! Leggi la documentazione per saperne di più.

Questa pagina è stata tradotta dall'API Cloud Translation.

movielens

Descrizione :

Questo set di dati contiene una serie di classificazioni dei film dal sito Web MovieLens, un servizio di consigli sui film. Questo set di dati è stato raccolto e gestito da GroupLens , un gruppo di ricerca dell'Università del Minnesota. Sono incluse 5 versioni: "25m", "latest-small", "100k", "1m", "20m". In tutti i set di dati, i dati sui film e i dati sulle valutazioni vengono uniti in "movieId". Il set di dati da 25 milioni, il set di dati più piccolo e il set di dati da 20 milioni contengono solo dati sui film e dati sulla valutazione. Il set di dati da 1 milione e il set di dati da 100.000 contengono dati demografici oltre ai dati sui film e sulla valutazione.

"25m": questa è l'ultima versione stabile del set di dati MovieLens. Consigliato per scopi di ricerca.
"latest-small": questo è un piccolo sottoinsieme dell'ultima versione del set di dati MovieLens. Viene modificato e aggiornato nel tempo da GroupLens.
"100k": questa è la versione meno recente dei set di dati MovieLens. È un piccolo set di dati con dati demografici.
"1m": questo è il set di dati MovieLens più grande che contiene dati demografici.
"20m": questo è uno dei set di dati MovieLens più utilizzati nei documenti accademici insieme al set di dati 1m.

Per ciascuna versione, gli utenti possono visualizzare solo i dati dei film aggiungendo il suffisso "-movies" (ad es. "25m-movies") oppure i dati delle valutazioni uniti ai dati dei film (e i dati degli utenti nei set di dati da 1 milione e 100.000) aggiungendo il suffisso "-ratings" (es. "25m-ratings").

Le funzionalità seguenti sono incluse in tutte le versioni con il suffisso "-ratings".

"movie_id": un identificatore univoco del film valutato
"movie_title": il titolo del film valutato con l'anno di uscita tra parentesi
"movie_genres": una sequenza di generi a cui appartiene il film valutato
"user_id": identificatore univoco dell'utente che ha effettuato la valutazione
"user_rating": il punteggio della valutazione su una scala a cinque stelle
"timestamp": il timestamp delle valutazioni, rappresentato in secondi dalla mezzanotte Coordinated Universal Time (UTC) del 1 gennaio 1970

Le versioni "100k-ratings" e "1m-ratings" includono inoltre le seguenti caratteristiche demografiche.

"user_gender": sesso dell'utente che ha effettuato la valutazione; un vero valore corrisponde al maschio
"bucketized_user_age": i valori di età suddivisi in bucket dell'utente che ha effettuato la valutazione, i valori e gli intervalli corrispondenti sono:
- 1: "Sotto i 18 anni"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
"user_occupation_label": l'occupazione dell'utente che ha effettuato la valutazione rappresentata da un'etichetta con codifica intera; le etichette vengono preelaborate per essere coerenti tra le diverse versioni
"user_occupation_text": l'occupazione dell'utente che ha effettuato la valutazione nella stringa originale; versioni diverse possono avere diversi set di etichette di testo non elaborato
"user_zip_code": il codice postale dell'utente che ha effettuato la valutazione

Inoltre, il set di dati "100k-ratings" avrebbe anche una funzione "raw_user_age" che rappresenta l'età esatta degli utenti che hanno effettuato la valutazione

I set di dati con il suffisso "-movies" contengono solo le funzioni "movie_id", "movie_title" e "movie_genres".

Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://grouplens.org/datasets/movielens/
Codice sorgente : tfds.structured.Movielens
Versioni :
- 0.1.1 (impostazione predefinita): nessuna nota di rilascio.
Chiavi supervisionate (Vedi as_supervised doc ): None
Figura ( tfds.show_examples ): non supportato.
Citazione :

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-ratings (configurazione predefinita)

Descrizione della configurazione : questo set di dati contiene 25.000.095 valutazioni di 62.423 film, creati da 162.541 utenti tra il 9 gennaio 1995 e il 21 novembre
Questo set di dati è l'ultima versione stabile del set di dati MovieLens, generato il 21 novembre 2019.

Ogni utente ha valutato almeno 20 film. Le valutazioni sono in incrementi di mezza stella. Questo set di dati non include dati demografici.

Dimensione del download : 249.84 MiB
Dimensione del set di dati: 3.89 GiB
Cache automatica ( documentazione ): No
Divisioni :

Diviso	Esempi
`'train'`	25.000.095

Struttura delle caratteristiche :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
movie_genres	Sequenza(EtichettaClasse)	(Nessuno,)	int64
ID_film	Tensore		corda
titolo del film	Tensore		corda
timestamp	Tensore		int64
ID utente	Tensore		corda
voto dell'utente	Tensore		galleggiante32

Esempi ( tfds.as_dataframe ):

movielens/25m-film

Descrizione della configurazione : questo set di dati contiene i dati di 62.423 film classificati nel set di dati di 25 milioni.
Dimensione del download : 249.84 MiB
Dimensione del set di dati: 5.71 MiB
Auto-cache ( documentazione ): Sì
Divisioni :

Diviso	Esempi
`'train'`	62.423

Struttura delle caratteristiche :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
movie_genres	Sequenza(EtichettaClasse)	(Nessuno,)	int64
ID_film	Tensore		corda
titolo del film	Tensore		corda

Esempi ( tfds.as_dataframe ):

movielens/latest-small-ratings

Descrizione della configurazione : questo set di dati contiene 100.836 valutazioni di 9.742 film, creati da 610 utenti tra il 29 marzo 1996 e il 24 settembre 2018. Questo set di dati viene generato il 26 settembre 2018 ed è un sottoinsieme dell'ultima versione completa del set di dati MovieLens . Questo set di dati viene modificato e aggiornato nel tempo.

Ogni utente ha valutato almeno 20 film. Le valutazioni sono in incrementi di mezza stella. Questo set di dati non include dati demografici.

Dimensione del download : 955.28 KiB
Dimensione del set di dati: 15.82 MiB
Auto-cache ( documentazione ): Sì
Divisioni :

Diviso	Esempi
`'train'`	100.836

Struttura delle caratteristiche :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
movie_genres	Sequenza(EtichettaClasse)	(Nessuno,)	int64
ID_film	Tensore		corda
titolo del film	Tensore		corda
timestamp	Tensore		int64
ID utente	Tensore		corda
voto dell'utente	Tensore		galleggiante32

Esempi ( tfds.as_dataframe ):

movielens/ultimi-piccoli-film

Descrizione della configurazione : questo set di dati contiene i dati di 9.742 film classificati nell'ultimo set di dati più piccolo.
Dimensione del download : 955.28 KiB
Dimensione del set di dati: 910.64 KiB
Auto-cache ( documentazione ): Sì
Divisioni :

Diviso	Esempi
`'train'`	9.742

Struttura delle caratteristiche :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
movie_genres	Sequenza(EtichettaClasse)	(Nessuno,)	int64
ID_film	Tensore		corda
titolo del film	Tensore		corda

Esempi ( tfds.as_dataframe ):

movielens/100k-rating

Descrizione della configurazione : questo set di dati contiene 100.000 valutazioni di 943 utenti su 1.682 film. Questo set di dati è la versione meno recente del set di dati MovieLens.

Ogni utente ha valutato almeno 20 film. Le valutazioni sono in incrementi di stelle intere. Questo set di dati contiene dati demografici degli utenti oltre a dati su film e valutazioni.

Dimensione del download : 4.70 MiB
Dimensione del set di dati: 32.41 MiB
Auto-cache ( documentazione ): Sì
Divisioni :

Diviso	Esempi
`'train'`	100.000

Struttura delle caratteristiche :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
bucketized_user_age	Tensore		galleggiante32
movie_genres	Sequenza(EtichettaClasse)	(Nessuno,)	int64
ID_film	Tensore		corda
titolo del film	Tensore		corda
raw_user_age	Tensore		galleggiante32
timestamp	Tensore		int64
user_gender	Tensore		bool
ID utente	Tensore		corda
etichetta_occupazione_utente	ClassLabel		int64
testo_occupazione_utente	Tensore		corda
voto dell'utente	Tensore		galleggiante32
codice_di_zip_utente	Tensore		corda

Esempi ( tfds.as_dataframe ):

movielens/100k-film

Descrizione della configurazione : questo set di dati contiene i dati di 1.682 film classificati nel set di dati da 100.000.
Dimensione del download : 4.70 MiB
Dimensione del set di dati: 150.35 KiB
Auto-cache ( documentazione ): Sì
Divisioni :

Diviso	Esempi
`'train'`	1.682

Struttura delle caratteristiche :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
movie_genres	Sequenza(EtichettaClasse)	(Nessuno,)	int64
ID_film	Tensore		corda
titolo del film	Tensore		corda

Esempi ( tfds.as_dataframe ):

movielens/1m-rating

Descrizione della configurazione : questo set di dati contiene 1.000.209 valutazioni anonime di circa 3.900 film realizzati da 6.040 utenti di MovieLens che si sono iscritti a MovieLens in
Questo set di dati è il set di dati più grande che include dati demografici.

Ogni utente ha valutato almeno 20 film. Le valutazioni sono in incrementi di stelle intere. Nei dati demografici, i valori di età sono divisi in intervalli e nei dati viene utilizzato il valore di età più basso per ogni intervallo anziché i valori effettivi.

Dimensione del download : 5.64 MiB
Dimensione del set di dati: 308.42 MiB
Cache automatica ( documentazione ): No
Divisioni :

Diviso	Esempi
`'train'`	1.000.209

Struttura delle caratteristiche :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
bucketized_user_age	Tensore		galleggiante32
movie_genres	Sequenza(EtichettaClasse)	(Nessuno,)	int64
ID_film	Tensore		corda
titolo del film	Tensore		corda
timestamp	Tensore		int64
user_gender	Tensore		bool
ID utente	Tensore		corda
etichetta_occupazione_utente	ClassLabel		int64
testo_occupazione_utente	Tensore		corda
voto dell'utente	Tensore		galleggiante32
codice_di_zip_utente	Tensore		corda

Esempi ( tfds.as_dataframe ):

movielens/1m-film

Descrizione della configurazione : questo set di dati contiene i dati di circa 3.900 film classificati nel set di dati di 1 milione.
Dimensione del download : 5.64 MiB
Dimensione del set di dati: 351.12 KiB
Auto-cache ( documentazione ): Sì
Divisioni :

Diviso	Esempi
`'train'`	3.883

Struttura delle caratteristiche :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
movie_genres	Sequenza(EtichettaClasse)	(Nessuno,)	int64
ID_film	Tensore		corda
titolo del film	Tensore		corda

Esempi ( tfds.as_dataframe ):

movielens/20m-rating

Descrizione della configurazione : questo set di dati contiene 20.000.263 valutazioni di 27.278 film, creati da 138.493 utenti tra il 9 gennaio 1995 e il 31 marzo 2015. Questo set di dati è stato generato il 17 ottobre 2016.

Ogni utente ha valutato almeno 20 film. Le valutazioni sono in incrementi di mezza stella. Questo set di dati non contiene dati demografici.

Dimensione del download : 189.50 MiB
Dimensione del set di dati : 3.10 GiB
Cache automatica ( documentazione ): No
Divisioni :

Diviso	Esempi
`'train'`	20.000.263

Struttura delle caratteristiche :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
movie_genres	Sequenza(EtichettaClasse)	(Nessuno,)	int64
ID_film	Tensore		corda
titolo del film	Tensore		corda
timestamp	Tensore		int64
ID utente	Tensore		corda
voto dell'utente	Tensore		galleggiante32

Esempi ( tfds.as_dataframe ):

movielens/20m-film

Descrizione della configurazione : questo set di dati contiene i dati di 27.278 film classificati nel set di dati di 20 milioni
Dimensione del download : 189.50 MiB
Dimensione del set di dati : 2.55 MiB
Auto-cache ( documentazione ): Sì
Divisioni :

Diviso	Esempi
`'train'`	27.278

Struttura delle caratteristiche :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
movie_genres	Sequenza(EtichettaClasse)	(Nessuno,)	int64
ID_film	Tensore		corda
titolo del film	Tensore		corda

Esempi ( tfds.as_dataframe ):

movielens Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.