amazon_reviews_multi

Riferimenti:

tutte_lingue

Utilizzare il comando seguente per caricare questo set di dati in TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/all_languages')
  • Descrizione :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oltre ai diritti di licenza concessi nelle Condizioni d'uso, Amazon o i suoi fornitori di contenuti ti concedono una licenza limitata, non esclusiva, non trasferibile, non cedibile in sublicenza e revocabile per accedere e utilizzare il Corpus delle recensioni per scopi di ricerca accademica. Non è consentito rivendere, ripubblicare o fare alcun uso commerciale del Reviews Corpus o dei suoi contenuti, compreso l'uso del Reviews Corpus per ricerche commerciali, come ricerche relative a un contratto di finanziamento o di consulenza, stage o altro rapporto in cui i risultati sono forniti a pagamento o consegnati a un'organizzazione a scopo di lucro. Non puoi (a) collegare o associare i contenuti del Reviews Corpus a informazioni personali (inclusi gli account cliente Amazon) o (b) tentare di determinare l'identità dell'autore di qualsiasi contenuto del Reviews Corpus. In caso di violazione di una qualsiasi delle condizioni di cui sopra, la tua licenza per accedere e utilizzare il Corpus delle recensioni cesserà automaticamente senza pregiudicare qualsiasi altro diritto o rimedio di cui Amazon potrebbe disporre.

  • Versione : 1.0.0
  • Divide :
Diviso Esempi
'test' 30000
'train' 1200000
'validation' 30000
  • Caratteristiche :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

de

Utilizzare il comando seguente per caricare questo set di dati in TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/de')
  • Descrizione :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oltre ai diritti di licenza concessi nelle Condizioni d'uso, Amazon o i suoi fornitori di contenuti ti concedono una licenza limitata, non esclusiva, non trasferibile, non cedibile in sublicenza e revocabile per accedere e utilizzare il Corpus delle recensioni per scopi di ricerca accademica. Non è consentito rivendere, ripubblicare o fare alcun uso commerciale del Reviews Corpus o dei suoi contenuti, compreso l'uso del Reviews Corpus per ricerche commerciali, come ricerche relative a un contratto di finanziamento o di consulenza, stage o altro rapporto in cui i risultati sono forniti a pagamento o consegnati a un'organizzazione a scopo di lucro. Non puoi (a) collegare o associare i contenuti del Reviews Corpus a informazioni personali (inclusi gli account cliente Amazon) o (b) tentare di determinare l'identità dell'autore di qualsiasi contenuto del Reviews Corpus. In caso di violazione di una qualsiasi delle condizioni di cui sopra, la tua licenza per accedere e utilizzare il Corpus delle recensioni cesserà automaticamente senza pregiudicare qualsiasi altro diritto o rimedio di cui Amazon potrebbe disporre.

  • Versione : 1.0.0
  • Divide :
Diviso Esempi
'test' 5000
'train' 200000
'validation' 5000
  • Caratteristiche :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

en

Utilizzare il comando seguente per caricare questo set di dati in TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/en')
  • Descrizione :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oltre ai diritti di licenza concessi nelle Condizioni d'uso, Amazon o i suoi fornitori di contenuti ti concedono una licenza limitata, non esclusiva, non trasferibile, non cedibile in sublicenza e revocabile per accedere e utilizzare il Corpus delle recensioni per scopi di ricerca accademica. Non è consentito rivendere, ripubblicare o fare alcun uso commerciale del Reviews Corpus o dei suoi contenuti, compreso l'uso del Reviews Corpus per ricerche commerciali, come ricerche relative a un contratto di finanziamento o di consulenza, stage o altro rapporto in cui i risultati sono forniti a pagamento o consegnati a un'organizzazione a scopo di lucro. Non puoi (a) collegare o associare i contenuti del Reviews Corpus a informazioni personali (inclusi gli account cliente Amazon) o (b) tentare di determinare l'identità dell'autore di qualsiasi contenuto del Reviews Corpus. In caso di violazione di una qualsiasi delle condizioni di cui sopra, la tua licenza per accedere e utilizzare il Corpus delle recensioni cesserà automaticamente senza pregiudicare qualsiasi altro diritto o rimedio di cui Amazon potrebbe disporre.

  • Versione : 1.0.0
  • Divide :
Diviso Esempi
'test' 5000
'train' 200000
'validation' 5000
  • Caratteristiche :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

es

Utilizzare il comando seguente per caricare questo set di dati in TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/es')
  • Descrizione :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oltre ai diritti di licenza concessi nelle Condizioni d'uso, Amazon o i suoi fornitori di contenuti ti concedono una licenza limitata, non esclusiva, non trasferibile, non cedibile in sublicenza e revocabile per accedere e utilizzare il Corpus delle recensioni per scopi di ricerca accademica. Non è consentito rivendere, ripubblicare o fare alcun uso commerciale del Reviews Corpus o dei suoi contenuti, compreso l'uso del Reviews Corpus per ricerche commerciali, come ricerche relative a un contratto di finanziamento o di consulenza, stage o altro rapporto in cui i risultati sono forniti a pagamento o consegnati a un'organizzazione a scopo di lucro. Non puoi (a) collegare o associare i contenuti del Reviews Corpus a informazioni personali (inclusi gli account cliente Amazon) o (b) tentare di determinare l'identità dell'autore di qualsiasi contenuto del Reviews Corpus. In caso di violazione di una qualsiasi delle condizioni di cui sopra, la tua licenza per accedere e utilizzare il Corpus delle recensioni cesserà automaticamente senza pregiudicare qualsiasi altro diritto o rimedio di cui Amazon potrebbe disporre.

  • Versione : 1.0.0
  • Divide :
Diviso Esempi
'test' 5000
'train' 200000
'validation' 5000
  • Caratteristiche :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

fr

Utilizzare il comando seguente per caricare questo set di dati in TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/fr')
  • Descrizione :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oltre ai diritti di licenza concessi nelle Condizioni d'uso, Amazon o i suoi fornitori di contenuti ti concedono una licenza limitata, non esclusiva, non trasferibile, non cedibile in sublicenza e revocabile per accedere e utilizzare il Corpus delle recensioni per scopi di ricerca accademica. Non è consentito rivendere, ripubblicare o fare alcun uso commerciale del Reviews Corpus o dei suoi contenuti, compreso l'uso del Reviews Corpus per ricerche commerciali, come ricerche relative a un contratto di finanziamento o di consulenza, stage o altro rapporto in cui i risultati sono forniti a pagamento o consegnati a un'organizzazione a scopo di lucro. Non puoi (a) collegare o associare i contenuti del Reviews Corpus a informazioni personali (inclusi gli account cliente Amazon) o (b) tentare di determinare l'identità dell'autore di qualsiasi contenuto del Reviews Corpus. In caso di violazione di una qualsiasi delle condizioni di cui sopra, la tua licenza per accedere e utilizzare il Corpus delle recensioni cesserà automaticamente senza pregiudicare qualsiasi altro diritto o rimedio di cui Amazon potrebbe disporre.

  • Versione : 1.0.0
  • Divide :
Diviso Esempi
'test' 5000
'train' 200000
'validation' 5000
  • Caratteristiche :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Utilizzare il comando seguente per caricare questo set di dati in TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/ja')
  • Descrizione :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oltre ai diritti di licenza concessi nelle Condizioni d'uso, Amazon o i suoi fornitori di contenuti ti concedono una licenza limitata, non esclusiva, non trasferibile, non cedibile in sublicenza e revocabile per accedere e utilizzare il Corpus delle recensioni per scopi di ricerca accademica. Non è consentito rivendere, ripubblicare o fare alcun uso commerciale del Reviews Corpus o dei suoi contenuti, compreso l'uso del Reviews Corpus per ricerche commerciali, come ricerche relative a un contratto di finanziamento o di consulenza, stage o altro rapporto in cui i risultati sono forniti a pagamento o consegnati a un'organizzazione a scopo di lucro. Non puoi (a) collegare o associare i contenuti del Reviews Corpus a informazioni personali (inclusi gli account cliente Amazon) o (b) tentare di determinare l'identità dell'autore di qualsiasi contenuto del Reviews Corpus. In caso di violazione di una qualsiasi delle condizioni di cui sopra, la tua licenza per accedere e utilizzare il Corpus delle recensioni cesserà automaticamente senza pregiudicare qualsiasi altro diritto o rimedio di cui Amazon potrebbe disporre.

  • Versione : 1.0.0
  • Divide :
Diviso Esempi
'test' 5000
'train' 200000
'validation' 5000
  • Caratteristiche :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

zh

Utilizzare il comando seguente per caricare questo set di dati in TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/zh')
  • Descrizione :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oltre ai diritti di licenza concessi nelle Condizioni d'uso, Amazon o i suoi fornitori di contenuti ti concedono una licenza limitata, non esclusiva, non trasferibile, non cedibile in sublicenza e revocabile per accedere e utilizzare il Corpus delle recensioni per scopi di ricerca accademica. Non è consentito rivendere, ripubblicare o fare alcun uso commerciale del Reviews Corpus o dei suoi contenuti, incluso l'uso del Reviews Corpus per ricerche commerciali, come ricerche relative a un contratto di finanziamento o di consulenza, stage o altro rapporto in cui i risultati sono forniti a pagamento o consegnati a un'organizzazione a scopo di lucro. Non puoi (a) collegare o associare i contenuti del Reviews Corpus a informazioni personali (inclusi gli account cliente Amazon) o (b) tentare di determinare l'identità dell'autore di qualsiasi contenuto del Reviews Corpus. In caso di violazione di una qualsiasi delle condizioni di cui sopra, la tua licenza per accedere e utilizzare il Corpus delle recensioni cesserà automaticamente senza pregiudicare qualsiasi altro diritto o rimedio di cui Amazon potrebbe disporre.

  • Versione : 1.0.0
  • Divide :
Diviso Esempi
'test' 5000
'train' 200000
'validation' 5000
  • Caratteristiche :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}