amazon_reviews_multi

Referencias:

todos_idiomas

Utilice el siguiente comando para cargar este conjunto de datos en TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/all_languages')
  • Descripción :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Además de los derechos de licencia otorgados según las Condiciones de uso, Amazon o sus proveedores de contenido le otorgan una licencia limitada, no exclusiva, intransferible, no sublicenciable y revocable para acceder y utilizar el Corpus de reseñas con fines de investigación académica. No puede revender, volver a publicar ni hacer ningún uso comercial del Corpus de Reseñas o su contenido, incluido el uso del Corpus de Reseñas para investigación comercial, como investigación relacionada con un contrato de financiación o consultoría, pasantías u otra relación en la que los resultados se proporcionan mediante una tarifa o se entregan a una organización con fines de lucro. No puede (a) vincular ni asociar el contenido del Corpus de reseñas con ninguna información personal (incluidas las cuentas de clientes de Amazon), ni (b) intentar determinar la identidad del autor de ningún contenido del Corpus de reseñas. Si viola cualquiera de las condiciones anteriores, su licencia para acceder y utilizar el Corpus de Reseñas terminará automáticamente sin perjuicio de cualquiera de los otros derechos o recursos que Amazon pueda tener.

  • Versión : 1.0.0
  • Divisiones :
Dividir Ejemplos
'test' 30000
'train' 1200000
'validation' 30000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Delaware

Utilice el siguiente comando para cargar este conjunto de datos en TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/de')
  • Descripción :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Además de los derechos de licencia otorgados según las Condiciones de uso, Amazon o sus proveedores de contenido le otorgan una licencia limitada, no exclusiva, intransferible, no sublicenciable y revocable para acceder y utilizar el Corpus de reseñas con fines de investigación académica. No puede revender, volver a publicar ni hacer ningún uso comercial del Corpus de Reseñas o su contenido, incluido el uso del Corpus de Reseñas para investigación comercial, como investigación relacionada con un contrato de financiación o consultoría, pasantías u otra relación en la que los resultados se proporcionan mediante una tarifa o se entregan a una organización con fines de lucro. No puede (a) vincular ni asociar el contenido del Corpus de reseñas con ninguna información personal (incluidas las cuentas de clientes de Amazon), ni (b) intentar determinar la identidad del autor de ningún contenido del Corpus de reseñas. Si viola cualquiera de las condiciones anteriores, su licencia para acceder y utilizar el Corpus de Reseñas terminará automáticamente sin perjuicio de cualquiera de los otros derechos o recursos que Amazon pueda tener.

  • Versión : 1.0.0
  • Divisiones :
Dividir Ejemplos
'test' 5000
'train' 200000
'validation' 5000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

es

Utilice el siguiente comando para cargar este conjunto de datos en TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/en')
  • Descripción :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Además de los derechos de licencia otorgados según las Condiciones de uso, Amazon o sus proveedores de contenido le otorgan una licencia limitada, no exclusiva, intransferible, no sublicenciable y revocable para acceder y utilizar el Corpus de reseñas con fines de investigación académica. No puede revender, volver a publicar ni hacer ningún uso comercial del Corpus de Reseñas o su contenido, incluido el uso del Corpus de Reseñas para investigación comercial, como investigación relacionada con un contrato de financiación o consultoría, pasantías u otra relación en la que los resultados se proporcionan mediante una tarifa o se entregan a una organización con fines de lucro. No puede (a) vincular ni asociar el contenido del Corpus de reseñas con ninguna información personal (incluidas las cuentas de clientes de Amazon), ni (b) intentar determinar la identidad del autor de ningún contenido del Corpus de reseñas. Si viola cualquiera de las condiciones anteriores, su licencia para acceder y utilizar el Corpus de Reseñas terminará automáticamente sin perjuicio de cualquiera de los otros derechos o recursos que Amazon pueda tener.

  • Versión : 1.0.0
  • Divisiones :
Dividir Ejemplos
'test' 5000
'train' 200000
'validation' 5000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

es

Utilice el siguiente comando para cargar este conjunto de datos en TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/es')
  • Descripción :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Además de los derechos de licencia otorgados según las Condiciones de uso, Amazon o sus proveedores de contenido le otorgan una licencia limitada, no exclusiva, intransferible, no sublicenciable y revocable para acceder y utilizar el Corpus de reseñas con fines de investigación académica. No puede revender, volver a publicar ni hacer ningún uso comercial del Corpus de Reseñas o su contenido, incluido el uso del Corpus de Reseñas para investigación comercial, como investigación relacionada con un contrato de financiación o consultoría, pasantías u otra relación en la que los resultados se proporcionan mediante una tarifa o se entregan a una organización con fines de lucro. No puede (a) vincular ni asociar el contenido del Corpus de reseñas con ninguna información personal (incluidas las cuentas de clientes de Amazon), ni (b) intentar determinar la identidad del autor de ningún contenido del Corpus de reseñas. Si viola cualquiera de las condiciones anteriores, su licencia para acceder y utilizar el Corpus de Reseñas terminará automáticamente sin perjuicio de cualquiera de los otros derechos o recursos que Amazon pueda tener.

  • Versión : 1.0.0
  • Divisiones :
Dividir Ejemplos
'test' 5000
'train' 200000
'validation' 5000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

fr

Utilice el siguiente comando para cargar este conjunto de datos en TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/fr')
  • Descripción :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Además de los derechos de licencia otorgados según las Condiciones de uso, Amazon o sus proveedores de contenido le otorgan una licencia limitada, no exclusiva, intransferible, no sublicenciable y revocable para acceder y utilizar el Corpus de reseñas con fines de investigación académica. No puede revender, volver a publicar ni hacer ningún uso comercial del Corpus de Reseñas o su contenido, incluido el uso del Corpus de Reseñas para investigación comercial, como investigación relacionada con un contrato de financiación o consultoría, pasantías u otra relación en la que los resultados se proporcionan mediante una tarifa o se entregan a una organización con fines de lucro. No puede (a) vincular ni asociar el contenido del Corpus de reseñas con ninguna información personal (incluidas las cuentas de clientes de Amazon), ni (b) intentar determinar la identidad del autor de ningún contenido del Corpus de reseñas. Si viola cualquiera de las condiciones anteriores, su licencia para acceder y utilizar el Corpus de Reseñas terminará automáticamente sin perjuicio de cualquiera de los otros derechos o recursos que Amazon pueda tener.

  • Versión : 1.0.0
  • Divisiones :
Dividir Ejemplos
'test' 5000
'train' 200000
'validation' 5000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

ja

Utilice el siguiente comando para cargar este conjunto de datos en TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/ja')
  • Descripción :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Además de los derechos de licencia otorgados según las Condiciones de uso, Amazon o sus proveedores de contenido le otorgan una licencia limitada, no exclusiva, intransferible, no sublicenciable y revocable para acceder y utilizar el Corpus de reseñas con fines de investigación académica. No puede revender, volver a publicar ni hacer ningún uso comercial del Corpus de Reseñas o su contenido, incluido el uso del Corpus de Reseñas para investigación comercial, como investigación relacionada con un contrato de financiación o consultoría, pasantías u otra relación en la que los resultados se proporcionan mediante una tarifa o se entregan a una organización con fines de lucro. No puede (a) vincular ni asociar el contenido del Corpus de reseñas con ninguna información personal (incluidas las cuentas de clientes de Amazon), ni (b) intentar determinar la identidad del autor de ningún contenido del Corpus de reseñas. Si viola cualquiera de las condiciones anteriores, su licencia para acceder y utilizar el Corpus de Reseñas terminará automáticamente sin perjuicio de cualquiera de los otros derechos o recursos que Amazon pueda tener.

  • Versión : 1.0.0
  • Divisiones :
Dividir Ejemplos
'test' 5000
'train' 200000
'validation' 5000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

zh

Utilice el siguiente comando para cargar este conjunto de datos en TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/zh')
  • Descripción :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Además de los derechos de licencia otorgados según las Condiciones de uso, Amazon o sus proveedores de contenido le otorgan una licencia limitada, no exclusiva, intransferible, no sublicenciable y revocable para acceder y utilizar el Corpus de reseñas con fines de investigación académica. No puede revender, volver a publicar ni hacer ningún uso comercial del Corpus de Reseñas o su contenido, incluido el uso del Corpus de Reseñas para investigación comercial, como investigación relacionada con un contrato de financiación o consultoría, pasantías u otra relación en la que los resultados se proporcionan mediante una tarifa o se entregan a una organización con fines de lucro. No puede (a) vincular ni asociar el contenido del Corpus de reseñas con ninguna información personal (incluidas las cuentas de clientes de Amazon), ni (b) intentar determinar la identidad del autor de ningún contenido del Corpus de reseñas. Si viola cualquiera de las condiciones anteriores, su licencia para acceder y utilizar el Corpus de Reseñas terminará automáticamente sin perjuicio de cualquiera de los otros derechos o recursos que Amazon pueda tener.

  • Versión : 1.0.0
  • Divisiones :
Dividir Ejemplos
'test' 5000
'train' 200000
'validation' 5000
  • Características :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}