- Descripción :
Los comentarios en este conjunto de datos provienen de un archivo de comentarios de la página de discusión de Wikipedia. Estos han sido anotados por Jigsaw por toxicidad, así como (para la configuración principal) una variedad de subtipos de toxicidad, que incluyen toxicidad severa, obscenidad, lenguaje amenazante, lenguaje insultante y ataques de identidad. Este conjunto de datos es una réplica de los datos publicados para el desafío de clasificación de comentarios tóxicos de Jigsaw y la competencia de clasificación de comentarios tóxicos multilingües de Jigsaw en Kaggle, con el conjunto de datos de prueba fusionado con las etiquetas de prueba publicadas después del final de las competencias. Se eliminaron los datos de prueba que no se usaron para calificar. Este conjunto de datos se publica bajo CC0, al igual que el texto del comentario subyacente.
Código fuente :
tfds.text.WikipediaToxicitySubtypes
Versiones :
-
0.2.0
: funciones actualizadas para mantener la coherencia con el conjunto de datos de CivilComments. -
0.3.0
: Se agregó WikipediaToxicidadConfiguración multilingüe. -
0.3.1
(predeterminado): Se agregó una identificación única para cada comentario. (Para la configuración multilingüe, estos solo son únicos dentro de cada división).
-
Tamaño de la descarga :
50.57 MiB
Almacenamiento automático en caché ( documentación ): Sí
Claves supervisadas (Ver
as_supervised
):('text', 'toxicity')
Figura ( tfds.show_examples ): no compatible.
Cita :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toxicity_subtypes/EnglishSubtypes (configuración predeterminada)
- Descripción de la configuración : los comentarios en la configuración de WikipediaToxicitySubtypes provienen de un archivo de comentarios de la página de discusión de Wikipedia en inglés que han sido anotados por Jigsaw para toxicidad, así como cinco etiquetas de subtipo de toxicidad (toxicidad severa, obscena, amenaza, insulto, identidad_ataque). Las etiquetas de toxicidad y subtipo de toxicidad son valores binarios (0 o 1) que indican si la mayoría de los anotadores asignaron ese atributo al texto del comentario. Esta configuración es una réplica de los datos publicados para el Desafío de clasificación de comentarios tóxicos de Jigsaw en Kaggle, con el conjunto de datos de prueba unido a las etiquetas de prueba publicadas después de la competencia, y los datos de prueba que no se usaron para puntuar se eliminaron.
Consulte la documentación de Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data o https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 para obtener más detalles.
Página de inicio: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Tamaño del conjunto de datos :
128.32 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 63,978 |
'train' | 159,571 |
- Estructura de características :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
identificación | Texto | cuerda | ||
ataque_de_identidad | Tensor | flotar32 | ||
insulto | Tensor | flotar32 | ||
idioma | Texto | cuerda | ||
obsceno | Tensor | flotar32 | ||
toxicidad_severa | Tensor | flotar32 | ||
texto | Texto | cuerda | ||
amenaza | Tensor | flotar32 | ||
toxicidad | Tensor | flotar32 |
- Ejemplos ( tfds.as_dataframe ):
wikipedia_toxicity_subtypes/Multilingüe
- Descripción de la configuración : los comentarios en la configuración WikipediaToxicityMultilingual aquí son de un archivo de comentarios de la página de discusión de Wikipedia que no están en inglés anotados por Jigsaw para toxicidad, con un valor binario (0 o 1) que indica si la mayoría de los anotadores calificaron el texto del comentario como tóxico. Los comentarios en esta configuración están en varios idiomas diferentes (turco, italiano, español, portugués, ruso y francés). Esta configuración es una réplica de los datos publicados para la clasificación de comentarios tóxicos multilingües de Jigsaw en Kaggle, con el conjunto de datos de prueba junto con las etiquetas de prueba publicadas después de la competencia.
Consulte la documentación de Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data para obtener más detalles.
Página de inicio: https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
Tamaño del conjunto de datos :
35.13 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 63,812 |
'validation' | 8,000 |
- Estructura de características :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
identificación | Texto | cuerda | ||
idioma | Texto | cuerda | ||
texto | Texto | cuerda | ||
toxicidad | Tensor | flotar32 |
- Ejemplos ( tfds.as_dataframe ):