- Описание :
Комментарии в этом наборе данных взяты из архива комментариев на странице обсуждения Википедии. Они были аннотированы Jigsaw на предмет токсичности, а также (для основной конфигурации) различных подтипов токсичности, включая тяжелую токсичность, непристойность, угрожающий язык, оскорбительный язык и атаки на личность. Этот набор данных является копией данных, опубликованных для конкурса Jigsaw Toxic Comment Classification Challenge и Jigsaw Multilingual Toxic Comment Classification на Kaggle, с тестовым набором данных, объединенным с test_labels, выпущенным после окончания соревнований. Данные теста, не использованные для подсчета очков, были удалены. Этот набор данных выпущен под лицензией CC0, как и основной текст комментария.
Исходный код :
tfds.text.WikipediaToxicitySubtypes
Версии :
-
0.2.0
: Обновлены функции для совместимости с набором данных CivilComments. -
0.3.0
: Добавлена многоязычная конфигурация WikipediaToxicity. -
0.3.1
(по умолчанию): добавлен уникальный идентификатор для каждого комментария. (Для многоязычной конфигурации они уникальны только в пределах каждого разделения.)
-
Размер загрузки :
50.57 MiB
Автоматическое кэширование ( документация ): Да
Контролируемые ключи (см.
as_supervised
doc ):('text', 'toxicity')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toxicity_subtypes/EnglishSubtypes (конфигурация по умолчанию)
- Описание конфигурации : комментарии в конфигурации WikipediaToxicitySubtypes взяты из архива комментариев на странице обсуждения английской Википедии, которые были отмечены Jigsaw как токсичность, а также пять ярлыков подтипа токсичности (тяжелая токсичность, непристойность, угроза, оскорбление, идентичность_атака). Метки токсичности и подтипа токсичности представляют собой двоичные значения (0 или 1), указывающие, присвоили ли большинство комментаторов этот атрибут тексту комментария. Эта конфигурация является копией данных, опубликованных для конкурса Jigsaw Toxic Comment Classification Challenge на Kaggle, с набором тестовых данных, объединенным с test_labels, выпущенным после конкурса, а тестовые данные, не используемые для подсчета очков, удалены.
Подробнее см. документацию Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data или https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 .
Домашняя страница : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Размер набора данных :
128.32 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 63 978 |
'train' | 159 571 |
- Структура функции :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
я бы | Текст | нить | ||
identity_attack | Тензор | поплавок32 | ||
оскорблять | Тензор | поплавок32 | ||
язык | Текст | нить | ||
непристойный | Тензор | поплавок32 | ||
суровая_токсичность | Тензор | поплавок32 | ||
текст | Текст | нить | ||
угроза | Тензор | поплавок32 | ||
токсичность | Тензор | поплавок32 |
- Примеры ( tfds.as_dataframe ):
wikipedia_toxicity_subtypes/Многоязычный
- Описание конфигурации : комментарии в конфигурации WikipediaToxicityMultilingual взяты из архива комментариев на странице обсуждения Википедии на неанглоязычном языке, аннотированных Jigsaw на предмет токсичности, с двоичным значением (0 или 1), указывающим, оценили ли большинство комментаторов текст комментария как токсичный. Комментарии в этой конфигурации представлены на нескольких языках (турецком, итальянском, испанском, португальском, русском и французском). Эта конфигурация является копией данных, выпущенных для многоязычной классификации токсичных комментариев Jigsaw на Kaggle, с набором тестовых данных, объединенным с test_labels, выпущенными после конкурса.
Подробнее см. документацию Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data .
Домашняя страница : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
Размер набора данных :
35.13 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 63 812 |
'validation' | 8000 |
- Структура функции :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
я бы | Текст | нить | ||
язык | Текст | нить | ||
текст | Текст | нить | ||
токсичность | Тензор | поплавок32 |
- Примеры ( tfds.as_dataframe ):