wikipedia_toxicity_subtypes

  • Описание :

Комментарии в этом наборе данных взяты из архива комментариев на странице обсуждения Википедии. Они были аннотированы Jigsaw на предмет токсичности, а также (для основной конфигурации) различных подтипов токсичности, включая тяжелую токсичность, непристойность, угрожающий язык, оскорбительный язык и атаки на личность. Этот набор данных является копией данных, опубликованных для конкурса Jigsaw Toxic Comment Classification Challenge и Jigsaw Multilingual Toxic Comment Classification на Kaggle, с тестовым набором данных, объединенным с test_labels, выпущенным после окончания соревнований. Данные теста, не использованные для подсчета очков, были удалены. Этот набор данных выпущен под лицензией CC0, как и основной текст комментария.

  • Исходный код : tfds.text.WikipediaToxicitySubtypes

  • Версии :

    • 0.2.0 : Обновлены функции для совместимости с набором данных CivilComments.
    • 0.3.0 : Добавлена ​​многоязычная конфигурация WikipediaToxicity.
    • 0.3.1 (по умолчанию): добавлен уникальный идентификатор для каждого комментария. (Для многоязычной конфигурации они уникальны только в пределах каждого разделения.)
  • Размер загрузки : 50.57 MiB

  • Автоматическое кэширование ( документация ): Да

  • Контролируемые ключи (см. as_supervised doc ): ('text', 'toxicity')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Цитата :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (конфигурация по умолчанию)

  • Описание конфигурации : комментарии в конфигурации WikipediaToxicitySubtypes взяты из архива комментариев на странице обсуждения английской Википедии, которые были отмечены Jigsaw как токсичность, а также пять ярлыков подтипа токсичности (тяжелая токсичность, непристойность, угроза, оскорбление, идентичность_атака). Метки токсичности и подтипа токсичности представляют собой двоичные значения (0 или 1), указывающие, присвоили ли большинство комментаторов этот атрибут тексту комментария. Эта конфигурация является копией данных, опубликованных для конкурса Jigsaw Toxic Comment Classification Challenge на Kaggle, с набором тестовых данных, объединенным с test_labels, выпущенным после конкурса, а тестовые данные, не используемые для подсчета очков, удалены.

Подробнее см. документацию Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data или https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 .

Расколоть Примеры
'test' 63 978
'train' 159 571
  • Структура функции :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
я бы Текст нить
identity_attack Тензор поплавок32
оскорблять Тензор поплавок32
язык Текст нить
непристойный Тензор поплавок32
суровая_токсичность Тензор поплавок32
текст Текст нить
угроза Тензор поплавок32
токсичность Тензор поплавок32

wikipedia_toxicity_subtypes/Многоязычный

  • Описание конфигурации : комментарии в конфигурации WikipediaToxicityMultilingual взяты из архива комментариев на странице обсуждения Википедии на неанглоязычном языке, аннотированных Jigsaw на предмет токсичности, с двоичным значением (0 или 1), указывающим, оценили ли большинство комментаторов текст комментария как токсичный. Комментарии в этой конфигурации представлены на нескольких языках (турецком, итальянском, испанском, португальском, русском и французском). Эта конфигурация является копией данных, выпущенных для многоязычной классификации токсичных комментариев Jigsaw на Kaggle, с набором тестовых данных, объединенным с test_labels, выпущенными после конкурса.

Подробнее см. документацию Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data .

Расколоть Примеры
'test' 63 812
'validation' 8000
  • Структура функции :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
я бы Текст нить
язык Текст нить
текст Текст нить
токсичность Тензор поплавок32