- 説明:
このデータセットのコメントは、ウィキペディアのトーク ページのコメントのアーカイブから取得されます。これらは、重度の毒性、わいせつ、脅迫的な言葉、侮辱的な言葉、およびアイデンティティ攻撃を含むさまざまな毒性のサブタイプと同様に、毒性についてジグソーによって注釈が付けられています。このデータセットは、Kaggle の Jigsaw Toxic Comment Classification Challenge および Jigsaw Multilingual Toxic Comment Classification コンペティション用にリリースされたデータのレプリカであり、テスト データセットはコンペ終了後にリリースされた test_labels とマージされています。スコアリングに使用されていないテスト データは削除されました。このデータセットは、基になるコメント テキストと同様に、CC0 でリリースされます。
ソース コード:
tfds.text.WikipediaToxicitySubtypes
バージョン:
-
0.2.0
: CivilComments データセットとの一貫性のために更新された機能。 -
0.3.0
: WikipediaToxicityMultilingual 構成を追加しました。 -
0.3.1
(デフォルト): 各コメントに一意の ID を追加しました。 (多言語構成の場合、これらは各分割内でのみ一意です。)
-
ダウンロードサイズ:
50.57 MiB
自動キャッシュ(ドキュメント): はい
監視されたキー(
as_supervised
docを参照):('text', 'toxicity')
図( tfds.show_examples ): サポートされていません。
引用:
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toxicity_subtypes/EnglishSubtypes (デフォルト設定)
- 構成の説明: WikipediaToxicitySubtypes 構成内のコメントは、5 つの毒性サブタイプ ラベル (重度の毒性、わいせつ、脅威、侮辱、identity_attack) と同様に、ジグソーによって毒性について注釈が付けられた、英語の Wikipedia トーク ページのコメントのアーカイブからのものです。毒性および毒性サブタイプのラベルはバイナリ値 (0 または 1) であり、大多数のアノテーターがその属性をコメント テキストに割り当てたかどうかを示します。この構成は、Kaggle の Jigsaw Toxic Comment Classification Challenge 用にリリースされたデータのレプリカであり、テスト データセットがコンテスト後にリリースされた test_labels と結合され、スコアリングに使用されていないテスト データが削除されています。
詳細については、Kaggle のドキュメントhttps://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/dataまたはhttps://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973を参照してください。
ホームページ: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
データセットサイズ:
128.32 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 63,978 |
'train' | 159,571 |
- 機能構造:
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ID | 文章 | ストリング | ||
アイデンティティーアタック | テンソル | float32 | ||
侮辱 | テンソル | float32 | ||
言語 | 文章 | ストリング | ||
わいせつな | テンソル | float32 | ||
深刻な毒性 | テンソル | float32 | ||
文章 | 文章 | ストリング | ||
脅威 | テンソル | float32 | ||
毒性 | テンソル | float32 |
- 例( tfds.as_dataframe ):
wikipedia_toxicity_subtypes/多言語
- 構成の説明: WikipediaToxicityMultilingual 構成内のコメントは、英語以外のウィキペディアのトーク ページのコメントのアーカイブからのもので、Jigsaw によって毒性について注釈が付けられています。バイナリ値 (0 または 1) は、大多数の注釈者がコメント テキストを有害と評価したかどうかを示します。この構成のコメントは複数の異なる言語 (トルコ語、イタリア語、スペイン語、ポルトガル語、ロシア語、およびフランス語) です。この構成は、Kaggle のジグソー多言語有害コメント分類用にリリースされたデータのレプリカであり、テスト データセットは、コンテスト後にリリースされた test_labels と結合されています。
詳細については、Kaggle のドキュメントhttps://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/dataを参照してください。
ホームページ: https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
データセットのサイズ:
35.13 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 63,812 |
'validation' | 8,000 |
- 機能構造:
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ID | 文章 | ストリング | ||
言語 | 文章 | ストリング | ||
文章 | 文章 | ストリング | ||
毒性 | テンソル | float32 |
- 例( tfds.as_dataframe ):