wikipedia_toxicity_subtypes

説明:

このデータセットのコメントは、ウィキペディアのトークページのコメントのアーカイブから取得されます。これらは、重度の毒性、わいせつ、脅迫的な言葉、侮辱的な言葉、およびアイデンティティ攻撃を含むさまざまな毒性のサブタイプと同様に、毒性についてジグソーによって注釈が付けられています。このデータセットは、Kaggle の Jigsaw Toxic Comment Classification Challenge および Jigsaw Multilingual Toxic Comment Classification コンペティション用にリリースされたデータのレプリカであり、テストデータセットはコンペ終了後にリリースされた test_labels とマージされています。スコアリングに使用されていないテストデータは削除されました。このデータセットは、基になるコメントテキストと同様に、CC0 でリリースされます。

ソースコード: tfds.text.WikipediaToxicitySubtypes
バージョン:
- 0.2.0 : CivilComments データセットとの一貫性のために更新された機能。
- 0.3.0 : WikipediaToxicityMultilingual 構成を追加しました。
- 0.3.1 (デフォルト): 各コメントに一意の ID を追加しました。 (多言語構成の場合、これらは各分割内でのみ一意です。)
ダウンロードサイズ: 50.57 MiB
自動キャッシュ(ドキュメント): はい
監視されたキー( as_supervised docを参照): ('text', 'toxicity')
図( tfds.show_examples ): サポートされていません。
引用：

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (デフォルト設定)

構成の説明: WikipediaToxicitySubtypes 構成内のコメントは、5 つの毒性サブタイプラベル (重度の毒性、わいせつ、脅威、侮辱、identity_attack) と同様に、ジグソーによって毒性について注釈が付けられた、英語の Wikipedia トークページのコメントのアーカイブからのものです。毒性および毒性サブタイプのラベルはバイナリ値 (0 または 1) であり、大多数のアノテーターがその属性をコメントテキストに割り当てたかどうかを示します。この構成は、Kaggle の Jigsaw Toxic Comment Classification Challenge 用にリリースされたデータのレプリカであり、テストデータセットがコンテスト後にリリースされた test_labels と結合され、スコアリングに使用されていないテストデータが削除されています。

詳細については、Kaggle のドキュメントhttps://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/dataまたはhttps://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973を参照してください。

ホームページ: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
データセットサイズ: 128.32 MiB
スプリット:

スプリット	例
`'test'`	63,978
`'train'`	159,571

機能構造:

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
ID	文章	ストリング
アイデンティティーアタック	テンソル	float32
侮辱	テンソル	float32
言語	文章	ストリング
わいせつな	テンソル	float32
深刻な毒性	テンソル	float32
文章	文章	ストリング
脅威	テンソル	float32
毒性	テンソル	float32

例( tfds.as_dataframe ):

wikipedia_toxicity_subtypes/多言語

構成の説明: WikipediaToxicityMultilingual 構成内のコメントは、英語以外のウィキペディアのトークページのコメントのアーカイブからのもので、Jigsaw によって毒性について注釈が付けられています。バイナリ値 (0 または 1) は、大多数の注釈者がコメントテキストを有害と評価したかどうかを示します。この構成のコメントは複数の異なる言語 (トルコ語、イタリア語、スペイン語、ポルトガル語、ロシア語、およびフランス語) です。この構成は、Kaggle のジグソー多言語有害コメント分類用にリリースされたデータのレプリカであり、テストデータセットは、コンテスト後にリリースされた test_labels と結合されています。

詳細については、Kaggle のドキュメントhttps://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/dataを参照してください。

ホームページ: https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
データセットのサイズ: 35.13 MiB
スプリット:

スプリット	例
`'test'`	63,812
`'validation'`	8,000

機能構造:

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
ID	文章	ストリング
言語	文章	ストリング
文章	文章	ストリング
毒性	テンソル	float32

例( tfds.as_dataframe ):