bot_adversarial_dialogue

  • Deskripsi :

Kumpulan Data Dialog Permusuhan Bot.

Kumpulan data dialog diberi label ofensif dari tugas Bot Adversarial Dialogue. Dialog-dialog tersebut dikumpulkan dengan meminta manusia untuk berbicara secara bermusuhan dengan bot.

Lebih detailnya ada di koran .

@misc{xu2021recipes,
      title={Recipes for Safety in Open-domain Chatbots},
      author={Jing Xu and Da Ju and Margaret Li and Y-Lan Boureau and Jason Weston and Emily Dinan},
      year={2021},
      eprint={2010.07079},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

bot_adversarial_dialogue/dialogue_datasets (konfigurasi default)

  • Deskripsi konfigurasi : Kumpulan data dialog, dibagi dalam pelatihan, validasi, dan pengujian.

  • Ukuran unduhan : 3.06 MiB

  • Ukuran kumpulan data : 23.38 MiB

  • Perpecahan :

Membelah Contoh
'test' 2.598
'train' 69.274
'valid' 7.002
  • Struktur fitur :
FeaturesDict({
    'bot_persona': Sequence(Text(shape=(), dtype=string)),
    'dialogue_id': float32,
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'round_id': float32,
    'speaker_to_eval': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan
FiturDict
bot_persona Urutan (Teks) (Tidak ada,) rangkaian Persona yang ditiru oleh bot.
dialog_id Tensor float32
episode_selesai Tensor bodoh
pengenal Teks rangkaian Id sampel.
label Label Kelas int64
round_id Tensor float32
speaker_to_eval Teks rangkaian Penutur tuturan diberi label.
teks Teks rangkaian Ucapan untuk mengklasifikasikan.

bot_adversarial_dialogue/human_nonadv_safety_eval

  • Deskripsi konfigurasi : Kumpulan evaluasi keselamatan manusia yang dievaluasi oleh pekerja crowdsourcing untuk mengetahui sifat ofensifnya.

  • Ukuran unduhan : 10.57 KiB

  • Ukuran kumpulan data : 34.55 KiB

  • Perpecahan :

Membelah Contoh
'test' 180
  • Struktur fitur :
FeaturesDict({
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan
FiturDict
episode_selesai Tensor bodoh
pengenal Teks rangkaian Id sampel.
label Label Kelas int64
teks Teks rangkaian Ucapan untuk mengklasifikasikan.