lỗ hổng

  • Mô tả :

GAP là một tập dữ liệu cân bằng giới tính chứa 8.908 cặp được gắn nhãn coreference (đại từ không rõ ràng, tên riêng), được lấy mẫu từ Wikipedia và được Google AI Language phát hành để đánh giá độ phân giải của coreference trong các ứng dụng thực tế.

Tách ra Các ví dụ
'test' 2.000
'train' 2.000
'validation' 454
  • Cấu trúc tính năng :
FeaturesDict({
    'A': Text(shape=(), dtype=tf.string),
    'A-coref': tf.bool,
    'A-offset': tf.int32,
    'B': Text(shape=(), dtype=tf.string),
    'B-coref': tf.bool,
    'B-offset': tf.int32,
    'ID': Text(shape=(), dtype=tf.string),
    'Pronoun': Text(shape=(), dtype=tf.string),
    'Pronoun-offset': tf.int32,
    'Text': Text(shape=(), dtype=tf.string),
    'URL': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự miêu tả
Các tính năng
MỘT Bản văn tf.string
A-coref Tensor tf.bool
A-offset Tensor tf.int32
B Bản văn tf.string
B-coref Tensor tf.bool
B-bù đắp Tensor tf.int32
TÔI Bản văn tf.string
Đại từ Bản văn tf.string
Đại từ-bù trừ Tensor tf.int32
Bản văn Bản văn tf.string
URL Bản văn tf.string
  • Trích dẫn :
@article{DBLP:journals/corr/abs-1810-05201,
  author    = {Kellie Webster and
               Marta Recasens and
               Vera Axelrod and
               Jason Baldridge},
  title     = {Mind the {GAP:} {A} Balanced Corpus of Gendered Ambiguous Pronouns},
  journal   = {CoRR},
  volume    = {abs/1810.05201},
  year      = {2018},
  url       = {http://arxiv.org/abs/1810.05201},
  archivePrefix = {arXiv},
  eprint    = {1810.05201},
  timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1810-05201},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}