tài sản

  • Mô tả:

ASSET là tập dữ liệu để đánh giá hệ thống Đơn giản hóa câu với nhiều phép biến đổi viết lại, như được mô tả trong "ASSET: Tập dữ liệu để điều chỉnh và đánh giá các mô hình đơn giản hóa câu với nhiều phép biến đổi viết lại." Kho ngữ liệu bao gồm 2000 câu xác thực và 359 câu gốc kiểm tra, mỗi câu đã được đơn giản hóa 10 lần bởi các nhà chú giải khác nhau. Kho ngữ liệu này cũng chứa đựng những đánh giá của con người về sự duy trì ý nghĩa, sự trôi chảy và đơn giản cho kết quả đầu ra của một số hệ thống đơn giản hóa văn bản tự động.

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

tài sản / đơn giản hóa (cấu hình mặc định)

  • Config Mô tả: Một tập hợp các câu gốc phù hợp với 10 đơn giản hóa nhất có thể cho mỗi người.

  • Dataset kích thước: 2.64 MiB

  • tách:

Tách ra Các ví dụ
'test' 359
'validation' 2.000
  • Các tính năng:
FeaturesDict({
    'original': Text(shape=(), dtype=tf.string),
    'simplifications': Sequence(Text(shape=(), dtype=tf.string)),
})

tài sản / xếp hạng

  • Config mô tả: xếp hạng Nhân tự động sản xuất đơn giản hóa văn bản.

  • Dataset kích thước: 1.44 MiB

  • tách:

Tách ra Các ví dụ
'full' 4.500
  • Các tính năng:
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'original': Text(shape=(), dtype=tf.string),
    'original_sentence_id': tf.int32,
    'rating': tf.int32,
    'simplification': Text(shape=(), dtype=tf.string),
    'worker_id': tf.int32,
})