wiki_auto, wiki_auto

  • Mô tả:

WikiAuto cung cấp một tập hợp các câu được căn chỉnh từ Wikipedia tiếng Anh và Wikipedia tiếng Anh Đơn giản như một nguồn tài nguyên để đào tạo hệ thống đơn giản hóa câu. Các tác giả đầu tiên đám đông có nguồn gốc một bộ sắp xếp thủ công giữa câu trong một tập hợp con của Wikipedia tiếng Anh đơn giản và các phiên bản tương ứng của họ bằng tiếng Anh Wikipedia (tương ứng này đến manual config), sau đó được đào tạo một hệ thống thần kinh CRF để dự đoán những sự sắp xếp. Mô hình đào tạo sau đó được áp dụng cho các bài viết khác trong Wiktionary tiếng Wikipedia với một đối tác tiếng Anh để tạo ra một corpus lớn hơn của câu thẳng hàng (tương ứng với auto , auto_acl , auto_full_no_split , và auto_full_with_split configs đây).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto / manual (cấu hình mặc định)

  • Config Mô tả: Một tập hợp các cặp câu 10K Wikipedia liên kết của người lao động đám đông.

  • Dung lượng tải về: 53.47 MiB

  • Dataset kích thước: 76.87 MiB

  • Tự động lưu trữ ( tài liệu ): Có

  • tách:

Tách ra Các ví dụ
'dev' 73.249
'test' 118.074
  • Các tính năng:
FeaturesDict({
    'GLEU-score': tf.float64,
    'alignment_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'normal_sentence_id': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence_id': Text(shape=(), dtype=tf.string),
})

wiki_auto / auto_acl

  • Config mô tả: cặp câu liên kết đào tạo hệ thống ACL2020.

  • Dung lượng tải về: 112.60 MiB

  • Dataset kích thước: 138.83 MiB

  • Tự động lưu trữ ( tài liệu ): Chỉ khi shuffle_files=False (đầy đủ)

  • tách:

Tách ra Các ví dụ
'full' 488.332
  • Các tính năng:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto / auto_full_no_split

  • Config mô tả: Tất cả các cặp câu tự động liên kết mà không tách câu.

  • Dung lượng tải về: 135.02 MiB

  • Dataset kích thước: 166.78 MiB

  • Tự động lưu trữ ( tài liệu ): Chỉ khi shuffle_files=False (đầy đủ)

  • tách:

Tách ra Các ví dụ
'full' 591.994
  • Các tính năng:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto / auto_full_with_split

  • Config mô tả: Tất cả các cặp câu tự động phù hợp với tách câu.

  • Dung lượng tải về: 115.09 MiB

  • Dataset kích thước: 141.20 MiB

  • Tự động lưu trữ ( tài liệu ): Chỉ khi shuffle_files=False (đầy đủ)

  • tách:

Tách ra Các ví dụ
'full' 483.801
  • Các tính năng:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto / auto

  • Config Mô tả: Một tập hợp lớn các cặp câu tự động canh lề.

  • Dung lượng tải về: 2.01 GiB

  • Kích thước tập dữ liệu: 1.76 GiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'part_1' 125.059
'part_2' 13.036
  • Các tính năng:
FeaturesDict({
    'example_id': Text(shape=(), dtype=tf.string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=tf.string),
            'normal_sentence_id': Text(shape=(), dtype=tf.string),
        }),
        'normal_article_id': tf.int32,
        'normal_article_title': Text(shape=(), dtype=tf.string),
        'normal_article_url': Text(shape=(), dtype=tf.string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=tf.string),
        'simple_paragraph_id': Text(shape=(), dtype=tf.string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=tf.string),
        'simple_sentence_id': Text(shape=(), dtype=tf.string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=tf.string),
            'simple_sentence_id': Text(shape=(), dtype=tf.string),
        }),
        'simple_article_id': tf.int32,
        'simple_article_title': Text(shape=(), dtype=tf.string),
        'simple_article_url': Text(shape=(), dtype=tf.string),
    }),
})