- Mô tả :
WikiAuto cung cấp một tập hợp các câu được căn chỉnh từ Wikipedia tiếng Anh và Wikipedia tiếng Anh đơn giản làm tài nguyên để đào tạo các hệ thống đơn giản hóa câu. Trước tiên, các tác giả đã lấy nguồn từ cộng đồng một tập hợp các cách sắp xếp thủ công giữa các câu trong một tập hợp con của Wikipedia tiếng Anh đơn giản và các phiên bản tương ứng của chúng trong Wikipedia tiếng Anh (điều này tương ứng với cấu hình manual
), sau đó đào tạo một hệ thống CRF thần kinh để dự đoán những cách sắp xếp này. Sau đó, mô hình được đào tạo đã được áp dụng cho các bài viết khác trong Wikipedia tiếng Anh đơn giản với bản đối chiếu tiếng Anh để tạo ra một kho văn bản lớn hơn gồm các câu được căn chỉnh (tương ứng với các cấu hình auto
, auto_acl
, auto_full_no_split
và auto_full_with_split
tại đây).
Trang chủ : https://github.com/chaojiang06/wiki-auto
Mã nguồn :
tfds.text_simplification.wiki_auto.WikiAuto
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manual (cấu hình mặc định)
Mô tả cấu hình : Một tập hợp gồm 10 nghìn cặp câu Wikipedia được sắp xếp theo nhóm nhân viên.
Kích thước tải xuống :
53.47 MiB
Kích thước tập dữ liệu :
76.87 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 73,249 |
'test' | 118,074 |
- Cấu trúc tính năng :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
GLEU-điểm | tenxơ | phao64 | ||
căn chỉnh_nhãn | LớpNhãn | int64 | ||
normal_sentence | Chữ | sợi dây | ||
normal_sentence_id | Chữ | sợi dây | ||
câu đơn giản | Chữ | sợi dây | ||
đơn giản_sentence_id | Chữ | sợi dây |
- Ví dụ ( tfds.as_dataframe ):
wiki_auto/auto_acl
Mô tả cấu hình : Các cặp câu được căn chỉnh để huấn luyện hệ thống ACL2020.
Kích thước tải xuống :
112.60 MiB
Kích thước tập dữ liệu :
138.83 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Chỉ khi
shuffle_files=False
(đầy đủ)Chia tách :
Tách ra | ví dụ |
---|---|
'full' | 488.332 |
- Cấu trúc tính năng :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
normal_sentence | Chữ | sợi dây | ||
câu đơn giản | Chữ | sợi dây |
- Ví dụ ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
Mô tả cấu hình : Tất cả các cặp câu được căn chỉnh tự động mà không cần tách câu.
Kích thước tải xuống :
135.02 MiB
Kích thước tập dữ liệu :
166.78 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Chỉ khi
shuffle_files=False
(đầy đủ)Chia tách :
Tách ra | ví dụ |
---|---|
'full' | 591.994 |
- Cấu trúc tính năng :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
normal_sentence | Chữ | sợi dây | ||
câu đơn giản | Chữ | sợi dây |
- Ví dụ ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
Mô tả cấu hình : Tất cả các cặp câu được căn chỉnh tự động với tách câu.
Kích thước tải xuống :
115.09 MiB
Kích thước tập dữ liệu :
141.20 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Chỉ khi
shuffle_files=False
(đầy đủ)Chia tách :
Tách ra | ví dụ |
---|---|
'full' | 483.801 |
- Cấu trúc tính năng :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
normal_sentence | Chữ | sợi dây | ||
câu đơn giản | Chữ | sợi dây |
- Ví dụ ( tfds.as_dataframe ):
wiki_auto/auto
Mô tả cấu hình : Một tập hợp lớn các cặp câu được căn chỉnh tự động.
Kích thước tải xuống :
2.01 GiB
Kích thước tập dữ liệu :
1.76 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'part_1' | 125,059 |
'part_2' | 13,036 |
- Cấu trúc tính năng :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
ví dụ_id | Chữ | sợi dây | ||
thông thường | Tính năngDict | |||
bình thường/bình thường_article_content | Sự phối hợp | |||
normal/normal_article_content/normal_sentence | Chữ | sợi dây | ||
normal/normal_article_content/normal_sentence_id | Chữ | sợi dây | ||
bình thường/bình thường_article_id | tenxơ | int32 | ||
bình thường/bình thường_article_title | Chữ | sợi dây | ||
bình thường/bình thường_article_url | Chữ | sợi dây | ||
đoạn_alignment | Sự phối hợp | |||
đoạn_căn chỉnh/bình thường_đoạn_id | Chữ | sợi dây | ||
đoạn_alignment/simple_paragraph_id | Chữ | sợi dây | ||
câu_alignment | Sự phối hợp | |||
câu_căn/bình_thường_câu_id | Chữ | sợi dây | ||
câu_alignment/simple_sentence_id | Chữ | sợi dây | ||
giản dị | Tính năngDict | |||
đơn giản/simple_article_content | Sự phối hợp | |||
đơn giản/simple_article_content/simple_sentence | Chữ | sợi dây | ||
đơn giản/simple_article_content/simple_sentence_id | Chữ | sợi dây | ||
đơn giản/simple_article_id | tenxơ | int32 | ||
đơn giản/simple_article_title | Chữ | sợi dây | ||
đơn giản/simple_article_url | Chữ | sợi dây |
- Ví dụ ( tfds.as_dataframe ):