TFDS hiện hỗ trợ định dạng Croissant 🥐 ! Đọc tài liệu để biết thêm.

Trang này được dịch bởi Cloud Translation API.

wiki_auto

Mô tả :

WikiAuto cung cấp một tập hợp các câu được căn chỉnh từ Wikipedia tiếng Anh và Wikipedia tiếng Anh đơn giản làm tài nguyên để đào tạo các hệ thống đơn giản hóa câu. Trước tiên, các tác giả đã lấy nguồn từ cộng đồng một tập hợp các cách sắp xếp thủ công giữa các câu trong một tập hợp con của Wikipedia tiếng Anh đơn giản và các phiên bản tương ứng của chúng trong Wikipedia tiếng Anh (điều này tương ứng với cấu hình manual ), sau đó đào tạo một hệ thống CRF thần kinh để dự đoán những cách sắp xếp này. Sau đó, mô hình được đào tạo đã được áp dụng cho các bài viết khác trong Wikipedia tiếng Anh đơn giản với bản đối chiếu tiếng Anh để tạo ra một kho văn bản lớn hơn gồm các câu được căn chỉnh (tương ứng với các cấu hình auto , auto_acl , auto_full_no_split và auto_full_with_split tại đây).

Trang chủ : https://github.com/chaojiang06/wiki-auto
Mã nguồn : tfds.text_simplification.wiki_auto.WikiAuto
Phiên bản :
- 1.0.0 (mặc định): Bản phát hành đầu tiên.
Các khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (cấu hình mặc định)

Mô tả cấu hình : Một tập hợp gồm 10 nghìn cặp câu Wikipedia được sắp xếp theo nhóm nhân viên.
Kích thước tải xuống : 53.47 MiB
Kích thước tập dữ liệu : 76.87 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :

Tách ra	ví dụ
`'dev'`	73,249
`'test'`	118,074

Cấu trúc tính năng :

FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
GLEU-điểm	tenxơ	phao64
căn chỉnh_nhãn	LớpNhãn	int64
normal_sentence	Chữ	sợi dây
normal_sentence_id	Chữ	sợi dây
câu đơn giản	Chữ	sợi dây
đơn giản_sentence_id	Chữ	sợi dây

Ví dụ ( tfds.as_dataframe ):

wiki_auto/auto_acl

Mô tả cấu hình : Các cặp câu được căn chỉnh để huấn luyện hệ thống ACL2020.
Kích thước tải xuống : 112.60 MiB
Kích thước tập dữ liệu : 138.83 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Chỉ khi shuffle_files=False (đầy đủ)
Chia tách :

Tách ra	ví dụ
`'full'`	488.332

Cấu trúc tính năng :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
normal_sentence	Chữ	sợi dây
câu đơn giản	Chữ	sợi dây

Ví dụ ( tfds.as_dataframe ):

wiki_auto/auto_full_no_split

Mô tả cấu hình : Tất cả các cặp câu được căn chỉnh tự động mà không cần tách câu.
Kích thước tải xuống : 135.02 MiB
Kích thước tập dữ liệu : 166.78 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Chỉ khi shuffle_files=False (đầy đủ)
Chia tách :

Tách ra	ví dụ
`'full'`	591.994

Cấu trúc tính năng :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
normal_sentence	Chữ	sợi dây
câu đơn giản	Chữ	sợi dây

Ví dụ ( tfds.as_dataframe ):

wiki_auto/auto_full_with_split

Mô tả cấu hình : Tất cả các cặp câu được căn chỉnh tự động với tách câu.
Kích thước tải xuống : 115.09 MiB
Kích thước tập dữ liệu : 141.20 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Chỉ khi shuffle_files=False (đầy đủ)
Chia tách :

Tách ra	ví dụ
`'full'`	483.801

Cấu trúc tính năng :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
normal_sentence	Chữ	sợi dây
câu đơn giản	Chữ	sợi dây

Ví dụ ( tfds.as_dataframe ):

wiki_auto/auto

Mô tả cấu hình : Một tập hợp lớn các cặp câu được căn chỉnh tự động.
Kích thước tải xuống : 2.01 GiB
Kích thước tập dữ liệu : 1.76 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'part_1'`	125,059
`'part_2'`	13,036

Cấu trúc tính năng :

FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
ví dụ_id	Chữ	sợi dây
thông thường	Tính năngDict
bình thường/bình thường_article_content	Sự phối hợp
normal/normal_article_content/normal_sentence	Chữ	sợi dây
normal/normal_article_content/normal_sentence_id	Chữ	sợi dây
bình thường/bình thường_article_id	tenxơ	int32
bình thường/bình thường_article_title	Chữ	sợi dây
bình thường/bình thường_article_url	Chữ	sợi dây
đoạn_alignment	Sự phối hợp
đoạn_căn chỉnh/bình thường_đoạn_id	Chữ	sợi dây
đoạn_alignment/simple_paragraph_id	Chữ	sợi dây
câu_alignment	Sự phối hợp
câu_căn/bình_thường_câu_id	Chữ	sợi dây
câu_alignment/simple_sentence_id	Chữ	sợi dây
giản dị	Tính năngDict
đơn giản/simple_article_content	Sự phối hợp
đơn giản/simple_article_content/simple_sentence	Chữ	sợi dây
đơn giản/simple_article_content/simple_sentence_id	Chữ	sợi dây
đơn giản/simple_article_id	tenxơ	int32
đơn giản/simple_article_title	Chữ	sợi dây
đơn giản/simple_article_url	Chữ	sợi dây

Ví dụ ( tfds.as_dataframe ):

wiki_auto Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.