- Mô tả :
TyDi QA là bộ dữ liệu trả lời câu hỏi bao gồm 11 ngôn ngữ đa dạng về kiểu chữ với 204K cặp câu hỏi-câu trả lời. Các ngôn ngữ của TyDi QA rất đa dạng về loại hình của chúng -- tập hợp các đặc điểm ngôn ngữ mà mỗi ngôn ngữ thể hiện -- vì vậy chúng tôi mong đợi các mô hình hoạt động tốt trên tập hợp này sẽ khái quát hóa trên một số lượng lớn ngôn ngữ trên thế giới. Nó chứa đựng những hiện tượng ngôn ngữ không thể tìm thấy trong ngữ liệu chỉ dùng tiếng Anh. Để cung cấp một nhiệm vụ tìm kiếm thông tin thực tế và tránh các hiệu ứng mồi, các câu hỏi được viết bởi những người muốn biết câu trả lời, nhưng chưa biết câu trả lời, (không giống như SQuAD và các hậu duệ của nó) và dữ liệu được thu thập trực tiếp bằng từng ngôn ngữ mà không cần sử dụng bản dịch (không giống như MLQA và XQuAD).
Phân chia đào tạo:
'đào tạo': Đây là nhiệm vụ GoldP từ bài báo gốc của TyDi QA [ https://arxiv.org/abs/2003.05002 ] có dữ liệu đào tạo được gắn nhãn ngôn ngữ gốc.
'translate-train-*': Các phần tách này là các bản dịch tự động từ tiếng Anh sang từng ngôn ngữ đích được sử dụng trong đường cơ sở dịch-đào tạo trong bài báo XTREME [ https://arxiv.org/abs/2003.11080 ]. Điều này cố tình bỏ qua dữ liệu đào tạo TyDiQA-GoldP không phải tiếng Anh để mô phỏng kịch bản học chuyển đổi khi không có sẵn dữ liệu ngôn ngữ gốc và các nhà xây dựng hệ thống phải dựa vào dữ liệu tiếng Anh được gắn nhãn cộng với các hệ thống dịch máy hiện có.
Thông thường, bạn nên sử dụng HOẶC tách tàu hoặc dịch-tàu, chứ không phải cả hai.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Mô tả cấu hình : Nhiệm vụ chuyển vàng (GoldP) ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
Trang chủ : https://github.com/google-research-datasets/tydiqa
Mã nguồn :
tfds.question_answering.TydiQA
Phiên bản :
-
3.0.0
(mặc định): Khắc phục sự cố với một số ví dụ trong đó các khoảng trả lời bị lệch do loại bỏ khoảng trắng trong ngữ cảnh. Thay đổi này ảnh hưởng đến khoảng 25% ví dụ đào tạo và nhà phát triển.
-
Kích thước tải xuống :
121.30 MiB
Kích thước tập dữ liệu :
98.35 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 49,881 |
'translate-train-ar' | 3,661 |
'translate-train-bn' | 3,585 |
'translate-train-fi' | 3.670 |
'translate-train-id' | 3,667 |
'translate-train-ko' | 3,607 |
'translate-train-ru' | 3,394 |
'translate-train-sw' | 3,622 |
'translate-train-te' | 3,658 |
'validation' | 5,077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- Cấu trúc tính năng :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
câu trả lời | Sự phối hợp | |||
câu trả lời/answer_start | tenxơ | int32 | ||
câu trả lời/văn bản | Chữ | sợi dây | ||
định nghĩa bài văn | Chữ | sợi dây | ||
Tôi | tenxơ | sợi dây | ||
câu hỏi | Chữ | sợi dây | ||
Tiêu đề | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}