- Mô tả :
Ngữ cảnh hóa
ASSIN 2 là ấn bản thứ hai của Avaliação de Similaridade Semântica e Inferência Textual (Đánh giá sự tương đồng về ngữ nghĩa và phần tiếp theo của văn bản), và là một hội thảo hợp tác với STIL 2019 . Nó theo sau ấn bản đầu tiên của ASSIN , đề xuất một nhiệm vụ được chia sẻ mới với dữ liệu mới.
Hội thảo đã đánh giá các hệ thống đánh giá hai loại quan hệ giữa hai câu: Sự giống nhau về ngữ nghĩa của văn bản và sự tương đồng về mặt văn bản.
Sự giống nhau về ngữ nghĩa của văn bản bao gồm việc định lượng mức độ tương đương về ngữ nghĩa giữa các câu, trong khi Nhận dạng đối tượng văn bản bao gồm việc phân loại xem câu đầu tiên có liên quan đến câu thứ hai hay không.
Dữ liệu
Ngữ liệu được sử dụng trong ASSIN 2 bao gồm các câu khá đơn giản. Theo quy trình của SemEval 2014 Task 1, chúng tôi đã cố gắng loại bỏ các thực thể có tên ngữ liệu và lời nói gián tiếp, đồng thời cố gắng có tất cả các động từ ở thì hiện tại. Có sẵn hướng dẫn chú thích cho người chú thích (bằng tiếng Bồ Đào Nha).
Dữ liệu đào tạo và xác thực được bao gồm lần lượt là 6.500 và 500 cặp câu bằng tiếng Bồ Đào Nha ở Brazil, được chú thích về sự tương đồng và tương đồng về ngữ nghĩa. Các giá trị tương đồng về ngữ nghĩa nằm trong khoảng từ 1 đến 5 và các lớp nội dung văn bản có hoặc không có. Dữ liệu kiểm tra bao gồm khoảng 3.000 cặp câu với cùng một chú thích. Tất cả dữ liệu đã được chú thích thủ công.
Sự đánh giá
Đánh giá Việc đánh giá các bài nộp cho ASSIN 2 được thực hiện với các chỉ số tương tự như ASSIN đầu tiên, với F1 về độ chính xác và thu hồi là thước đo chính cho việc truy cập văn bản và tương quan Pearson cho sự tương đồng về ngữ nghĩa. Các kịch bản đánh giá giống như trong lần xuất bản trước.
Tái bút: Mô tả được trích xuất từ trang chủ chính thức .
Trang chủ : https://sites.google.com/view/assin2/english
Mã nguồn :
tfds.text.assin2.Assin2
Các phiên bản :
-
1.0.0
(mặc định): Bản phát hành ban đầu.
-
Kích thước tải xuống :
2.02 MiB
Kích thước tập dữ liệu :
1.82 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 2.448 |
'train' | 6.500 |
'validation' | 500 |
- Cấu trúc tính năng :
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=tf.string),
'id': tf.int32,
'similarity': tf.float32,
'text': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự miêu tả |
---|---|---|---|---|
Các tính năng | ||||
sự đòi hỏi | ClassLabel | tf.int64 | ||
giả thuyết | Bản văn | tf.string | ||
Tôi | Tensor | tf.int32 | ||
giống nhau | Tensor | tf.float32 | ||
bản văn | Bản văn | tf.string |
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}