assin2

  • Mô tả :

Ngữ cảnh hóa

ASSIN 2 là ấn bản thứ hai của Avaliação de Similaridade Semântica e Inferência Textual (Đánh giá sự tương đồng về ngữ nghĩa và phần tiếp theo của văn bản), và là một hội thảo hợp tác với STIL 2019 . Nó theo sau ấn bản đầu tiên của ASSIN , đề xuất một nhiệm vụ được chia sẻ mới với dữ liệu mới.

Hội thảo đã đánh giá các hệ thống đánh giá hai loại quan hệ giữa hai câu: Sự giống nhau về ngữ nghĩa của văn bản và sự tương đồng về mặt văn bản.

Sự giống nhau về ngữ nghĩa của văn bản bao gồm việc định lượng mức độ tương đương về ngữ nghĩa giữa các câu, trong khi Nhận dạng đối tượng văn bản bao gồm việc phân loại xem câu đầu tiên có liên quan đến câu thứ hai hay không.

Dữ liệu

Ngữ liệu được sử dụng trong ASSIN 2 bao gồm các câu khá đơn giản. Theo quy trình của SemEval 2014 Task 1, chúng tôi đã cố gắng loại bỏ các thực thể có tên ngữ liệu và lời nói gián tiếp, đồng thời cố gắng có tất cả các động từ ở thì hiện tại. Có sẵn hướng dẫn chú thích cho người chú thích (bằng tiếng Bồ Đào Nha).

Dữ liệu đào tạo và xác thực được bao gồm lần lượt là 6.500 và 500 cặp câu bằng tiếng Bồ Đào Nha ở Brazil, được chú thích về sự tương đồng và tương đồng về ngữ nghĩa. Các giá trị tương đồng về ngữ nghĩa nằm trong khoảng từ 1 đến 5 và các lớp nội dung văn bản có hoặc không có. Dữ liệu kiểm tra bao gồm khoảng 3.000 cặp câu với cùng một chú thích. Tất cả dữ liệu đã được chú thích thủ công.

Sự đánh giá

Đánh giá Việc đánh giá các bài nộp cho ASSIN 2 được thực hiện với các chỉ số tương tự như ASSIN đầu tiên, với F1 về độ chính xác và thu hồi là thước đo chính cho việc truy cập văn bản và tương quan Pearson cho sự tương đồng về ngữ nghĩa. Các kịch bản đánh giá giống như trong lần xuất bản trước.

Tái bút: Mô tả được trích xuất từ ​​trang chủ chính thức .

Tách ra Các ví dụ
'test' 2.448
'train' 6.500
'validation' 500
  • Cấu trúc tính năng :
FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=tf.string),
    'id': tf.int32,
    'similarity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự miêu tả
Các tính năng
sự đòi hỏi ClassLabel tf.int64
giả thuyết Bản văn tf.string
Tôi Tensor tf.int32
giống nhau Tensor tf.float32
bản văn Bản văn tf.string
  • Trích dẫn :
@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}