assin2

  • الوصف :

السياق

ASSIN 2 هو الإصدار الثاني من Avaliação de Similaridade Semântica e Inferência Textual (تقييم التشابه الدلالي والاستنتاج النصي) ، وكان عبارة عن ورشة عمل بالتعاون مع STIL 2019 . يتبع الإصدار الأول من ASSIN ، ويقترح مهمة مشتركة جديدة ببيانات جديدة.

قيمت ورشة العمل الأنظمة التي تقيم نوعين من العلاقات بين جملتين: تشابه النص الدلالي والاستنتاج النصي.

يتكون تشابه النص الدلالي من تحديد مستوى التكافؤ الدلالي بين الجمل ، بينما يتكون التعرف على الاستنتاج النصي من تصنيف ما إذا كانت الجملة الأولى تستلزم الثانية.

بيانات

تتكون المجموعة المستخدمة في ASSIN 2 من جمل بسيطة إلى حد ما. باتباع إجراءات SemEval 2014 Task 1 ، حاولنا إزالة الكيانات المسماة والكلام غير المباشر من المجموعة ، وحاولنا الحصول على جميع الأفعال في المضارع. تتوفر تعليمات الشرح المقدمة للمعلقين (باللغة البرتغالية).

تتكون بيانات التدريب والتحقق من الصحة ، على التوالي ، من 6500 و 500 زوج من الجمل بالبرتغالية البرازيلية ، مشروحة للتشابه الدلالي. تتراوح قيم التشابه الدلالي من 1 إلى 5 ، والفئات التي تنطوي على النص إما ضمنية أو لا شيء. تتكون بيانات الاختبار من حوالي 3000 زوج من الجمل مع نفس التعليق التوضيحي. تم شرح جميع البيانات يدويًا.

تقييم

التقييم كان تقييم الطلبات المقدمة إلى ASSIN 2 بنفس المقاييس مثل ASSIN الأول ، مع F1 للدقة والاستدعاء كمقياس رئيسي لاستتبع النص وعلاقة Pearson للتشابه الدلالي. نصوص التقييم هي نفسها كما في الإصدار الأخير.

ملاحظة: الوصف مستخرج من الصفحة الرئيسية الرسمية .

انشق، مزق أمثلة
'test' 2448
'train' 6500
'validation' 500
  • هيكل الميزة :
FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=string),
    'id': int32,
    'similarity': float32,
    'text': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
يستتبع ClassLabel int64
فرضية نص سلسلة
هوية شخصية موتر int32
تشابه موتر تعويم 32
نص نص سلسلة
  • الاقتباس :
@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}