assin2

  • Descriptif :

Contextualisation

ASSIN 2 est la deuxième édition de l'Avaliação de Similaridade Semântica e Inferência Textual (Evaluating Semantic Similarity and Textual Entailment), et était un atelier colocalisé avec STIL 2019 . Il fait suite à la première édition de l'ASSIN , proposant une nouvelle tâche partagée avec de nouvelles données.

L'atelier a évalué des systèmes qui évaluent deux types de relations entre deux phrases : la similarité textuelle sémantique et l'implication textuelle.

La similarité textuelle sémantique consiste à quantifier le niveau d'équivalence sémantique entre les phrases, tandis que la reconnaissance d'implication textuelle consiste à classer si la première phrase implique la seconde.

Données

Le corpus utilisé dans ASSIN 2 est composé de phrases assez simples. En suivant les procédures de SemEval 2014 Tâche 1, nous avons essayé de supprimer du corpus les entités nommées et le discours indirect, et avons essayé d'avoir tous les verbes au présent. Les instructions d'annotation données aux annotateurs sont disponibles (en portugais).

Les données d'entraînement et de validation sont composées, respectivement, de 6 500 et 500 paires de phrases en portugais brésilien, annotées pour l'implication et la similarité sémantique. Les valeurs de similarité sémantique vont de 1 à 5, et les classes d'implication de texte sont soit implication, soit aucune. Les données de test sont composées d'environ 3 000 paires de phrases avec la même annotation. Toutes les données ont été annotées manuellement.

Évaluation

Évaluation L'évaluation des soumissions à l'ASSIN 2 s'est faite avec les mêmes métriques que le premier ASSIN, avec le F1 de précision et de rappel comme métrique principale pour l'implication de texte et la corrélation de Pearson pour la similarité sémantique. Les scripts d'évaluation sont les mêmes que dans la dernière édition.

PS. : La description est extraite de la page d' accueil officielle .

Diviser Exemples
'test' 2 448
'train' 6 500
'validation' 500
  • Structure des fonctionnalités :
FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=string),
    'id': int32,
    'similarity': float32,
    'text': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
implication Étiquette de classe int64
hypothèse Texte chaîne de caractères
identifiant Tenseur int32
similarité Tenseur float32
texte Texte chaîne de caractères
  • Citation :
@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}