- Descriptif :
Contextualisation
ASSIN 2 est la deuxième édition de l'Avaliação de Similaridade Semântica e Inferência Textual (Evaluating Semantic Similarity and Textual Entailment), et était un atelier colocalisé avec STIL 2019 . Il fait suite à la première édition de l'ASSIN , proposant une nouvelle tâche partagée avec de nouvelles données.
L'atelier a évalué des systèmes qui évaluent deux types de relations entre deux phrases : la similarité textuelle sémantique et l'implication textuelle.
La similarité textuelle sémantique consiste à quantifier le niveau d'équivalence sémantique entre les phrases, tandis que la reconnaissance d'implication textuelle consiste à classer si la première phrase implique la seconde.
Données
Le corpus utilisé dans ASSIN 2 est composé de phrases assez simples. En suivant les procédures de SemEval 2014 Tâche 1, nous avons essayé de supprimer du corpus les entités nommées et le discours indirect, et avons essayé d'avoir tous les verbes au présent. Les instructions d'annotation données aux annotateurs sont disponibles (en portugais).
Les données d'entraînement et de validation sont composées, respectivement, de 6 500 et 500 paires de phrases en portugais brésilien, annotées pour l'implication et la similarité sémantique. Les valeurs de similarité sémantique vont de 1 à 5, et les classes d'implication de texte sont soit implication, soit aucune. Les données de test sont composées d'environ 3 000 paires de phrases avec la même annotation. Toutes les données ont été annotées manuellement.
Évaluation
Évaluation L'évaluation des soumissions à l'ASSIN 2 s'est faite avec les mêmes métriques que le premier ASSIN, avec le F1 de précision et de rappel comme métrique principale pour l'implication de texte et la corrélation de Pearson pour la similarité sémantique. Les scripts d'évaluation sont les mêmes que dans la dernière édition.
PS. : La description est extraite de la page d' accueil officielle .
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://sites.google.com/view/assin2/english
Code source :
tfds.datasets.assin2.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
2.02 MiB
Taille du jeu de données :
1.82 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 448 |
'train' | 6 500 |
'validation' | 500 |
- Structure des fonctionnalités :
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=string),
'id': int32,
'similarity': float32,
'text': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
implication | Étiquette de classe | int64 | ||
hypothèse | Texte | chaîne de caractères | ||
identifiant | Tenseur | int32 | ||
similarité | Tenseur | float32 | ||
texte | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}