- Descrição :
ASSET é um conjunto de dados para avaliação de sistemas de simplificação de sentenças com várias transformações de reescrita, conforme descrito em "ASSET: um conjunto de dados para ajuste e avaliação de modelos de simplificação de sentenças com várias transformações de reescrita". O corpus é composto por 2.000 validações e 359 sentenças originais de teste, cada uma simplificada 10 vezes por diferentes anotadores. O corpus também contém julgamentos humanos de preservação de significado, fluência e simplicidade para as saídas de vários sistemas automáticos de simplificação de texto.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/facebookresearch/asset
Código -fonte:
tfds.datasets.asset.Builder
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
3.47 MiB
Cache automático ( documentação ): Sim
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Citação :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
recurso/simplificação (configuração padrão)
Descrição da configuração : Um conjunto de frases originais alinhadas com 10 possíveis simplificações para cada uma.
Tamanho do conjunto de dados :
2.64 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 359 |
'validation' | 2.000 |
- Estrutura de recursos :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
original | Texto | corda | ||
simplificações | Sequência (Texto) | (Nenhum,) | corda |
- Exemplos ( tfds.as_dataframe ):
ativos/avaliações
Descrição da configuração : avaliações humanas de simplificação de texto produzida automaticamente.
Tamanho do conjunto de dados :
1.44 MiB
Divisões :
Dividir | Exemplos |
---|---|
'full' | 4.500 |
- Estrutura de recursos :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
aspecto | ClassLabel | int64 | ||
original | Texto | corda | ||
original_frase_id | tensor | int32 | ||
Avaliação | tensor | int32 | ||
simplificação | Texto | corda | ||
trabalhador_id | tensor | int32 |
- Exemplos ( tfds.as_dataframe ):