Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

de ativos

Descrição :

ASSET é um conjunto de dados para avaliação de sistemas de simplificação de sentenças com várias transformações de reescrita, conforme descrito em "ASSET: um conjunto de dados para ajuste e avaliação de modelos de simplificação de sentenças com várias transformações de reescrita". O corpus é composto por 2.000 validações e 359 sentenças originais de teste, cada uma simplificada 10 vezes por diferentes anotadores. O corpus também contém julgamentos humanos de preservação de significado, fluência e simplicidade para as saídas de vários sistemas automáticos de simplificação de texto.

Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/facebookresearch/asset
Código -fonte: tfds.datasets.asset.Builder
Versões :
- 1.0.0 (padrão): versão inicial.
Tamanho do download : 3.47 MiB
Cache automático ( documentação ): Sim
Chaves supervisionadas (Consulte as_supervised doc ): None
Figura ( tfds.show_examples ): Não suportado.
Citação :

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

recurso/simplificação (configuração padrão)

Descrição da configuração : Um conjunto de frases originais alinhadas com 10 possíveis simplificações para cada uma.
Tamanho do conjunto de dados : 2.64 MiB
Divisões :

Dividir	Exemplos
`'test'`	359
`'validation'`	2.000

Estrutura de recursos :

FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
original	Texto		corda
simplificações	Sequência (Texto)	(Nenhum,)	corda

Exemplos ( tfds.as_dataframe ):

ativos/avaliações

Descrição da configuração : avaliações humanas de simplificação de texto produzida automaticamente.
Tamanho do conjunto de dados : 1.44 MiB
Divisões :

Dividir	Exemplos
`'full'`	4.500

Estrutura de recursos :

FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})

Documentação do recurso:

Característica	Classe	Tipo D
	RecursosDict
aspecto	ClassLabel	int64
original	Texto	corda
original_frase_id	tensor	int32
Avaliação	tensor	int32
simplificação	Texto	corda
trabalhador_id	tensor	int32

Exemplos ( tfds.as_dataframe ):

de ativos Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

recurso/simplificação (configuração padrão)

ativos/avaliações

de ativos