- Descrição :
O WikiAuto fornece um conjunto de sentenças alinhadas da Wikipedia em inglês e da Wikipedia em inglês simples como um recurso para treinar sistemas de simplificação de sentenças. Os autores primeiro coletaram um conjunto de alinhamentos manuais entre sentenças em um subconjunto da Wikipedia em inglês simples e suas versões correspondentes na Wikipedia em inglês (isso corresponde à configuração manual
) e, em seguida, treinaram um sistema CRF neural para prever esses alinhamentos. O modelo treinado foi então aplicado aos outros artigos na Wikipédia em inglês simples com uma contraparte em inglês para criar um corpus maior de sentenças alinhadas (correspondendo às configurações auto
, auto_acl
, auto_full_no_split
e auto_full_with_split
aqui).
Página inicial : https://github.com/chaojiang06/wiki-auto
Código -fonte:
tfds.text_simplification.wiki_auto.WikiAuto
Versões :
-
1.0.0
(padrão): versão inicial.
-
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Citação :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manual (configuração padrão)
Descrição da configuração : um conjunto de 10 mil pares de frases da Wikipédia alinhados por trabalhadores da multidão.
Tamanho do download :
53.47 MiB
Tamanho do conjunto de dados :
76.87 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'dev' | 73.249 |
'test' | 118.074 |
- Estrutura de recursos :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
pontuação GLEU | tensor | float64 | ||
etiqueta_alinhamento | ClassLabel | int64 | ||
frase_normal | Texto | corda | ||
normal_sentence_id | Texto | corda | ||
sentença simples | Texto | corda | ||
simple_sentence_id | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
wiki_auto/auto_acl
Descrição da configuração : Pares de sentenças alinhados para treinar o sistema ACL2020.
Tamanho do download :
112.60 MiB
Tamanho do conjunto de dados :
138.83 MiB
Armazenado em cache automaticamente ( documentação ): Somente quando
shuffle_files=False
(completo)Divisões :
Dividir | Exemplos |
---|---|
'full' | 488.332 |
- Estrutura de recursos :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
frase_normal | Texto | corda | ||
sentença simples | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
Descrição da configuração : Todos os pares de frases alinhados automaticamente sem divisão de frases.
Tamanho do download :
135.02 MiB
Tamanho do conjunto de dados :
166.78 MiB
Armazenado em cache automaticamente ( documentação ): Somente quando
shuffle_files=False
(completo)Divisões :
Dividir | Exemplos |
---|---|
'full' | 591.994 |
- Estrutura de recursos :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
frase_normal | Texto | corda | ||
sentença simples | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
Descrição da configuração : Todos os pares de frases alinhados automaticamente com divisão de frases.
Tamanho do download :
115.09 MiB
Tamanho do conjunto de dados :
141.20 MiB
Armazenado em cache automaticamente ( documentação ): Somente quando
shuffle_files=False
(completo)Divisões :
Dividir | Exemplos |
---|---|
'full' | 483.801 |
- Estrutura de recursos :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
frase_normal | Texto | corda | ||
sentença simples | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
wiki_auto/auto
Descrição da configuração : Um grande conjunto de pares de frases alinhados automaticamente.
Tamanho do download :
2.01 GiB
Tamanho do conjunto de dados :
1.76 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'part_1' | 125.059 |
'part_2' | 13.036 |
- Estrutura de recursos :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
exemplo_id | Texto | corda | ||
normal | RecursosDict | |||
normal/normal_article_content | Seqüência | |||
normal/normal_article_content/normal_sentence | Texto | corda | ||
normal/normal_article_content/normal_sentence_id | Texto | corda | ||
normal/normal_article_id | tensor | int32 | ||
normal/normal_article_title | Texto | corda | ||
normal/normal_article_url | Texto | corda | ||
parágrafo_alinhamento | Seqüência | |||
paragrafo_alinhamento/normal_paragrafo_id | Texto | corda | ||
paragrafo_alinhamento/simple_paragrafo_id | Texto | corda | ||
sentença_alinhamento | Seqüência | |||
sentença_alinhamento/normal_sentence_id | Texto | corda | ||
sentença_alinhamento/simples_sentença_id | Texto | corda | ||
simples | RecursosDict | |||
simple/simples_article_content | Seqüência | |||
simple/simples_article_content/simples_sentence | Texto | corda | ||
simple/simple_article_content/simple_sentence_id | Texto | corda | ||
simple/simples_article_id | tensor | int32 | ||
simple/simples_article_title | Texto | corda | ||
simple/simples_article_url | Texto | corda |
- Exemplos ( tfds.as_dataframe ):