- Açıklama :
WikiAuto, cümle basitleştirme sistemlerini eğitmek için bir kaynak olarak İngilizce Vikipedi ve Basit İngilizce Vikipedi'den bir dizi hizalanmış cümle sağlar. Yazarlar önce Basit İngilizce Vikipedi'nin bir alt kümesindeki cümleler ile İngilizce Vikipedi'deki karşılık gelen sürümleri arasındaki bir dizi manuel hizalamayı kitle kaynaklı olarak sağladı (bu, manual
yapılandırmaya karşılık gelir), ardından bu hizalamaları tahmin etmesi için bir sinirsel CRF sistemi eğitti. Eğitilen model daha sonra Basit İngilizce Vikipedi'deki diğer makalelere İngilizce eşdeğeri ile uygulandı ve daha büyük bir hizalanmış cümleler külliyatı oluşturdu (buradaki auto
, auto_acl
, auto_full_no_split
ve auto_full_with_split
yapılandırmalarına karşılık gelir).
Ana sayfa : https://github.com/chaojiang06/wiki-auto
Kaynak kodu :
tfds.text_simplification.wiki_auto.WikiAuto
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manual (varsayılan yapılandırma)
Yapılandırma açıklaması : Kalabalık çalışanları tarafından hizalanmış 10.000 Wikipedia cümle çifti kümesi.
İndirme boyutu :
53.47 MiB
Veri kümesi boyutu :
76.87 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'dev' | 73.249 |
'test' | 118.074 |
- Özellik yapısı :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
GLEU puanı | tensör | şamandıra64 | ||
hizalama_etiketi | SınıfEtiketi | int64 | ||
normal_sentence | Metin | sicim | ||
normal_sentence_id | Metin | sicim | ||
basit_sentence | Metin | sicim | ||
basit_sentence_id | Metin | sicim |
- Örnekler ( tfds.as_dataframe ):
wiki_auto/auto_acl
Yapılandırma açıklaması : ACL2020 sistemini eğitmek için hizalanmış cümle çiftleri.
İndirme boyutu :
112.60 MiB
Veri kümesi boyutu :
138.83 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Yalnızca
shuffle_files=False
(dolu) olduğundabölmeler :
Bölmek | örnekler |
---|---|
'full' | 488.332 |
- Özellik yapısı :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
normal_sentence | Metin | sicim | ||
basit_sentence | Metin | sicim |
- Örnekler ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
Yapılandırma açıklaması : Cümle bölme olmadan tüm cümle çiftleri otomatik olarak hizalanır.
İndirme boyutu :
135.02 MiB
Veri kümesi boyutu :
166.78 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Yalnızca
shuffle_files=False
(dolu) olduğundabölmeler :
Bölmek | örnekler |
---|---|
'full' | 591.994 |
- Özellik yapısı :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
normal_sentence | Metin | sicim | ||
basit_sentence | Metin | sicim |
- Örnekler ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
Yapılandırma açıklaması : Tümü otomatik olarak hizalanan cümle çiftleri, cümle bölme özelliğine sahiptir.
İndirme boyutu :
115.09 MiB
Veri kümesi boyutu :
141.20 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Yalnızca
shuffle_files=False
(dolu) olduğundabölmeler :
Bölmek | örnekler |
---|---|
'full' | 483.801 |
- Özellik yapısı :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
normal_sentence | Metin | sicim | ||
basit_sentence | Metin | sicim |
- Örnekler ( tfds.as_dataframe ):
wiki_otomatik/otomatik
Yapılandırma açıklaması : Otomatik olarak hizalanan geniş bir cümle çiftleri kümesi.
İndirme boyutu :
2.01 GiB
Veri kümesi boyutu :
1.76 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'part_1' | 125.059 |
'part_2' | 13.036 |
- Özellik yapısı :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
örnek_id | Metin | sicim | ||
normal | ÖzelliklerDict | |||
normal/normal_article_content | Sekans | |||
normal/normal_article_content/normal_sentence | Metin | sicim | ||
normal/normal_article_content/normal_sentence_id | Metin | sicim | ||
normal/normal_article_id | tensör | int32 | ||
normal/normal_article_title | Metin | sicim | ||
normal/normal_article_url | Metin | sicim | ||
paragraf_hizalama | Sekans | |||
paragraf_hizalama/normal_paragraph_id | Metin | sicim | ||
paragraf_hizalama/simple_paragraph_id | Metin | sicim | ||
cümle_hizalama | Sekans | |||
cümle_align/normal_sentence_id | Metin | sicim | ||
cümle_alignment/simple_sentence_id | Metin | sicim | ||
basit | ÖzelliklerDict | |||
basit/basit_article_content | Sekans | |||
basit/simple_article_content/simple_sentence | Metin | sicim | ||
basit/simple_article_content/simple_sentence_id | Metin | sicim | ||
basit/basit_article_id | tensör | int32 | ||
basit/basit_article_title | Metin | sicim | ||
basit/basit_article_url | Metin | sicim |
- Örnekler ( tfds.as_dataframe ):