- Açıklama :
Bu veri kümesi, tipolojik olarak farklı altı dilde 23.659 insan tarafından çevrilmiş PAWS değerlendirme çifti ve 296.406 makine tarafından çevrilmiş eğitim çifti içerir:
- Fransızca
- İspanyol
- Almanca
- Çince
- Japonca
- Koreli
Daha fazla ayrıntı için ekteki belgeye bakın: PAWS-X: A Cross-lingual Adversarial Dataset for Açıklama Tanımlaması için https://arxiv.org/abs/1908.11828
PAWS Veri Kümesine benzer şekilde örnekler, Eğit/Geliştir/Test bölümlerine ayrılmıştır. Tüm dosyalar dört sütunlu tsv biçimindedir:
-
id
: Her çift için benzersiz bir kimlik. -
sentence1
: İlk cümle. -
sentence2
: İkinci cümle. -
(noisy_)label
: Her çift için (Gürültülü) etiket.
Her etiketin iki olası değeri vardır: 0, çiftin farklı anlamlara sahip olduğunu, 1 ise çiftin bir açıklama olduğunu gösterir.
Ana sayfa : https://github.com/google-research-datasets/paws/tree/master/pawsx
Kaynak kodu :
tfds.datasets.paws_x_wiki.Builder
sürümler :
-
1.0.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
28.88 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
Özellik yapısı :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
etiket | SınıfEtiketi | int64 | ||
cümle1 | Metin | sicim | ||
cümle2 | Metin | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (varsayılan yapılandırma)
Yapılandırma açıklaması : de'ye çevrildi
Veri kümesi boyutu :
15.27 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 2.000 |
'train' | 49.380 |
'validation' | 2.000 |
- Örnekler ( tfds.as_dataframe ):
paws_x_wiki/tr
Yapılandırma açıklaması : tr'ye çevrildi
Veri kümesi boyutu :
14.59 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 2.000 |
'train' | 49.175 |
'validation' | 2.000 |
- Örnekler ( tfds.as_dataframe ):
paws_x_wiki/es
Yapılandırma açıklaması : es'ye çevrildi
Veri kümesi boyutu :
15.27 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 1.961 |
- Örnekler ( tfds.as_dataframe ):
paws_x_wiki/fr
Yapılandırma açıklaması : fr'ye çevrildi
Veri kümesi boyutu :
15.79 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 2.000 |
'train' | 49.399 |
'validation' | 1.988 |
- Örnekler ( tfds.as_dataframe ):
paws_x_wiki/ja
Yapılandırma açıklaması : ja'ya çevrildi
Veri kümesi boyutu :
17.77 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
- Örnekler ( tfds.as_dataframe ):
paws_x_wiki/ko
Yapılandırma açıklaması : ko'ya çevrildi
Veri kümesi boyutu :
16.42 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 1.999 |
'train' | 49.164 |
'validation' | 2.000 |
- Örnekler ( tfds.as_dataframe ):
paws_x_wiki/zh
Yapılandırma açıklaması : zh'ye çevrildi
Veri kümesi boyutu :
13.20 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
- Örnekler ( tfds.as_dataframe ):