- Açıklama :
Mevcut açıklama tanımlama veri kümeleri, açıklama olmaksızın yüksek sözcüksel örtüşmeye sahip cümle çiftlerinden yoksundur. Bu tür verilerle eğitilen modeller, New York'tan Florida'ya uçuşlar ve Florida'dan New York'a uçuşlar gibi çiftleri ayırt etmekte başarısız oluyor. Bu veri seti, açıklama tanımlama sorunu için modelleme yapısı, bağlam ve kelime sırası bilgilerinin önemini gösteren 108.463 insan etiketli ve 656 bin gürültülü etiketli çift içerir.
Daha fazla ayrıntı için, ekteki makaleye bakın: PAWS: https://arxiv.org/abs/1904.01130 adresindeki Word Scrambling'den Hasımları Açıklama
Bu külliyat, hem kelime değiştirme hem de geri çeviri yöntemlerinden üretilen çiftleri içeren Wikipedia sayfalarından oluşturulan çiftleri içerir. Tüm çiftlerin hem başka kelimelerle ifade etme hem de akıcılık konusunda insan yargıları vardır ve bunlar, Eğit/Geliştir/Test bölümlerine ayrılmıştır.
Tüm dosyalar dört sütunlu tsv biçimindedir:
-
id
: Her çift için benzersiz bir kimlik. -
sentence1
: İlk cümle. -
sentence2
: İkinci cümle. -
(noisy_)label
: Her çift için (Gürültülü) etiket.
Her etiketin iki olası değeri vardır: 0, çiftin farklı anlamlara sahip olduğunu, 1 ise çiftin bir açıklama olduğunu gösterir.
Ana sayfa : https://github.com/google-research-datasets/paws
Kaynak kodu :
tfds.datasets.paws_wiki.Builder
sürümler :
-
1.0.0
: İlk sürüm. -
1.1.0
(varsayılan): Farklı alt kümelere yapılandırmalar ekler ve ham metni destekler.
-
İndirme boyutu :
57.47 MiB
Özellik yapısı :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
etiket | SınıfEtiketi | int64 | ||
cümle1 | Metin | sicim | ||
cümle2 | Metin | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (varsayılan yapılandırma)
Yapılandırma açıklaması : Alt küme: label_final belirteçleştirilmiş: True
Veri kümesi boyutu :
17.96 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 8.000 |
'train' | 49.401 |
'validation' | 8.000 |
- Örnekler ( tfds.as_dataframe ):
paws_wiki/labeled_final_raw
Yapılandırma açıklaması : Altküme: etiketli_son belirteçleştirilmiş: Yanlış
Veri kümesi boyutu :
17.57 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 8.000 |
'train' | 49.401 |
'validation' | 8.000 |
- Örnekler ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
Yapılandırma açıklaması : Altküme: label_swap tokenized: True
Veri kümesi boyutu :
8.79 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 30.397 |
- Örnekler ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
Yapılandırma açıklaması : Alt küme: label_swap tokenized: False
Veri kümesi boyutu :
8.60 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 30.397 |
- Örnekler ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
Yapılandırma açıklaması : Alt küme: unlabeled_final tokenized: True
Veri kümesi boyutu :
177.89 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet (doğrulama), Yalnızca
shuffle_files=False
(tren) olduğundabölmeler :
Bölmek | örnekler |
---|---|
'train' | 645.652 |
'validation' | 10.000 |
- Örnekler ( tfds.as_dataframe ):