- 설명 :
이 데이터 세트에는 6개의 유형적으로 구분되는 언어로 번역된 23,659개의 PAWS 평가 쌍과 기계 번역된 296,406개의 훈련 쌍이 포함되어 있습니다.
- 프랑스 국민
- 스페인의
- 독일 사람
- 중국인
- 일본어
- 한국인
자세한 내용은 첨부 문서를 참조하십시오 .
PAWS Dataset과 마찬가지로 예제는 Train/Dev/Test 섹션으로 나뉩니다. 모든 파일은 4개의 열이 있는 tsv 형식입니다.
-
id
: 각 쌍의 고유 ID입니다. -
sentence1
: 첫 번째 문장. -
sentence2
: 두 번째 문장. -
(noisy_)label
: 각 쌍에 대한 (잡음) 레이블입니다.
각 레이블에는 두 가지 가능한 값이 있습니다. 0은 쌍이 다른 의미를 가지고 있음을 나타내고 1은 쌍이 의역임을 나타냅니다.
홈페이지 : https://github.com/google-research-datasets/paws/tree/master/pawsx
버전 :
-
1.0.0
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
28.88 MiB
자동 캐시 ( 문서 ): 예
기능 구조 :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
상표 | 클래스 레이블 | int64 | ||
문장1 | 텍스트 | 끈 | ||
문장2 | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de(기본 구성)
구성 설명 : de로 번역됨
데이터 세트 크기 :
15.27 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,000 |
'train' | 49,380 |
'validation' | 2,000 |
- 예 ( tfds.as_dataframe ):
paws_x_wiki/en
구성 설명 : en으로 번역됨
데이터 세트 크기 :
14.59 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,000 |
'train' | 49,175 |
'validation' | 2,000 |
- 예 ( tfds.as_dataframe ):
paws_x_wiki/es
구성 설명 : es로 번역됨
데이터 세트 크기 :
15.27 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 1,961 |
- 예 ( tfds.as_dataframe ):
paws_x_wiki/fr
구성 설명 : fr로 번역됨
데이터 세트 크기 :
15.79 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,000 |
'train' | 49,399 |
'validation' | 1,988 |
- 예 ( tfds.as_dataframe ):
paws_x_wiki/ja
구성 설명 : ja로 번역됨
데이터 세트 크기 :
17.77 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- 예 ( tfds.as_dataframe ):
paws_x_wiki/ko
구성 설명 : ko로 번역됨
데이터 세트 크기 :
16.42 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,999 |
'train' | 49,164 |
'validation' | 2,000 |
- 예 ( tfds.as_dataframe ):
paws_x_wiki/zh
구성 설명 : zh로 번역됨
데이터 세트 크기 :
13.20 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- 예 ( tfds.as_dataframe ):