paws_x_wiki

  • 설명 :

이 데이터 세트에는 6개의 유형적으로 구분되는 언어로 번역된 23,659개의 PAWS 평가 쌍과 기계 번역된 296,406개의 훈련 쌍이 포함되어 있습니다.

  • 프랑스 국민
  • 스페인의
  • 독일 사람
  • 중국인
  • 일본어
  • 한국인

자세한 내용은 첨부 문서를 참조하십시오 .

PAWS Dataset과 마찬가지로 예제는 Train/Dev/Test 섹션으로 나뉩니다. 모든 파일은 4개의 열이 있는 tsv 형식입니다.

  1. id : 각 쌍의 고유 ID입니다.
  2. sentence1 : 첫 번째 문장.
  3. sentence2 : 두 번째 문장.
  4. (noisy_)label : 각 쌍에 대한 (잡음) 레이블입니다.

각 레이블에는 두 가지 가능한 값이 있습니다. 0은 쌍이 다른 의미를 가지고 있음을 나타내고 1은 쌍이 의역임을 나타냅니다.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
상표 클래스 레이블 int64
문장1 텍스트
문장2 텍스트
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de(기본 구성)

  • 구성 설명 : de로 번역됨

  • 데이터 세트 크기 : 15.27 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 49,380
'validation' 2,000

paws_x_wiki/en

  • 구성 설명 : en으로 번역됨

  • 데이터 세트 크기 : 14.59 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 49,175
'validation' 2,000

paws_x_wiki/es

  • 구성 설명 : es로 번역됨

  • 데이터 세트 크기 : 15.27 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 49,401
'validation' 1,961

paws_x_wiki/fr

  • 구성 설명 : fr로 번역됨

  • 데이터 세트 크기 : 15.79 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 49,399
'validation' 1,988

paws_x_wiki/ja

  • 구성 설명 : ja로 번역됨

  • 데이터 세트 크기 : 17.77 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 49,401
'validation' 2,000

paws_x_wiki/ko

  • 구성 설명 : ko로 번역됨

  • 데이터 세트 크기 : 16.42 MiB

  • 분할 :

나뉘다
'test' 1,999
'train' 49,164
'validation' 2,000

paws_x_wiki/zh

  • 구성 설명 : zh로 번역됨

  • 데이터 세트 크기 : 13.20 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 49,401
'validation' 2,000