paws_x_wiki

  • 설명 :

이 데이터세트에는 23,659개의 사람이 번역한 PAWS 평가 쌍과 296,406개의 기계 번역된 교육 쌍이 6개의 유형학적으로 다른 언어로 포함되어 있습니다.

  • 프랑스 국민
  • 스페인의
  • 독일 사람
  • 중국인
  • 일본어
  • 한국인

자세한 내용은 다음 문서를 참조하십시오. PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification( https://arxiv.org/abs/1908.11828 )

PAWS Dataset과 유사하게 예제는 Train/Dev/Test 섹션으로 나뉩니다. 모든 파일은 4개의 열이 있는 tsv 형식입니다.

id 각 쌍의 고유 ID 문장1 첫 번째 문장 문장2 두 번째 문장(noisy_)label(Noisy) 각 쌍에 대한 레이블

각 레이블에는 두 가지 가능한 값이 있습니다. 0은 쌍이 서로 다른 의미를 갖고 있음을 나타내고 1은 쌍이 의역임을 나타냅니다.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • 기능 문서 :
특징 수업 모양 디타입 설명
기능사전
상표 클래스 레이블 tf.int64
문장1 텍스트 tf.string
문장2 텍스트 tf.string
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de(기본 구성)

  • 구성 설명 : de로 번역됨

  • 데이터 세트 크기 : 15.27 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 49,380
'validation' 2,000

paws_x_wiki/ko

  • 구성 설명 : en으로 번역됨

  • 데이터 세트 크기 : 14.59 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 49,175
'validation' 2,000

paws_x_wiki/es

  • 구성 설명 : es로 번역됨

  • 데이터 세트 크기 : 15.27 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 49,401
'validation' 1,961

paws_x_wiki/fr

  • 구성 설명 : fr로 번역됨

  • 데이터 세트 크기 : 15.79 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 49,399
'validation' 1,988

paws_x_wiki/ja

  • 구성 설명 : ja로 번역됨

  • 데이터 세트 크기 : 17.77 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 49,401
'validation' 2,000

paws_x_wiki/ko

  • 구성 설명 : ko로 번역됨

  • 데이터 세트 크기 : 16.42 MiB

  • 분할 :

나뉘다
'test' 1,999
'train' 49,164
'validation' 2,000

paws_x_wiki/zh

  • 구성 설명 : zh로 번역됨

  • 데이터 세트 크기 : 13.20 MiB

  • 분할 :

나뉘다
'test' 2,000
'train' 49,401
'validation' 2,000