TFDS는 이제 Croissant 🥐 형식을 지원합니다! 자세한 내용은 설명서를 읽어보세요.

이 페이지는 Cloud Translation API를 통해 번역되었습니다.

paws_x_wiki

설명 :

이 데이터 세트에는 6개의 유형적으로 구분되는 언어로 번역된 23,659개의 PAWS 평가 쌍과 기계 번역된 296,406개의 훈련 쌍이 포함되어 있습니다.

프랑스 국민
스페인의
독일 사람
중국인
일본어
한국인

자세한 내용은 첨부 문서를 참조하십시오 .

PAWS Dataset과 마찬가지로 예제는 Train/Dev/Test 섹션으로 나뉩니다. 모든 파일은 4개의 열이 있는 tsv 형식입니다.

id : 각 쌍의 고유 ID입니다.
sentence1 : 첫 번째 문장.
sentence2 : 두 번째 문장.
(noisy_)label : 각 쌍에 대한 (잡음) 레이블입니다.

각 레이블에는 두 가지 가능한 값이 있습니다. 0은 쌍이 다른 의미를 가지고 있음을 나타내고 1은 쌍이 의역임을 나타냅니다.

추가 문서 : 코드가 있는 논문에서 탐색
홈페이지 : https://github.com/google-research-datasets/paws/tree/master/pawsx
소스 코드 : tfds.datasets.paws_x_wiki.Builder
버전 :
- 1.0.0 (기본값): 릴리스 정보가 없습니다.
다운로드 크기 : 28.88 MiB
자동 캐시 ( 문서 ): 예
기능 구조 :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

기능 문서 :

특징	수업	D타입
	풍모Dict
상표	클래스 레이블	int64
문장1	텍스트	끈
문장2	텍스트	끈

감독된 키 ( as_supervised 문서 참조): None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :

@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de(기본 구성)

구성 설명 : de로 번역됨
데이터 세트 크기 : 15.27 MiB
분할 :

나뉘다	예
`'test'`	2,000
`'train'`	49,380
`'validation'`	2,000

예 ( tfds.as_dataframe ):

paws_x_wiki/en

구성 설명 : en으로 번역됨
데이터 세트 크기 : 14.59 MiB
분할 :

나뉘다	예
`'test'`	2,000
`'train'`	49,175
`'validation'`	2,000

예 ( tfds.as_dataframe ):

paws_x_wiki/es

구성 설명 : es로 번역됨
데이터 세트 크기 : 15.27 MiB
분할 :

나뉘다	예
`'test'`	2,000
`'train'`	49,401
`'validation'`	1,961

예 ( tfds.as_dataframe ):

paws_x_wiki/fr

구성 설명 : fr로 번역됨
데이터 세트 크기 : 15.79 MiB
분할 :

나뉘다	예
`'test'`	2,000
`'train'`	49,399
`'validation'`	1,988

예 ( tfds.as_dataframe ):

paws_x_wiki/ja

구성 설명 : ja로 번역됨
데이터 세트 크기 : 17.77 MiB
분할 :

나뉘다	예
`'test'`	2,000
`'train'`	49,401
`'validation'`	2,000

예 ( tfds.as_dataframe ):

paws_x_wiki/ko

구성 설명 : ko로 번역됨
데이터 세트 크기 : 16.42 MiB
분할 :

나뉘다	예
`'test'`	1,999
`'train'`	49,164
`'validation'`	2,000

예 ( tfds.as_dataframe ):

paws_x_wiki/zh

구성 설명 : zh로 번역됨
데이터 세트 크기 : 13.20 MiB
분할 :

나뉘다	예
`'test'`	2,000
`'train'`	49,401
`'validation'`	2,000

예 ( tfds.as_dataframe ):

paws_x_wiki 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.