paws_wiki

  • 설명 :

기존의 의역 식별 데이터 세트는 의역이 되지 않고 어휘 중첩이 높은 문장 쌍이 부족합니다. 이러한 데이터에 대해 훈련된 모델은 뉴욕에서 플로리다로의 항공편과 플로리다에서 뉴욕으로의 항공편과 같은 쌍을 구별하지 못합니다. 이 데이터 세트에는 패러프레이즈 식별 문제에 대한 모델링 구조, 컨텍스트 및 단어 순서 정보의 중요성을 특징으로 하는 108,463개의 인간 레이블 및 656k 잡음 레이블 쌍이 포함되어 있습니다.

자세한 내용은 다음 문서를 참조하십시오. PAWS: Paraphrase Adversaries from Word Scrambling at https://arxiv.org/abs/1904.01130

이 말뭉치에는 Wikipedia 페이지에서 생성된 쌍이 포함되어 있으며 단어 교환 및 역 번역 방법 모두에서 생성된 쌍을 포함합니다. 모든 쌍은 패러프레이징과 유창성에 대한 인간의 판단을 가지고 있으며 훈련/개발/테스트 섹션으로 나뉩니다.

모든 파일은 4개의 열이 있는 tsv 형식입니다.

  1. id : 각 쌍의 고유 ID입니다.
  2. sentence1 : 첫 번째 문장.
  3. sentence2 : 두 번째 문장.
  4. (noisy_)label : 각 쌍에 대한 (잡음) 레이블입니다.

각 레이블에는 두 가지 가능한 값이 있습니다. 0은 쌍이 다른 의미를 가지고 있음을 나타내고 1은 쌍이 의역임을 나타냅니다.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
상표 클래스 레이블 int64
문장1 텍스트
문장2 텍스트
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized(기본 구성)

  • 구성 설명 : 하위 집합:label_final 토큰화됨: True

  • 데이터 세트 크기 : 17.96 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki/labeled_final_raw

  • 구성 설명 : 하위 집합:label_final 토큰화됨: False

  • 데이터 세트 크기 : 17.57 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki/labeled_swap_tokenized

  • 구성 설명 : 하위 집합:label_swap 토큰화: True

  • 데이터 세트 크기 : 8.79 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 30,397

paws_wiki/labeled_swap_raw

  • 구성 설명 : 하위 집합:label_swap 토큰화됨: False

  • 데이터 세트 크기 : 8.60 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 30,397

paws_wiki/unlabeled_final_tokenized

  • 구성 설명 : 하위 집합: unlabeled_final 토큰화됨: True

  • 데이터 세트 크기 : 177.89 MiB

  • 자동 캐시 됨( 문서 ): 예(검증), shuffle_files=False 인 경우에만(훈련)

  • 분할 :

나뉘다
'train' 645,652
'validation' 10,000