tydi_qa

설명 :

TyDi QA는 204K 질문-답변 쌍이 있는 11개의 유형학적으로 다양한 언어를 다루는 질문 응답 데이터 세트입니다. TyDi QA의 언어는 유형학(각 언어가 표현하는 언어적 특징 집합)과 관련하여 다양하므로 이 집합에서 잘 작동하는 모델이 전 세계 많은 언어에 걸쳐 일반화될 것으로 기대합니다. 영어 전용 말뭉치에서는 볼 수 없는 언어 현상이 포함되어 있습니다. 현실적인 정보 탐색 작업을 제공하고 프라이밍 효과를 피하기 위해 답을 알고 싶지만 아직 답을 모르는 사람들이 질문을 작성하고(SQuAD 및 그 자손과 달리) 데이터는 각 언어로 직접 수집됩니다. 번역을 사용하지 않습니다(MLQA 및 XQuAD와 달리).

교육 분할:

'train': 원래 언어로 레이블이 지정된 교육 데이터가 있는 원본 TyDi QA 논문[ https://arxiv.org/abs/2003.05002 ]의 GoldP 작업입니다.

'translate-train-*': 이러한 분할은 XTREME 논문[ https://arxiv.org/abs/2003.11080 ]의 translate-train 기준선에 사용된 영어에서 각 대상 언어로의 자동 번역입니다. 이는 원래 언어 데이터를 사용할 수 없고 시스템 빌더가 레이블이 지정된 영어 데이터와 기존 기계 번역 시스템에 의존해야 하는 전이 학습 시나리오를 시뮬레이션하기 위해 영어가 아닌 TyDiQA-GoldP 교육 데이터를 의도적으로 무시합니다.

일반적으로 기차 또는 번역-열 분할 중 하나를 사용해야 하지만 둘 다 사용할 수는 없습니다.

추가 문서 : 코드가 있는 논문에서 탐색
구성 설명 : Gold Passage(GoldP) 작업( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
홈페이지 : https://github.com/google-research-datasets/tydiqa
소스 코드 : tfds.question_answering.TydiQA
버전 :
- 3.0.0 (기본값): 컨텍스트 공백 제거로 인해 답변 범위가 잘못 정렬되는 여러 예의 문제를 수정합니다. 이 변경 사항은 약 25%의 훈련 및 개발 예제에 영향을 미칩니다.
다운로드 크기 : 121.30 MiB
데이터 세트 크기 : 98.35 MiB
자동 캐시 ( 문서 ): 예
분할 :

나뉘다	예
`'train'`	49,881
`'translate-train-ar'`	3,661
`'translate-train-bn'`	3,585
`'translate-train-fi'`	3,670
`'translate-train-id'`	3,667
`'translate-train-ko'`	3,607
`'translate-train-ru'`	3,394
`'translate-train-sw'`	3,622
`'translate-train-te'`	3,658
`'validation'`	5,077
`'validation-ar'`	921
`'validation-bn'`	113
`'validation-en'`	440
`'validation-fi'`	782
`'validation-id'`	565
`'validation-ko'`	276
`'validation-ru'`	812
`'validation-sw'`	499
`'validation-te'`	669

기능 구조 :

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

기능 문서 :

특징	수업	D타입
	풍모Dict
답변	순서
답변/answer_start	텐서	int32
답변/텍스트	텍스트	끈
문맥	텍스트	끈
ID	텐서	끈
의문	텍스트	끈
제목	텍스트	끈

감독된 키 ( as_supervised 문서 참조): None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):

인용 :

@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

tydi_qa/goldp(기본 구성)

tydi_qa