아스카

  • 설명 :

ASQA는 모호한 사실 질문에 초점을 맞춘 최초의 긴 형식의 질문 답변 데이터 세트입니다. 이전의 긴 형식 답변 데이터세트와는 달리 각 질문에는 긴 형식의 답변과 추출된 질문-답변 쌍이 모두 주석으로 추가되어 생성된 구절에서 대답할 수 있어야 합니다. 생성된 긴 형식의 답변은 ROUGE 및 QA 정확도를 모두 사용하여 평가됩니다. 우리는 이러한 평가 지표가 인간의 판단과 밀접한 상관관계가 있음을 보여주었습니다. 이 저장소에서는 평가 코드와 함께 ASQA 데이터세트를 출시합니다. <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>

  • 홈페이지 : https://github.com/google-research/ 언어/tree/master/언어/asqa

  • 소스 코드 : tfds.datasets.asqa.Builder

  • 버전 :

    • 1.0.0 (기본값): 최초 릴리스입니다.
    • 2.0.0 : 샘플 ID가 int32(오버플로)에서 int64로 변경됩니다.
  • 다운로드 크기 : 17.86 MiB

  • 데이터세트 크기 : 14.50 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'dev' 948
'train' 4,353
  • 기능 구조 :
FeaturesDict({
    'ambiguous_question': Text(shape=(), dtype=string),
    'annotations': Sequence({
        'knowledge': Sequence({
            'content': Text(shape=(), dtype=string),
            'wikipage': Text(shape=(), dtype=string),
        }),
        'long_answer': Text(shape=(), dtype=string),
    }),
    'qa_pairs': Sequence({
        'context': Text(shape=(), dtype=string),
        'question': Text(shape=(), dtype=string),
        'short_answers': Sequence(Text(shape=(), dtype=string)),
        'wikipage': Text(shape=(), dtype=string),
    }),
    'sample_id': int64,
    'wikipages': Sequence({
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • 기능 문서 :
특징 수업 모양 Dtype 설명
특징Dict
모호한_질문 텍스트 AmbigQA의 명확한 질문입니다.
주석 순서 ASQA 주석자가 작성한 모호한 질문에 대한 긴 형식의 답변입니다.
주석/지식 순서 추가 지식 조각 목록입니다.
주석/지식/콘텐츠 텍스트 Wikipedia의 한 구절.
주석/지식/위키페이지 텍스트 해당 구절을 가져온 Wikipedia 페이지의 제목입니다.
주석/긴 답변 텍스트 주석.
qa_pairs 순서 명확성을 위해 사용되는 AmbigQA의 Q&A 쌍입니다.
qa_pairs/컨텍스트 텍스트 추가 컨텍스트가 제공됩니다.
qa_pairs/질문 텍스트
qa_pairs/짧은_답변 시퀀스(텍스트) (없음,) AmbigQA의 짧은 답변 목록입니다.
qa_pairs/wikipage 텍스트 추가 컨텍스트를 가져온 Wikipedia 페이지의 제목입니다.
샘플_ID 텐서 정수64
위키페이지 순서 AmbigQA 주석자가 방문한 Wikipedia 페이지 목록입니다.
위키페이지/제목 텍스트 Wikipedia 페이지의 제목입니다.
위키페이지/URL 텍스트 위키피디아 페이지에 연결합니다.
  • 인용 :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}