애셋

  • 설명 :

ASSET은 "ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations"에 설명된 대로 다중 재작성 변환이 있는 문장 단순화 시스템을 평가하기 위한 데이터 세트입니다. 말뭉치는 2000개의 유효성 검사와 359개의 테스트 원본 문장으로 구성되며 각각 다른 어노테이터에 의해 10번씩 단순화되었습니다. 말뭉치에는 여러 자동 텍스트 단순화 시스템의 출력에 대한 의미 보존, 유창성 및 단순성에 대한 인간의 판단도 포함되어 있습니다.

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

자산/단순화(기본 구성)

  • 구성 설명 : 각각에 대해 10개의 가능한 단순화로 정렬된 원본 문장 세트입니다.

  • 데이터 세트 크기 : 2.64 MiB

  • 분할 :

나뉘다
'test' 359
'validation' 2,000
  • 기능 구조 :
FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
원래의 텍스트
단순화 시퀀스(텍스트) (없음,)

자산/등급

  • 구성 설명 : 자동으로 생성된 텍스트 단순화에 대한 사람의 평가.

  • 데이터 세트 크기 : 1.44 MiB

  • 분할 :

나뉘다
'full' 4,500
  • 기능 구조 :
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
측면 클래스 레이블 int64
원래의 텍스트
original_sentence_id 텐서 int32
평가 텐서 int32
단순화 텍스트
worker_id 텐서 int32