애셋

설명 :

ASSET은 "ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations"에 설명된 대로 다중 재작성 변환이 있는 문장 단순화 시스템을 평가하기 위한 데이터 세트입니다. 말뭉치는 2000개의 유효성 검사와 359개의 테스트 원본 문장으로 구성되며 각각 다른 어노테이터에 의해 10번씩 단순화되었습니다. 말뭉치에는 여러 자동 텍스트 단순화 시스템의 출력에 대한 의미 보존, 유창성 및 단순성에 대한 인간의 판단도 포함되어 있습니다.

추가 문서 : 코드가 있는 논문에서 탐색
홈페이지 : https://github.com/facebookresearch/asset
소스 코드 : tfds.datasets.asset.Builder
버전 :
- 1.0.0 (기본값): 최초 릴리스.
다운로드 크기 : 3.47 MiB
자동 캐시 ( 문서 ): 예
감독된 키 ( as_supervised 문서 참조): None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

자산/단순화(기본 구성)

구성 설명 : 각각에 대해 10개의 가능한 단순화로 정렬된 원본 문장 세트입니다.
데이터 세트 크기 : 2.64 MiB
분할 :

나뉘다	예
`'test'`	359
`'validation'`	2,000

기능 구조 :

FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})

기능 문서 :

특징	수업	모양	D타입
	풍모Dict
원래의	텍스트		끈
단순화	시퀀스(텍스트)	(없음,)	끈

예 ( tfds.as_dataframe ):

자산/등급

구성 설명 : 자동으로 생성된 텍스트 단순화에 대한 사람의 평가.
데이터 세트 크기 : 1.44 MiB
분할 :

나뉘다	예
`'full'`	4,500

기능 구조 :

FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})

기능 문서 :

특징	수업	D타입
	풍모Dict
측면	클래스 레이블	int64
원래의	텍스트	끈
original_sentence_id	텐서	int32
평가	텐서	int32
단순화	텍스트	끈
worker_id	텐서	int32

예 ( tfds.as_dataframe ):