- 설명 :
ASSET은 "ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations"에 설명된 대로 다중 재작성 변환이 있는 문장 단순화 시스템을 평가하기 위한 데이터 세트입니다. 말뭉치는 2000개의 유효성 검사와 359개의 테스트 원본 문장으로 구성되며 각각 다른 어노테이터에 의해 10번씩 단순화되었습니다. 말뭉치에는 여러 자동 텍스트 단순화 시스템의 출력에 대한 의미 보존, 유창성 및 단순성에 대한 인간의 판단도 포함되어 있습니다.
소스 코드 :
tfds.datasets.asset.Builder
버전 :
-
1.0.0
(기본값): 최초 릴리스.
-
다운로드 크기 :
3.47 MiB
자동 캐시 ( 문서 ): 예
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
자산/단순화(기본 구성)
구성 설명 : 각각에 대해 10개의 가능한 단순화로 정렬된 원본 문장 세트입니다.
데이터 세트 크기 :
2.64 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 359 |
'validation' | 2,000 |
- 기능 구조 :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
원래의 | 텍스트 | 끈 | ||
단순화 | 시퀀스(텍스트) | (없음,) | 끈 |
- 예 ( tfds.as_dataframe ):
자산/등급
구성 설명 : 자동으로 생성된 텍스트 단순화에 대한 사람의 평가.
데이터 세트 크기 :
1.44 MiB
분할 :
나뉘다 | 예 |
---|---|
'full' | 4,500 |
- 기능 구조 :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
측면 | 클래스 레이블 | int64 | ||
원래의 | 텍스트 | 끈 | ||
original_sentence_id | 텐서 | int32 | ||
평가 | 텐서 | int32 | ||
단순화 | 텍스트 | 끈 | ||
worker_id | 텐서 | int32 |
- 예 ( tfds.as_dataframe ):