- 설명 :
이것은 7권의 논픽션 책에서 구절을 읽는 단일 화자의 짧은 오디오 클립 13,100개로 구성된 공개 도메인 음성 데이터 세트입니다. 각 클립에 대한 전사가 제공됩니다. 클립의 길이는 1초에서 10초까지 다양하며 총 길이는 약 24시간입니다.
텍스트는 1884년에서 1964년 사이에 출판되었으며 공개 도메인에 있습니다. 오디오는 LibriVox 프로젝트에 의해 2016-17년에 녹음되었으며 공개 도메인에도 있습니다.
소스 코드 :
tfds.datasets.ljspeech.Builder
버전 :
-
1.1.1
(기본값): dtype=tf.int16으로 음성 데이터 유형을 수정합니다.
-
다운로드 크기 :
2.56 GiB
데이터세트 크기 :
10.73 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'train' | 13,100 |
- 기능 구조 :
FeaturesDict({
'id': string,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
'text_normalized': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
ID | 텐서 | 끈 | ||
연설 | 오디오 | (없음,) | 정수16 | |
텍스트 | 텍스트 | 끈 | ||
text_normalized | 텍스트 | 끈 |
감독 키 (
as_supervised
문서 참조):('text_normalized', 'speech')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@misc{ljspeech17,
author = {Keith Ito},
title = {The LJ Speech Dataset},
howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
year = 2017
}