TFDS는 이제 Croissant 🥐 형식을 지원합니다! 자세한 내용은 설명서를 읽어보세요.

이 페이지는 Cloud Translation API를 통해 번역되었습니다.

이스피치

설명 :

이것은 7권의 논픽션 책에서 구절을 읽는 단일 화자의 짧은 오디오 클립 13,100개로 구성된 공개 도메인 음성 데이터 세트입니다. 각 클립에 대한 전사가 제공됩니다. 클립의 길이는 1초에서 10초까지 다양하며 총 길이는 약 24시간입니다.

텍스트는 1884년에서 1964년 사이에 출판되었으며 공개 도메인에 있습니다. 오디오는 LibriVox 프로젝트에 의해 2016-17년에 녹음되었으며 공개 도메인에도 있습니다.

추가 문서 : 코드가 있는 논문에서 탐색
홈페이지 : https://keithito.com/LJ-Speech-Dataset/
소스 코드 : tfds.datasets.ljspeech.Builder
버전 :
- 1.1.1 (기본값): dtype=tf.int16으로 음성 데이터 유형을 수정합니다.
다운로드 크기 : 2.56 GiB
데이터세트 크기 : 10.73 GiB
자동 캐시 ( 문서 ): 아니요
분할 :

나뉘다	예
`'train'`	13,100

기능 구조 :

FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})

기능 문서 :

특징	수업	모양	D타입	설명
	풍모Dict
ID	텐서		끈
연설	오디오	(없음,)	정수16
텍스트	텍스트		끈
text_normalized	텍스트		끈

감독 키 ( as_supervised 문서 참조): ('text_normalized', 'speech')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):

인용 :

@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}

달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.

최종 업데이트: 2022-12-13(UTC)