- 설명 :
OPUS는 웹에서 번역된 텍스트 모음입니다.
로드할 데이터/언어 쌍을 선택하려면 고유한 구성을 만드십시오.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
홈페이지 : http://opus.nlpl.eu/
소스 코드 :
tfds.datasets.opus.Builder
버전 :
-
0.1.0
(기본값): 릴리스 정보가 없습니다.
-
기능 구조 :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
번역 | ||||
드 | 텍스트 | 끈 | ||
ko | 텍스트 | 끈 |
감독 키 (
as_supervised
문서 참조):('de', 'en')
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus/의료(기본 구성)
구성 설명 : 의료 문서
다운로드 크기 :
34.29 MiB
데이터 세트 크기 :
188.85 MiB
자동 캐시 됨( 문서 ):
shuffle_files=False
(트레인)인 경우에만분할 :
나뉘다 | 예 |
---|---|
'train' | 1,108,752 |
- 예 ( tfds.as_dataframe ):
오푸스/법률
구성 설명 : 법률 문서
다운로드 크기 :
46.99 MiB
데이터 세트 크기 :
214.44 MiB
자동 캐시 됨( 문서 ):
shuffle_files=False
(트레인)인 경우에만분할 :
나뉘다 | 예 |
---|---|
'train' | 719,372 |
- 예 ( tfds.as_dataframe ):
오푸스/코란
구성 설명 : 코란 문서
다운로드 크기 :
35.42 MiB
데이터 세트 크기 :
117.54 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 537,128 |
- 예 ( tfds.as_dataframe ):
오푸스/IT
구성 설명 : IT 문서
다운로드 크기 :
10.33 MiB
데이터 세트 크기 :
42.51 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 347,817 |
- 예 ( tfds.as_dataframe ):
작품/자막
구성 설명 : 자막 문서
다운로드 크기 :
677.64 MiB
데이터세트 크기 :
2.01 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'train' | 22,512,639 |
- 예 ( tfds.as_dataframe ):