- opis :
OPUS to zbiór przetłumaczonych tekstów z sieci.
Utwórz własną konfigurację, aby wybrać parę danych / języka do załadowania.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : http://opus.nlpl.eu/
Kod źródłowy :
tfds.datasets.opus.Builder
Wersje :
-
0.1.0
(domyślnie): Brak informacji o wersji.
-
Struktura funkcji :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
Tłumaczenie | ||||
de | Tekst | strunowy | ||
en | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_supervised
doc ):('de', 'en')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus/medical (domyślna konfiguracja)
Opis konfiguracji : dokumenty medyczne
Rozmiar pliku do pobrania :
34.29 MiB
Rozmiar zestawu danych :
188.85 MiB
Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy
shuffle_files=False
(pociąg)Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 1 108 752 |
- Przykłady ( tfds.as_dataframe ):
opus/prawo
Opis konfiguracji : dokumenty prawne
Rozmiar pliku do pobrania :
46.99 MiB
Rozmiar zestawu danych :
214.44 MiB
Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy
shuffle_files=False
(pociąg)Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 719372 |
- Przykłady ( tfds.as_dataframe ):
opus/koran
Opis konfiguracji: dokumenty Koranu
Rozmiar pliku do pobrania :
35.42 MiB
Rozmiar zestawu danych :
117.54 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 537128 |
- Przykłady ( tfds.as_dataframe ):
opus/IT
Opis konfiguracji : Dokumenty IT
Rozmiar pliku do pobrania :
10.33 MiB
Rozmiar zestawu danych :
42.51 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 347 817 |
- Przykłady ( tfds.as_dataframe ):
opus/napisy
Opis konfiguracji : napisy do dokumentów
Rozmiar pliku do pobrania :
677.64 MiB
Rozmiar zestawu danych :
2.01 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 22.512.639 |
- Przykłady ( tfds.as_dataframe ):