Oskar

Bibliografia:

unshuffled_deduplicated_af

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 130640
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_als

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4518
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_arz

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 79928
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_an

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2025
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ast

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5343
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ba

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 27050
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_am

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 43102
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_as

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9212
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_azb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9985
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_be

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 307405
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 15762
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bxr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 36
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ceb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 26145
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_az

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 626796
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bcl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 98225
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_dsb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 37
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1114481
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bs

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 702
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ce

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2984
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 10130
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_diq

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_eml

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 80
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_et

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1172041
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bg

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3398679
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bpy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1770
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ca

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2458067
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ckb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 68210
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ar

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9006977
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_av

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 360
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bar

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bh

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 82
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_br

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 14724
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cbk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_da

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4771098
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_dv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 17024
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_eo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 84752
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_fa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 8203495
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_fy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 20661
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_gn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 68
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cs

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 12308039
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_hi

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1909387
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_hu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6582908
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ie

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 11
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_fr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 59448891
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_gd

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3883
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_gu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 169834
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_hsb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3084
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ia

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 529
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_io

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 617
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_jbo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 617
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_km

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 108346
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ku

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 29054
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_la

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 18808
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_lmo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1374
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_lv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 843195
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_min

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 166
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 212556
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mwl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_nah

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 58
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_new

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2126
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_oc

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6485
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_pam

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ps

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 67921
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_it

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_it')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 28522082
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ka

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ka')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 372158
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ro

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ro')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5044757
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_scn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_scn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 17
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ko

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ko')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3675420
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_kw

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kw')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 68
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_lez

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lez')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1381
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_lrc

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lrc')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 72
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mg

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mg')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 13343
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ml

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ml')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 453904
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ms

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ms')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 183443
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_myv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_myv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_nds

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nds')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 8714
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_nn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 109118
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_os

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_os')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2559
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_pms

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pms')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2859
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_qu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_qu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 411
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7121
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2820821
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sh

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sh')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 17610
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_so

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_so')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 42
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 645747
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ta

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ta')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 833101
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_tk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4694
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_tyv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tyv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 24
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_uz

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uz')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 15074
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_wa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 677
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_xmf

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xmf')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2418
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 11014487
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_tg

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tg')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 56259
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_de

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_de')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 62398034
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_tr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 11596446
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_el

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_el')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6521169
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_uk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7782375
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_vi

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vi')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9897709
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_wuu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wuu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 64
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_yo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 49
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_als

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_als')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7324
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_arz

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_arz')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 158113
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_az

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_az')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 912330
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bcl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bcl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1675515
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bs

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bs')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2143
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ce

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ce')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4042
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_cv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 20281
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_diq

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_diq')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_eml

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eml')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 84
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_et

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_et')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2093621
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_zh

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_zh')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 41708901
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_an

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_an')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2449
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ast

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ast')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6999
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ba

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ba')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 42551
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bg

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bg')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5869686
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bpy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bpy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6046
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ca

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ca')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4390754
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ckb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ckb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 103639
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_es

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_es')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 56326016
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_da

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_da')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7664010
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_dv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_dv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 21018
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_eo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 121168
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_fi

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fi')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5326443
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ga

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ga')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 46493
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_gom

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gom')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 484
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_hr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 321484
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_hy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 396093
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ilo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ilo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1578
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_fa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 13704702
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_fy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 33053
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_gn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 106
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_cześć

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hi')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3264660
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_hu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 11197780
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ie

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ie')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 101
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ja

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ja')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 39496439
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_kk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 338073
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_krc

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_krc')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1377
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ky

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ky')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 86561
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_li

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_li')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 118
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_lt

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lt')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1737411
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mhr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mhr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2515
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 197878
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mt

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mt')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 16383
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mzn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mzn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 917
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ne

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ne')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 219334
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_no

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_no')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3229940
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_pa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 87235
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_pnb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pnb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3463
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_rm

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_rm')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 34
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sah

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sah')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 8555
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_si

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_si')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 120684
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sq

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sq')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 461598
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sw

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sw')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 24803
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_th

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_th')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3749826
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_tt

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tt')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 82738
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ur

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ur')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 428674
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_vo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3317
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_xal

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xal')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 36
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_yue

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yue')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_am

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_am')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 83663
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_as

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_as')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 14985
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_azb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_azb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 15446
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_be

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_be')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 586031
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 26795
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bxr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bxr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 42
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ceb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ceb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 56248
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_cy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 157698
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_dsb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_dsb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 65
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_fr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 96742378
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_gd

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gd')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5799
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_gu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 240691
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_hsb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hsb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7959
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ia

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ia')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1040
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_io

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_io')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 694
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_jbo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_jbo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 832
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_km

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_km')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 159363
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ku

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ku')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 46535
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_la

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_la')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 94588
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lmo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lmo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1401
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1593820
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_min

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_min')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 220
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 326804
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mwl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mwl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 8
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_nah

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nah')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 61
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_new

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_new')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4696
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_oc

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_oc')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 10709
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_pam

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pam')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ps

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ps')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 98216
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ro

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ro')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9387265
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_scn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_scn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 21
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5492194
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1013619
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ta

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ta')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1263280
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6456
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tyv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tyv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 34
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_uz

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_uz')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 27537
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_wa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_wa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1001
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_xmf

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_xmf')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3783
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_it

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_it')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 46981781
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ka

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ka')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 563916
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ko

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ko')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7345075
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_kw

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kw')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 203
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lez

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lez')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1485
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lrc

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lrc')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 88
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mg

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mg')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 17957
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ml

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ml')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 603937
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ms

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ms')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 534016
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_myv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_myv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_nds

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nds')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 18174
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_nn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 185884
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_os

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_os')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5213
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_pms

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pms')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3225
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_qu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_qu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 452
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 14291
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sh

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sh')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 36700
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_so

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_so')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 156
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 17395625
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tg

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tg')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 89002
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 18535253
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_uk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_uk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 12973467
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_vi

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_vi')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 14898250
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_wuu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_wuu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 214
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_yo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_yo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 214
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_zh

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_zh')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 60137667
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_en

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_en')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 304230423
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_eu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 256513
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_frr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_frr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_gl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 284320
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_he

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_he')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2375030
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ht

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ht')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_id

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_id')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9948521
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_is

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_is')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 389515
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_jv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1163
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_kn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 251064
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_kv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 924
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_lb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 21735
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_lo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 32652
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mai

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mai')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 25
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 299457
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mrj

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mrj')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 669
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_my

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_my')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 136639
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_nap

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nap')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 55
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_nl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 20812149
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_or

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_or')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 44230
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_pl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 20682611
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_pt

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pt')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 26920397
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ru

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ru')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 115954598
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sd

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sd')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 33925
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 886223
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_su

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_su')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 511
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_te

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_te')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 312644
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_tl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 294132
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ug

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ug')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 15503
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_vec

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vec')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 64
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_war

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_war')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9161
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_yi

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yi')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 32919
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_af

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_af')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 201117
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ar

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ar')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 16365602
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_av

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_av')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 456
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bar

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bar')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bh

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bh')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 336
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_br

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_br')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 37085
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_cbk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cbk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_cs

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cs')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 21001388
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_de

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_de')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 104913504
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_el

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_el')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 10425596
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_es

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_es')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 88199221
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_fi

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fi')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 8557453
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ga

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ga')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 83223
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_gom

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gom')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 640
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_hr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 582219
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_hy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 659430
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ilo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ilo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2638
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ja

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ja')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 62721527
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_kk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 524591
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_krc

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_krc')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1581
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ky

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ky')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 146993
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_li

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_li')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 137
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lt

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lt')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2977757
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mhr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mhr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3212
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 395605
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mt

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mt')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 26598
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mzn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mzn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1055
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ne

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ne')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 299938
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_no

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_no')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5546211
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_pa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 127467
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_pnb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pnb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4599
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_rm

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_rm')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 41
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sah

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sah')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 22301
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_si

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_si')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 203082
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sq

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sq')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 672077
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sw

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sw')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 41986
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_th

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_th')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6064129
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tt

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tt')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 135923
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ur

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ur')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 638596
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_vo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_vo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3366
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_xal

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_xal')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 39
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_yue

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_yue')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 11
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_en

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_en')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 455994980
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_eu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 506883
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_frr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_frr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_gl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 544388
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_he

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_he')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3808397
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ht

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ht')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 13
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_id

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_id')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 16236463
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_is

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_is')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 625673
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_jv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_jv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1445
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_kn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 350363
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_kv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1549
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 34807
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 52910
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mai

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mai')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 123
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 437871
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mrj

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mrj')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 757
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_my

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_my')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 232329
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_nap

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nap')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 73
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_nl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 34682142
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_or

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_or')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 59463
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_pl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 35440972
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_pt

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pt')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 42114520
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ru

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ru')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 161836003
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sd

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sd')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 44280
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1746604
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_su

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_su')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 805
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_te

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_te')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 475703
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 458206
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ug

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ug')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 22255
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_vec

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_vec')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 73
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_war

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_war')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9760
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_yi

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_yi')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 59364
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}