- Opis :
databricks-dolly-15k
to zbiór danych o otwartym kodzie źródłowym, zawierający rekordy postępowania zgodnie z instrukcjami, używany w szkoleniu databricks/dolly-v2-12b, który został wygenerowany przez tysiące pracowników Databricks w kilku kategoriach behawioralnych opisanych w artykule InstructGPT , w tym burzy mózgów, klasyfikacji, Zamknięta kontrola jakości, generowanie, ekstrakcja informacji, otwarta kontrola jakości i podsumowanie.
Ten zbiór danych można wykorzystać w dowolnym celu, zarówno akademickim, jak i komercyjnym, zgodnie z warunkami licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 3.0 Unported .
Strona główna : https://github.com/databrickslabs/dolly
Kod źródłowy :
tfds.datasets.databricks_dolly.Builder
Wersje :
-
1.0.0
(domyślnie): Wersja pierwsza.
-
Rozmiar pobierania :
12.60 MiB
Rozmiar zbioru danych :
12.69 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'train' | 15014 |
- Struktura funkcji :
FeaturesDict({
'category': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'instruction': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
Kategoria | Tekst | strunowy | ||
kontekst | Tekst | strunowy | ||
instrukcja | Tekst | strunowy | ||
odpowiedź | Tekst | strunowy |
Klucze nadzorowane (zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :