- opis :
ASSET to zestaw danych do oceny systemów uproszczenia zdań z wieloma przekształceniami przepisywania, zgodnie z opisem w „ASSET: zestaw danych do dostrajania i oceny modeli uproszczenia zdań z wielokrotnymi przekształceniami przepisywania”. Korpus składa się z 2000 walidacji i 359 oryginalnych zdań testowych, z których każde zostało uproszczone 10 razy przez różnych adnotatorów. Korpus zawiera również ludzkie oceny zachowania znaczenia, płynności i prostoty wyników kilku automatycznych systemów upraszczania tekstu.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/facebookresearch/asset
Kod źródłowy :
tfds.datasets.asset.Builder
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
3.47 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
zasób/uproszczenie (domyślna konfiguracja)
Opis konfiguracji: zestaw oryginalnych zdań z 10 możliwymi uproszczeniami dla każdego.
Rozmiar zestawu danych :
2.64 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 359 |
'validation' | 2000 |
- Struktura funkcji :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
oryginał | Tekst | strunowy | ||
uproszczenia | Sekwencja (tekst) | (Nic,) | strunowy |
- Przykłady ( tfds.as_dataframe ):
aktywa/oceny
Opis konfiguracji : Ludzkie oceny automatycznie generowanego uproszczenia tekstu.
Rozmiar zestawu danych :
1.44 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'full' | 4500 |
- Struktura funkcji :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
aspekt | Etykieta klasy | int64 | ||
oryginał | Tekst | strunowy | ||
oryginalne_zdanie_id | Napinacz | int32 | ||
ocena | Napinacz | int32 | ||
uproszczenie | Tekst | strunowy | ||
identyfikator_pracownika | Napinacz | int32 |
- Przykłady ( tfds.as_dataframe ):