- Deskripsi :
Teks pembersihan untuk halaman edisi 40+ bahasa Wikipedia sesuai dengan entitas. Kumpulan data memiliki pemisahan pelatihan/pengembangan/pengujian per bahasa. Kumpulan data dibersihkan dengan pemfilteran halaman untuk menghapus halaman disambiguasi, halaman pengalihan, halaman yang dihapus, dan halaman non-entitas. Setiap contoh berisi id data wiki dari entitas tersebut, dan artikel Wikipedia lengkap setelah pemrosesan halaman yang menghapus bagian non-konten dan objek terstruktur. Model bahasa yang dilatih pada korpus ini - termasuk 41 model monolingual, dan 2 model multibahasa - dapat ditemukan di https://tfhub.dev/google/collections/wiki40b-lm/1
Dokumentasi Tambahan : Jelajahi Makalah Dengan Kode
Beranda : https://research.google/pubs/pub49029/
Kode sumber :
tfds.text.Wiki40b
Versi :
-
1.3.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
Unknown size
Struktur fitur :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
teks | Teks | rangkaian | ||
versi_id | Teks | rangkaian | ||
wikidata_id | Teks | rangkaian |
Kunci yang diawasi (Lihat dokumen
as_supervised
):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (konfigurasi bawaan)
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk en.
Ukuran kumpulan data :
9.91 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 162.274 |
'train' | 2.926.536 |
'validation' | 163.597 |
- Contoh ( tfds.as_dataframe ):
wiki40b/ar
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk ar.
Ukuran kumpulan data :
833.20 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 12.271 |
'train' | 220.885 |
'validation' | 12.198 |
- Contoh ( tfds.as_dataframe ):
wiki40b/zh-cn
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk zh-cn.
Ukuran kumpulan data :
985.53 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 30.355 |
'train' | 549.672 |
'validation' | 30.299 |
- Contoh ( tfds.as_dataframe ):
wiki40b/zh-tw
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk zh-tw.
Ukuran kumpulan data :
986.45 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 30.670 |
'train' | 552.031 |
'validation' | 30.739 |
- Contoh ( tfds.as_dataframe ):
wiki40b/nl
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk nl.
Ukuran kumpulan data :
961.82 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 24.776 |
'train' | 447.555 |
'validation' | 25.201 |
- Contoh ( tfds.as_dataframe ):
wiki40b/fr
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk fr.
Ukuran kumpulan data :
3.37 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 68.004 |
'train' | 1.227.206 |
'validation' | 68.655 |
- Contoh ( tfds.as_dataframe ):
wiki40b/de
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk de.
Ukuran kumpulan data :
4.78 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 86.594 |
'train' | 1.554.910 |
'validation' | 86.068 |
- Contoh ( tfds.as_dataframe ):
wiki40b/itu
Deskripsi konfigurasi : kumpulan data Wiki40B untuknya.
Ukuran kumpulan data :
2.00 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 40.443 |
'train' | 732.609 |
'validation' | 40.684 |
- Contoh ( tfds.as_dataframe ):
wiki40b/ja
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk ja.
Ukuran kumpulan data :
2.19 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 41.268 |
'train' | 745.392 |
'validation' | 41.576 |
- Contoh ( tfds.as_dataframe ):
wiki40b/ko
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk ko.
Ukuran kumpulan data :
453.98 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 10.802 |
'train' | 194.977 |
'validation' | 10.805 |
- Contoh ( tfds.as_dataframe ):
wiki40b/pl
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk pl.
Ukuran kumpulan data :
1.03 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 27.987 |
'train' | 505.191 |
'validation' | 28.310 |
- Contoh ( tfds.as_dataframe ):
wiki40b/pt
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk pt.
Ukuran kumpulan data :
1.08 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 22.693 |
'train' | 406.507 |
'validation' | 22.301 |
- Contoh ( tfds.as_dataframe ):
wiki40b/ru
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk ru.
Ukuran kumpulan data :
4.13 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 51.885 |
'train' | 926.037 |
'validation' | 51.287 |
- Contoh ( tfds.as_dataframe ):
wiki40b/es
Deskripsi konfigurasi : kumpulan data Wiki40B untuk es.
Ukuran kumpulan data :
2.70 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 48.764 |
'train' | 872.541 |
'validation' | 48.592 |
- Contoh ( tfds.as_dataframe ):
wiki40b/th
Deskripsi konfigurasi : kumpulan data Wiki40B untuk th.
Ukuran kumpulan data :
326.29 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 3.114 |
'train' | 56.798 |
'validation' | 3.093 |
- Contoh ( tfds.as_dataframe ):
wiki40b/tr
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk tr.
Ukuran kumpulan data :
308.87 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 7.890 |
'train' | 142.576 |
'validation' | 7.845 |
- Contoh ( tfds.as_dataframe ):
wiki40b/bg
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk bg.
Ukuran kumpulan data :
433.20 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 7.289 |
'train' | 130.670 |
'validation' | 7.259 |
- Contoh ( tfds.as_dataframe ):
wiki40b/ca
Deskripsi konfigurasi : kumpulan data Wiki40B untuk ca.
Ukuran kumpulan data :
753.00 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 15.568 |
'train' | 277.313 |
'validation' | 15.362 |
- Contoh ( tfds.as_dataframe ):
wiki40b/cs
Deskripsi konfigurasi : kumpulan data Wiki40B untuk cs.
Ukuran kumpulan data :
631.84 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 12.984 |
'train' | 235.971 |
'validation' | 13.096 |
- Contoh ( tfds.as_dataframe ):
wiki40b/da
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk da.
Ukuran kumpulan data :
240.51 MiB
Cache otomatis ( dokumentasi ): Ya (pengujian, validasi), Hanya ketika
shuffle_files=False
(latihan)Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.219 |
'train' | 109.486 |
'validation' | 6.173 |
- Contoh ( tfds.as_dataframe ):
wiki40b/el
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk el.
Ukuran kumpulan data :
524.77 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 5.261 |
'train' | 93.596 |
'validation' | 5.130 |
- Contoh ( tfds.as_dataframe ):
wiki40b/et
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk et.
Ukuran kumpulan data :
184.07 MiB
Cache otomatis ( dokumentasi ): Ya (pengujian, validasi), Hanya ketika
shuffle_files=False
(latihan)Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.205 |
'train' | 114.464 |
'validation' | 6.351 |
- Contoh ( tfds.as_dataframe ):
wiki40b/fa
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk fa.
Ukuran kumpulan data :
482.55 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 11.262 |
'train' | 203.145 |
'validation' | 11.180 |
- Contoh ( tfds.as_dataframe ):
wiki40b/fi
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk fi.
Ukuran kumpulan data :
534.13 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 14.179 |
'train' | 255.822 |
'validation' | 13.962 |
- Contoh ( tfds.as_dataframe ):
wiki40b/dia
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk dia.
Ukuran kumpulan data :
869.51 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 9.344 |
'train' | 165.359 |
'validation' | 9.231 |
- Contoh ( tfds.as_dataframe ):
wiki40b/hai
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk hai.
Ukuran kumpulan data :
277.56 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.643 |
'train' | 45.737 |
'validation' | 2.596 |
- Contoh ( tfds.as_dataframe ):
wiki40b/jam
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk jam.
Ukuran kumpulan data :
235.58 MiB
Cache otomatis ( dokumentasi ): Ya (pengujian, validasi), Hanya ketika
shuffle_files=False
(latihan)Perpecahan :
Membelah | Contoh |
---|---|
'test' | 5.724 |
'train' | 103.857 |
'validation' | 5.792 |
- Contoh ( tfds.as_dataframe ):
wiki40b/hu
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk hu.
Ukuran kumpulan data :
634.25 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 15.258 |
'train' | 273.248 |
'validation' | 15.208 |
- Contoh ( tfds.as_dataframe ):
wiki40b/id
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk id.
Ukuran kumpulan data :
334.06 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 8.598 |
'train' | 156.255 |
'validation' | 8.714 |
- Contoh ( tfds.as_dataframe ):
wiki40b/lt
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk lt.
Ukuran kumpulan data :
140.46 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 4.683 |
'train' | 84.854 |
'validation' | 4.754 |
- Contoh ( tfds.as_dataframe ):
wiki40b/lv
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk lv.
Ukuran kumpulan data :
80.07 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.932 |
'train' | 33.064 |
'validation' | 1.857 |
- Contoh ( tfds.as_dataframe ):
wiki40b/ms
Deskripsi konfigurasi : kumpulan data Wiki40B untuk ms.
Ukuran kumpulan data :
142.49 MiB
Cache otomatis ( dokumentasi ): Ya (pengujian, validasi), Hanya ketika
shuffle_files=False
(latihan)Perpecahan :
Membelah | Contoh |
---|---|
'test' | 5.235 |
'train' | 97.509 |
'validation' | 5.357 |
- Contoh ( tfds.as_dataframe ):
wiki40b/tidak
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk no.
Ukuran kumpulan data :
382.03 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 10.588 |
'train' | 190.588 |
'validation' | 10.547 |
- Contoh ( tfds.as_dataframe ):
wiki40b/ro
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk ro.
Ukuran kumpulan data :
319.68 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 7.870 |
'train' | 139.615 |
'validation' | 7.624 |
- Contoh ( tfds.as_dataframe ):
wiki40b/sk
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk sk.
Ukuran kumpulan data :
170.20 MiB
Cache otomatis ( dokumentasi ): Ya (pengujian, validasi), Hanya ketika
shuffle_files=False
(latihan)Perpecahan :
Membelah | Contoh |
---|---|
'test' | 5.741 |
'train' | 103.095 |
'validation' | 5.604 |
- Contoh ( tfds.as_dataframe ):
wiki40b/sl
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk sl.
Ukuran kumpulan data :
157.38 MiB
Cache otomatis ( dokumentasi ): Ya (pengujian, validasi), Hanya ketika
shuffle_files=False
(latihan)Perpecahan :
Membelah | Contoh |
---|---|
'test' | 3.341 |
'train' | 60.927 |
'validation' | 3.287 |
- Contoh ( tfds.as_dataframe ):
wiki40b/sr
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk sr.
Ukuran kumpulan data :
582.20 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 17.997 |
'train' | 327.313 |
'validation' | 18.100 |
- Contoh ( tfds.as_dataframe ):
wiki40b/sv
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk sv.
Ukuran kumpulan data :
613.62 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 22.291 |
'train' | 400.742 |
'validation' | 22.263 |
- Contoh ( tfds.as_dataframe ):
wiki40b/tl
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk tl.
Ukuran kumpulan data :
29.04 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.446 |
'train' | 25.940 |
'validation' | 1.472 |
- Contoh ( tfds.as_dataframe ):
wiki40b/uk
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk Inggris.
Ukuran kumpulan data :
1.67 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 26.581 |
'train' | 477.618 |
'validation' | 26.324 |
- Contoh ( tfds.as_dataframe ):
wiki40b/vi
Deskripsi konfigurasi : Kumpulan data Wiki40B untuk vi.
Ukuran kumpulan data :
497.70 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 7.942 |
'train' | 146.255 |
'validation' | 8.195 |
- Contoh ( tfds.as_dataframe ):