- Deskripsi :
BEIR adalah tolok ukur heterogen yang berisi beragam tugas IR. Ini juga menyediakan kerangka umum dan mudah untuk evaluasi model pengambilan berbasis NLP Anda dalam tolok ukur.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/beir-cellar/beir
Kode sumber :
tfds.datasets.beir.Builder
Versi :
-
1.0.0
(default): Rilis awal.
-
Struktur fitur :
FeaturesDict({
'passage': Text(shape=(), dtype=string),
'passage_id': Text(shape=(), dtype=string),
'passage_metadata': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
'query_id': Text(shape=(), dtype=string),
'query_metadata': Text(shape=(), dtype=string),
'score': float32,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
jalan | Teks | rangkaian | ||
pass_id | Teks | rangkaian | ||
bagian_metadata | Teks | rangkaian | ||
pertanyaan | Teks | rangkaian | ||
query_id | Teks | rangkaian | ||
kueri_metadata | Teks | rangkaian | ||
skor | Tensor | float32 |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{
thakur2021beir,
title={ {BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
year={2021},
url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}
beir/msmarco (konfigurasi default)
Ukuran unduhan :
1.01 GiB
Ukuran dataset :
4.53 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 8.841.823 |
'query' | 509.962 |
'test' | 9.139 |
'train' | 516.472 |
'validation' | 7.433 |
- Contoh ( tfds.as_dataframe ):
beir/trec_covid
Ukuran unduhan :
70.45 MiB
Ukuran dataset :
292.04 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 171.332 |
'query' | 50 |
'test' | 35.480 |
- Contoh ( tfds.as_dataframe ):
beir/nfcorpus
Ukuran unduhan :
2.34 MiB
Ukuran dataset :
24.94 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 3.633 |
'query' | 3.237 |
'test' | 3.128 |
'train' | 3.588 |
'validation' | 3.119 |
- Contoh ( tfds.as_dataframe ):
beir/nq
Ukuran unduhan :
475.22 MiB
Ukuran dataset :
1.66 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 2.681.468 |
'query' | 3.452 |
'test' | 4.201 |
- Contoh ( tfds.as_dataframe ):
beir/hotpotqa
Ukuran unduhan :
623.73 MiB
Ukuran dataset :
2.64 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 5.233.329 |
'query' | 97.852 |
'test' | 13.783 |
'train' | 101.307 |
'validation' | 10.335 |
- Contoh ( tfds.as_dataframe ):
beir/fiqa
Ukuran unduhan :
17.12 MiB
Ukuran dataset :
73.39 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 57.638 |
'query' | 6.648 |
'test' | 1.706 |
'train' | 14.166 |
'validation' | 1.238 |
- Contoh ( tfds.as_dataframe ):
beir/arguana
Ukuran unduhan :
3.60 MiB
Ukuran dataset :
15.08 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 8.674 |
'query' | 1.406 |
'test' | 1.401 |
- Contoh ( tfds.as_dataframe ):
beir/webis_touche2020
Ukuran unduhan :
216.61 MiB
Ukuran dataset :
747.57 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 382.545 |
'query' | 49 |
'test' | 2.099 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.android
Ukuran unduhan :
4.98 GiB
Ukuran dataset :
883.49 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 22.998 |
'query' | 699 |
'test' | 1.696 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.english
Ukuran unduhan :
4.98 GiB
Ukuran dataset :
3.78 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 40.221 |
'query' | 1.570 |
'test' | 3.765 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.gaming
Ukuran unduhan :
4.98 GiB
Ukuran dataset :
2.64 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 45.301 |
'query' | 1.595 |
'test' | 2.263 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.gis
Ukuran unduhan :
4.98 GiB
Ukuran dataset :
1.47 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 37.637 |
'query' | 885 |
'test' | 1.114 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.mathematica
Ukuran unduhan :
4.98 GiB
Ukuran dataset :
1.58 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 16.705 |
'query' | 804 |
'test' | 1.358 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.physics
Ukuran unduhan :
4.98 GiB
Ukuran dataset :
2.02 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 38.316 |
'query' | 1.039 |
'test' | 1.933 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.programmers
Ukuran unduhan :
4.98 GiB
Ukuran dataset :
2.14 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 32.176 |
'query' | 876 |
'test' | 1.675 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.stats
Ukuran unduhan :
4.98 GiB
Ukuran dataset :
941.07 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 42.269 |
'query' | 652 |
'test' | 913 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.tex
Ukuran unduhan :
4.98 GiB
Ukuran dataset :
21.75 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 68.184 |
'query' | 2.906 |
'test' | 5.154 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.unix
Ukuran unduhan :
4.98 GiB
Ukuran dataset :
2.04 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 47.382 |
'query' | 1.072 |
'test' | 1.693 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.webmasters
Ukuran unduhan :
4.98 GiB
Ukuran dataset :
650.08 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 17.405 |
'query' | 506 |
'test' | 1.395 |
- Contoh ( tfds.as_dataframe ):
beir/cqadupstack.wordpress
Ukuran unduhan :
4.98 GiB
Ukuran dataset :
726.15 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 48.605 |
'query' | 541 |
'test' | 744 |
- Contoh ( tfds.as_dataframe ):
beir/quora
Ukuran unduhan :
15.12 MiB
Ukuran dataset :
121.33 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 522.931 |
'query' | 15.000 |
'test' | 15.675 |
'validation' | 7.626 |
- Contoh ( tfds.as_dataframe ):
beir/dbpedia_entity
Ukuran unduhan :
609.67 MiB
Ukuran dataset :
2.47 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 4.635.922 |
'query' | 467 |
'test' | 40.724 |
'validation' | 5.658 |
- Contoh ( tfds.as_dataframe ):
beir/scidocs
Ukuran unduhan :
135.87 MiB
Ukuran dataset :
573.04 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 25.657 |
'query' | 1.000 |
'test' | 25.657 |
- Contoh ( tfds.as_dataframe ):
bir/demam
Ukuran unduhan :
1.15 GiB
Ukuran dataset :
3.70 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 5.416.568 |
'query' | 123.142 |
'test' | 1.499 |
'train' | 12.547 |
'validation' | 1.460 |
- Contoh ( tfds.as_dataframe ):
beir/climate_fever
Ukuran unduhan :
1.14 GiB
Ukuran dataset :
3.64 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 5.416.593 |
'query' | 1.535 |
'test' | 1.344 |
- Contoh ( tfds.as_dataframe ):
bir / scifact
Ukuran unduhan :
2.69 MiB
Ukuran dataset :
10.16 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'passage' | 5.183 |
'query' | 1.109 |
'test' | 283 |
'train' | 565 |
- Contoh ( tfds.as_dataframe ):