- Descriptif :
BEIR est un benchmark hétérogène contenant diverses tâches IR. Il fournit également un cadre commun et simple pour l'évaluation de vos modèles de récupération basés sur la PNL au sein de la référence.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/beir-cellar/beir
Code source :
tfds.datasets.beir.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Structure des fonctionnalités :
FeaturesDict({
'passage': Text(shape=(), dtype=string),
'passage_id': Text(shape=(), dtype=string),
'passage_metadata': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
'query_id': Text(shape=(), dtype=string),
'query_metadata': Text(shape=(), dtype=string),
'score': float32,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
passage | Texte | chaîne de caractères | ||
passage_id | Texte | chaîne de caractères | ||
passage_metadata | Texte | chaîne de caractères | ||
requête | Texte | chaîne de caractères | ||
ID_requête | Texte | chaîne de caractères | ||
requête_métadonnées | Texte | chaîne de caractères | ||
score | Tenseur | float32 |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{
thakur2021beir,
title={ {BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
year={2021},
url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}
beir/msmarco (configuration par défaut)
Taille du téléchargement :
1.01 GiB
Taille du jeu de données :
4.53 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 8 841 823 |
'query' | 509 962 |
'test' | 9 139 |
'train' | 516 472 |
'validation' | 7 433 |
- Exemples ( tfds.as_dataframe ):
beir/trec_covid
Taille du téléchargement :
70.45 MiB
Taille du jeu de données :
292.04 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 171 332 |
'query' | 50 |
'test' | 35 480 |
- Exemples ( tfds.as_dataframe ):
beir/nfcorpus
Taille du téléchargement :
2.34 MiB
Taille du jeu de données :
24.94 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 3 633 |
'query' | 3 237 |
'test' | 3 128 |
'train' | 3 588 |
'validation' | 3 119 |
- Exemples ( tfds.as_dataframe ):
beir/nq
Taille du téléchargement :
475.22 MiB
Taille du jeu de données :
1.66 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 2 681 468 |
'query' | 3 452 |
'test' | 4 201 |
- Exemples ( tfds.as_dataframe ):
beir/chaudpotqa
Taille du téléchargement :
623.73 MiB
Taille du jeu de données :
2.64 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 5 233 329 |
'query' | 97 852 |
'test' | 13 783 |
'train' | 101 307 |
'validation' | 10 335 |
- Exemples ( tfds.as_dataframe ):
beir/fiqa
Taille du téléchargement :
17.12 MiB
Taille du jeu de données :
73.39 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 57 638 |
'query' | 6 648 |
'test' | 1 706 |
'train' | 14 166 |
'validation' | 1 238 |
- Exemples ( tfds.as_dataframe ):
beir/arguana
Taille du téléchargement :
3.60 MiB
Taille du jeu de données :
15.08 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 8 674 |
'query' | 1 406 |
'test' | 1 401 |
- Exemples ( tfds.as_dataframe ):
beir/webis_touche2020
Taille du téléchargement :
216.61 MiB
Taille du jeu de données :
747.57 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 382 545 |
'query' | 49 |
'test' | 2 099 |
- Exemples ( tfds.as_dataframe ):
beir/cqadupstack.android
Taille du téléchargement :
4.98 GiB
Taille du jeu de données :
883.49 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 22 998 |
'query' | 699 |
'test' | 1 696 |
- Exemples ( tfds.as_dataframe ):
beir/cqadupstack.francais
Taille du téléchargement :
4.98 GiB
Taille du jeu de données :
3.78 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 40 221 |
'query' | 1 570 |
'test' | 3 765 |
- Exemples ( tfds.as_dataframe ):
beir/cqadupstack.gaming
Taille du téléchargement :
4.98 GiB
Taille du jeu de données :
2.64 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 45 301 |
'query' | 1 595 |
'test' | 2 263 |
- Exemples ( tfds.as_dataframe ):
beir/cqadupstack.gis
Taille du téléchargement :
4.98 GiB
Taille du jeu de données :
1.47 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 37 637 |
'query' | 885 |
'test' | 1 114 |
- Exemples ( tfds.as_dataframe ):
beir/cqadupstack.mathematica
Taille du téléchargement :
4.98 GiB
Taille du jeu de données :
1.58 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 16 705 |
'query' | 804 |
'test' | 1 358 |
- Exemples ( tfds.as_dataframe ):
beir/cqadupstack.physique
Taille du téléchargement :
4.98 GiB
Taille du jeu de données :
2.02 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 38 316 |
'query' | 1 039 |
'test' | 1 933 |
- Exemples ( tfds.as_dataframe ):
programmeurs beir/cqadupstack
Taille du téléchargement :
4.98 GiB
Taille du jeu de données :
2.14 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 32 176 |
'query' | 876 |
'test' | 1 675 |
- Exemples ( tfds.as_dataframe ):
beir/cqadupstack.stats
Taille du téléchargement :
4.98 GiB
Taille du jeu de données :
941.07 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 42 269 |
'query' | 652 |
'test' | 913 |
- Exemples ( tfds.as_dataframe ):
beir/cqadupstack.tex
Taille du téléchargement :
4.98 GiB
Taille du jeu de données :
21.75 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 68 184 |
'query' | 2 906 |
'test' | 5 154 |
- Exemples ( tfds.as_dataframe ):
beir/cqadupstack.unix
Taille du téléchargement :
4.98 GiB
Taille du jeu de données :
2.04 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 47 382 |
'query' | 1 072 |
'test' | 1 693 |
- Exemples ( tfds.as_dataframe ):
beir/cqadupstack.webmasters
Taille du téléchargement :
4.98 GiB
Taille du jeu de données :
650.08 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 17 405 |
'query' | 506 |
'test' | 1 395 |
- Exemples ( tfds.as_dataframe ):
beir/cqadupstack.wordpress
Taille du téléchargement :
4.98 GiB
Taille du jeu de données :
726.15 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 48 605 |
'query' | 541 |
'test' | 744 |
- Exemples ( tfds.as_dataframe ):
beir/quora
Taille du téléchargement :
15.12 MiB
Taille du jeu de données :
121.33 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 522 931 |
'query' | 15 000 |
'test' | 15 675 |
'validation' | 7 626 |
- Exemples ( tfds.as_dataframe ):
beir/dbpedia_entity
Taille du téléchargement :
609.67 MiB
Taille du jeu de données :
2.47 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 4 635 922 |
'query' | 467 |
'test' | 40 724 |
'validation' | 5 658 |
- Exemples ( tfds.as_dataframe ):
beir/scidocs
Taille du téléchargement :
135.87 MiB
Taille du jeu de données :
573.04 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 25 657 |
'query' | 1 000 |
'test' | 25 657 |
- Exemples ( tfds.as_dataframe ):
beir/fièvre
Taille du téléchargement :
1.15 GiB
Taille du jeu de données :
3.70 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 5 416 568 |
'query' | 123 142 |
'test' | 1 499 |
'train' | 12 547 |
'validation' | 1 460 |
- Exemples ( tfds.as_dataframe ):
beir/fièvre_climatique
Taille du téléchargement :
1.14 GiB
Taille du jeu de données :
3.64 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 5 416 593 |
'query' | 1 535 |
'test' | 1 344 |
- Exemples ( tfds.as_dataframe ):
beir/scifact
Taille du téléchargement :
2.69 MiB
Taille du jeu de données :
10.16 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'passage' | 5 183 |
'query' | 1 109 |
'test' | 283 |
'train' | 565 |
- Exemples ( tfds.as_dataframe ):