бейр

  • Описание :

BEIR — это гетерогенный бенчмарк, содержащий разнообразные IR-задачи. Он также предоставляет общую и простую основу для оценки ваших моделей поиска на основе НЛП в рамках эталонного теста.

FeaturesDict({
    'passage': Text(shape=(), dtype=tf.string),
    'passage_id': Text(shape=(), dtype=tf.string),
    'passage_metadata': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
    'query_id': Text(shape=(), dtype=tf.string),
    'query_metadata': Text(shape=(), dtype=tf.string),
    'score': tf.float32,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
проход Текст tf.string
pass_id Текст tf.string
pass_metadata Текст tf.string
запрос Текст tf.string
query_id Текст tf.string
query_metadata Текст tf.string
счет Тензор tf.float32
@inproceedings{
    thakur2021beir,
    title={ {BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
    author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
    booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
    year={2021},
    url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}

beir/msmarco (конфигурация по умолчанию)

  • Размер загрузки : 1.01 GiB

  • Размер набора данных : 4.53 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 8 841 823
'query' 509 962
'test' 9139
'train' 516 472
'validation' 7433

бейр/trec_covid

  • Размер загрузки : 70.45 MiB

  • Размер набора данных : 292.04 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 171 332
'query' 50
'test' 35 480

бейр/нфкорпус

  • Размер загрузки : 2.34 MiB

  • Размер набора данных : 24.94 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'passage' 3633
'query' 3237
'test' 3128
'train' 3588
'validation' 3119

бейр/нкв

  • Размер загрузки : 475.22 MiB

  • Размер набора данных : 1.66 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 2 681 468
'query' 3452
'test' 4201

бейр/хотпотка

  • Размер загрузки : 623.73 MiB

  • Размер набора данных : 2.64 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 5 233 329
'query' 97 852
'test' 13 783
'train' 101 307
'validation' 10 335

бейр/фика

  • Размер загрузки : 17.12 MiB

  • Размер набора данных : 73.39 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'passage' 57 638
'query' 6648
'test' 1706
'train' 14 166
'validation' 1238

бейр/аргуана

  • Размер загрузки : 3.60 MiB

  • Размер набора данных : 15.08 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'passage' 8674
'query' 1406
'test' 1401

beir/webis_touche2020

  • Размер загрузки : 216.61 MiB

  • Размер набора данных : 747.57 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 382 545
'query' 49
'test' 2099

beir/cqadupstack.android

  • Размер загрузки : 4.98 GiB

  • Размер набора данных : 883.49 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 22 998
'query' 699
'test' 1696

beir/cqadupstack.english

  • Размер загрузки : 4.98 GiB

  • Размер набора данных : 3.78 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 40 221
'query' 1570
'test' 3765

beir/cqadupstack.gaming

  • Размер загрузки : 4.98 GiB

  • Размер набора данных : 2.64 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 45 301
'query' 1595
'test' 2263

beir/cqadupstack.gis

  • Размер загрузки : 4.98 GiB

  • Размер набора данных : 1.47 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 37 637
'query' 885
'test' 1114

beir/cqadupstack.mathematica

  • Размер загрузки : 4.98 GiB

  • Размер набора данных : 1.58 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 16 705
'query' 804
'test' 1358

beir/cqadupstack.physics

  • Размер загрузки : 4.98 GiB

  • Размер набора данных : 2.02 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 38 316
'query' 1039
'test' 1933

beir/cqadupstack.programmers

  • Размер загрузки : 4.98 GiB

  • Размер набора данных : 2.14 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 32 176
'query' 876
'test' 1675

beir/cqadupstack.stats

  • Размер загрузки : 4.98 GiB

  • Размер набора данных : 941.07 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 42 269
'query' 652
'test' 913

beir/cqadupstack.tex

  • Размер загрузки : 4.98 GiB

  • Размер набора данных : 21.75 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 68 184
'query' 2906
'test' 5154

beir/cqadupstack.unix

  • Размер загрузки : 4.98 GiB

  • Размер набора данных : 2.04 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 47 382
'query' 1072
'test' 1693

beir/cqadupstack.webmasters

  • Размер загрузки : 4.98 GiB

  • Размер набора данных : 650.08 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 17 405
'query' 506
'test' 1395

beir/cqadupstack.wordpress

  • Размер загрузки : 4.98 GiB

  • Размер набора данных : 726.15 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 48 605
'query' 541
'test' 744

бейр/куора

  • Размер загрузки : 15.12 MiB .

  • Размер набора данных : 121.33 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'passage' 522 931
'query' 15 000
'test' 15 675
'validation' 7626

beir/dbpedia_entity

  • Размер загрузки : 609.67 MiB

  • Размер набора данных : 2.47 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 4 635 922
'query' 467
'test' 40 724
'validation' 5658

бейр/сцидокс

  • Размер загрузки : 135.87 MiB

  • Размер набора данных : 573.04 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 25 657
'query' 1000
'test' 25 657

бейр/лихорадка

  • Размер загрузки : 1.15 GiB

  • Размер набора данных : 3.70 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 5 416 568
'query' 123 142
'test' 1499
'train' 12 547
'validation' 1460

бейр/climate_fever

  • Размер загрузки : 1.14 GiB

  • Размер набора данных : 3.64 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'passage' 5 416 593
'query' 1535
'test' 1344

бейр/скифакт

  • Размер загрузки : 2.69 MiB

  • Размер набора данных : 10.16 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'passage' 5183
'query' 1109
'test' 283
'train' 565