истелла

  • Описание :

Наборы данных Istella — это три крупномасштабных набора данных Learning-to-Rank, выпущенных Istella. Каждый набор данных состоит из пар запрос-документ, представленных в виде векторов признаков и соответствующих меток суждения о релевантности.

Набор данных содержит три версии:

  • main ("Istella LETOR"): содержит 10 454 629 пар запрос-документ.
  • s ("Istella-S LETOR"): содержит 3 408 630 пар запрос-документ.
  • x ("Istella-X LETOR"): содержит 26 791 447 пар запрос-документ.

Вы можете указать, использовать ли main , s или x версию набора данных следующим образом:

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

Если указана только istella , по умолчанию выбирается опция istella/main :

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • Домашняя страница : http://quickrank.isti.cnr.it/istella-dataset/

  • Исходный код : tfds.ranking.istella.Istella

  • Версии :

    • 1.0.0 : Первоначальный выпуск.
    • 1.0.1 : исправлена ​​сериализация для поддержки float64.
    • 1.1.0 : Объединение функций в одну функцию «float_features».
    • 1.2.0 (по умолчанию): добавьте идентификаторы запросов и документов.
  • Автоматическое кэширование ( документация ): Нет

  • Структура функции :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
doc_id Тензор (Никто,) int64
float_features Тензор (Нет, 220) поплавок64
этикетка Тензор (Никто,) поплавок64
query_id Текст нить
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (конфигурация по умолчанию)

  • Размер загрузки : 1.20 GiB

  • Размер набора данных : 1.12 GiB

  • Сплиты :

Расколоть Примеры
'test' 9799
'train' 23 219

истелла / с

  • Размер загрузки : 450.26 MiB

  • Размер набора данных : 421.88 MiB .

  • Сплиты :

Расколоть Примеры
'test' 6562
'train' 19 245
'vali' 7 211

истелла/х

  • Размер загрузки : 4.42 GiB

  • Размер набора данных : 2.46 GiB

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 6000
'vali' 2000
,

  • Описание :

Наборы данных Istella — это три крупномасштабных набора данных Learning-to-Rank, выпущенных Istella. Каждый набор данных состоит из пар запрос-документ, представленных в виде векторов признаков и соответствующих меток суждения о релевантности.

Набор данных содержит три версии:

  • main ("Istella LETOR"): содержит 10 454 629 пар запрос-документ.
  • s ("Istella-S LETOR"): содержит 3 408 630 пар запрос-документ.
  • x ("Istella-X LETOR"): содержит 26 791 447 пар запрос-документ.

Вы можете указать, использовать ли main , s или x версию набора данных следующим образом:

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

Если указана только istella , по умолчанию выбирается опция istella/main :

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • Домашняя страница : http://quickrank.isti.cnr.it/istella-dataset/

  • Исходный код : tfds.ranking.istella.Istella

  • Версии :

    • 1.0.0 : Первоначальный выпуск.
    • 1.0.1 : исправлена ​​сериализация для поддержки float64.
    • 1.1.0 : Объединение функций в одну функцию «float_features».
    • 1.2.0 (по умолчанию): добавьте идентификаторы запросов и документов.
  • Автоматическое кэширование ( документация ): Нет

  • Структура функции :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
doc_id Тензор (Никто,) int64
float_features Тензор (Нет, 220) поплавок64
этикетка Тензор (Никто,) поплавок64
query_id Текст нить
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (конфигурация по умолчанию)

  • Размер загрузки : 1.20 GiB

  • Размер набора данных : 1.12 GiB

  • Сплиты :

Расколоть Примеры
'test' 9799
'train' 23 219

истелла / с

  • Размер загрузки : 450.26 MiB

  • Размер набора данных : 421.88 MiB .

  • Сплиты :

Расколоть Примеры
'test' 6562
'train' 19 245
'vali' 7 211

истелла/х

  • Размер загрузки : 4.42 GiB

  • Размер набора данных : 2.46 GiB

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 6000
'vali' 2000