istella

  • 説明:

Istella データセットは、Istella がリリースした 3 つの大規模な Learning-to-Rank データセットです。各データセットは、特徴ベクトルとして表されるクエリとドキュメントのペアと、対応する関連性判断ラベルで構成されます。

データセットには 3 つのバージョンが含まれています。

  • main ("Istella LETOR"): 10,454,629 のクエリとドキュメントのペアが含まれています。
  • s ("Istella-S LETOR"): 3,408,630 のクエリとドキュメントのペアが含まれています。
  • x ("Istella-X LETOR"): 26,791,447 のクエリとドキュメントのペアが含まれています。

次のように、データセットのmainバージョン、 sバージョン、またはxバージョンのいずれを使用するかを指定できます。

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

istellaのみが指定されている場合、デフォルトでistella/mainオプションが選択されます。

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • ホームページ: http://quickrank.isti.cnr.it/istella-dataset/

  • ソース コード: tfds.ranking.istella.Istella

  • バージョン:

    • 1.0.0 : 初期リリース。
    • 1.0.1 : float64 をサポートするようにシリアル化を修正しました。
    • 1.1.0 : 機能を単一の「float_features」機能にバンドルします。
    • 1.2.0 (デフォルト): クエリとドキュメントの識別子を追加します。
  • 自動キャッシュ(ドキュメント): いいえ

  • 機能構造:

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
doc_idテンソル(なし、) int64
float_featuresテンソル(なし、220) float64
ラベルテンソル(なし、) float64
query_id文章ストリング
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (デフォルト設定)

  • ダウンロードサイズ: 1.20 GiB

  • データセットサイズ: 1.12 GiB

  • スプリット:

スプリット
'test' 9,799
'train' 23,219

イステラ

  • ダウンロードサイズ: 450.26 MiB

  • データセットサイズ: 421.88 MiB

  • スプリット:

スプリット
'test' 6,562
'train' 19,245
'vali' 7,211

イステラ/エックス

  • ダウンロードサイズ: 4.42 GiB

  • データセットサイズ: 2.46 GiB

  • スプリット:

スプリット
'test' 2,000
'train' 6,000
'vali' 2,000

  • 説明:

Istella データセットは、Istella がリリースした 3 つの大規模な Learning-to-Rank データセットです。各データセットは、特徴ベクトルとして表されるクエリとドキュメントのペアと、対応する関連性判断ラベルで構成されます。

データセットには 3 つのバージョンが含まれています。

  • main ("Istella LETOR"): 10,454,629 のクエリとドキュメントのペアが含まれています。
  • s ("Istella-S LETOR"): 3,408,630 のクエリとドキュメントのペアが含まれています。
  • x ("Istella-X LETOR"): 26,791,447 のクエリとドキュメントのペアが含まれています。

次のように、データセットのmainバージョン、 sバージョン、またはxバージョンのいずれを使用するかを指定できます。

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

istellaのみが指定されている場合、デフォルトでistella/mainオプションが選択されます。

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • ホームページ: http://quickrank.isti.cnr.it/istella-dataset/

  • ソース コード: tfds.ranking.istella.Istella

  • バージョン:

    • 1.0.0 : 初期リリース。
    • 1.0.1 : float64 をサポートするようにシリアル化を修正しました。
    • 1.1.0 : 機能を単一の「float_features」機能にバンドルします。
    • 1.2.0 (デフォルト): クエリとドキュメントの識別子を追加します。
  • 自動キャッシュ(ドキュメント): いいえ

  • 機能構造:

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
doc_idテンソル(なし、) int64
float_featuresテンソル(なし、220) float64
ラベルテンソル(なし、) float64
query_id文章ストリング
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (デフォルト設定)

  • ダウンロードサイズ: 1.20 GiB

  • データセットサイズ: 1.12 GiB

  • スプリット:

スプリット
'test' 9,799
'train' 23,219

イステラ

  • ダウンロードサイズ: 450.26 MiB

  • データセットサイズ: 421.88 MiB

  • スプリット:

スプリット
'test' 6,562
'train' 19,245
'vali' 7,211

イステラ/エックス

  • ダウンロードサイズ: 4.42 GiB

  • データセットサイズ: 2.46 GiB

  • スプリット:

スプリット
'test' 2,000
'train' 6,000
'vali' 2,000