- 説明:
MSLR-WEB は、Microsoft Research によってリリースされた 2 つの大規模な Learning-to-Rank データセットです。最初のデータセット (「30k」と呼ばれる) には 30,000 のクエリが含まれ、2 番目のデータセット (「10k」と呼ばれる) には 10,000 のクエリが含まれます。各データセットは、特徴ベクトルとして表されるクエリとドキュメントのペアと、対応する関連性判断ラベルで構成されます。
データセットの「10k」または「30k」バージョンを使用するかどうか、および対応するフォールドを次のように指定できます。
ds = tfds.load("mslr_web/30k_fold1")
mslr_web
のみが指定されている場合、デフォルトでmslr_web/10k_fold1
オプションが選択されます。
# This is the same as `tfds.load("mslr_web/10k_fold1")`
ds = tfds.load("mslr_web")
ホームページ: https://www.microsoft.com/en-us/research/project/mslr/
ソース コード:
tfds.ranking.mslr_web.MslrWeb
バージョン:
-
1.0.0
: 初期リリース。 -
1.1.0
: 機能を単一の「float_features」機能にバンドルします。 -
1.2.0
(デフォルト): クエリとドキュメントの識別子を追加します。
-
自動キャッシュ(ドキュメント): いいえ
機能構造:
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 136), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
doc_id | テンソル | (なし、) | int64 | |
float_features | テンソル | (なし、136) | float64 | |
ラベル | テンソル | (なし、) | float64 | |
query_id | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@article{DBLP:journals/corr/QinL13,
author = {Tao Qin and Tie{-}Yan Liu},
title = {Introducing {LETOR} 4.0 Datasets},
journal = {CoRR},
volume = {abs/1306.2597},
year = {2013},
url = {http://arxiv.org/abs/1306.2597},
timestamp = {Mon, 01 Jul 2013 20:31:25 +0200},
biburl = {http://dblp.uni-trier.de/rec/bib/journals/corr/QinL13},
bibsource = {dblp computer science bibliography, http://dblp.org}
}
mslr_web/10k_fold1 (デフォルト設定)
ダウンロードサイズ:
1.15 GiB
データセットのサイズ:
310.08 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 例( tfds.as_dataframe ):
mslr_web/10k_fold2
ダウンロードサイズ:
1.15 GiB
データセットのサイズ:
310.08 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 例( tfds.as_dataframe ):
mslr_web/10k_fold3
ダウンロードサイズ:
1.15 GiB
データセットのサイズ:
310.08 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 例( tfds.as_dataframe ):
mslr_web/10k_fold4
ダウンロードサイズ:
1.15 GiB
データセットのサイズ:
310.08 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 例( tfds.as_dataframe ):
mslr_web/10k_fold5
ダウンロードサイズ:
1.15 GiB
データセットのサイズ:
310.08 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 例( tfds.as_dataframe ):
mslr_web/30k_fold1
ダウンロードサイズ:
3.59 GiB
データセットサイズ:
964.09 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 6,306 |
'train' | 18,919 |
'vali' | 6,306 |
- 例( tfds.as_dataframe ):
mslr_web/30k_fold2
ダウンロードサイズ:
3.59 GiB
データセットサイズ:
964.09 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 6,307 |
'train' | 18,918 |
'vali' | 6,306 |
- 例( tfds.as_dataframe ):
mslr_web/30k_fold3
ダウンロードサイズ:
3.59 GiB
データセットサイズ:
964.09 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 6,306 |
'train' | 18,918 |
'vali' | 6,307 |
- 例( tfds.as_dataframe ):
mslr_web/30k_fold4
ダウンロードサイズ:
3.59 GiB
データセットサイズ:
964.09 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 6,306 |
'train' | 18,919 |
'vali' | 6,306 |
- 例( tfds.as_dataframe ):
mslr_web/30k_fold5
ダウンロードサイズ:
3.59 GiB
データセットサイズ:
964.09 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 6,306 |
'train' | 18,919 |
'vali' | 6,306 |
- 例( tfds.as_dataframe ):