- Mô tả :
Bộ dữ liệu Istella là ba bộ dữ liệu Học để xếp hạng quy mô lớn do Istella phát hành. Mỗi tập dữ liệu bao gồm các cặp tài liệu truy vấn được biểu diễn dưới dạng vectơ đặc trưng và nhãn đánh giá mức độ phù hợp tương ứng.
Bộ dữ liệu chứa ba phiên bản:
-
main
("Istella LETOR"): Chứa 10.454.629 cặp tài liệu truy vấn. -
s
("Istella-S LETOR"): Chứa 3.408.630 cặp tài liệu truy vấn. -
x
("Istella-X LETOR"): Chứa 26.791.447 cặp tài liệu truy vấn.
Bạn có thể chỉ định sử dụng phiên bản main
, s
hay x
của tập dữ liệu như sau:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
Nếu chỉ xác định istella
, tùy chọn istella/main
được chọn theo mặc định:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
Trang chủ : http://quickrank.isti.cnr.it/istella-dataset/
Mã nguồn :
tfds.ranking.istella.Istella
Phiên bản :
-
1.0.0
: Bản phát hành đầu tiên. -
1.0.1
: Sửa tuần tự hóa để hỗ trợ float64. -
1.1.0
: Nhóm các tính năng thành một tính năng 'float_features' duy nhất. -
1.2.0
(mặc định): Thêm số nhận dạng truy vấn và tài liệu.
-
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Cấu trúc tính năng :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Đặc tính | Tầng lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
doc_id | tenxơ | (Không có,) | int64 | |
float_features | tenxơ | (Không, 220) | phao64 | |
nhãn | tenxơ | (Không có,) | phao64 | |
query_id | Chữ | chuỗi |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (cấu hình mặc định)
Kích thước tải xuống :
1.20 GiB
Kích thước tập dữ liệu :
1.12 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 9,799 |
'train' | 23,219 |
- Ví dụ ( tfds.as_dataframe ):
istella/s
Kích thước tải xuống :
450.26 MiB
Kích thước tập dữ liệu :
421.88 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 6,562 |
'train' | 19,245 |
'vali' | 7,211 |
- Ví dụ ( tfds.as_dataframe ):
istella/x
Kích thước tải xuống :
4.42 GiB
Kích thước tập dữ liệu :
2.46 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.000 |
'train' | 6.000 |
'vali' | 2.000 |
- Ví dụ ( tfds.as_dataframe ):