istella

  • Mô tả :

Bộ dữ liệu Istella là ba bộ dữ liệu Học để xếp hạng quy mô lớn do Istella phát hành. Mỗi tập dữ liệu bao gồm các cặp tài liệu truy vấn được biểu diễn dưới dạng vectơ đặc trưng và nhãn đánh giá mức độ phù hợp tương ứng.

Bộ dữ liệu chứa ba phiên bản:

  • main ("Istella LETOR"): Chứa 10.454.629 cặp tài liệu truy vấn.
  • s ("Istella-S LETOR"): Chứa 3.408.630 cặp tài liệu truy vấn.
  • x ("Istella-X LETOR"): Chứa 26.791.447 cặp tài liệu truy vấn.

Bạn có thể chỉ định sử dụng phiên bản main , s hay x của tập dữ liệu như sau:

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

Nếu chỉ xác định istella , tùy chọn istella/main được chọn theo mặc định:

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • Trang chủ : http://quickrank.isti.cnr.it/istella-dataset/

  • Mã nguồn : tfds.ranking.istella.Istella

  • Phiên bản :

    • 1.0.0 : Bản phát hành đầu tiên.
    • 1.0.1 : Sửa tuần tự hóa để hỗ trợ float64.
    • 1.1.0 : Nhóm các tính năng thành một tính năng 'float_features' duy nhất.
    • 1.2.0 (mặc định): Thêm số nhận dạng truy vấn và tài liệu.
  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Cấu trúc tính năng :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Đặc tính Tầng lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
doc_id tenxơ (Không có,) int64
float_features tenxơ (Không, 220) phao64
nhãn tenxơ (Không có,) phao64
query_id Chữ chuỗi
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (cấu hình mặc định)

  • Kích thước tải xuống : 1.20 GiB

  • Kích thước tập dữ liệu : 1.12 GiB

  • Chia tách :

Tách ra ví dụ
'test' 9,799
'train' 23,219

istella/s

  • Kích thước tải xuống : 450.26 MiB

  • Kích thước tập dữ liệu : 421.88 MiB

  • Chia tách :

Tách ra ví dụ
'test' 6,562
'train' 19,245
'vali' 7,211

istella/x

  • Kích thước tải xuống : 4.42 GiB

  • Kích thước tập dữ liệu : 2.46 GiB

  • Chia tách :

Tách ra ví dụ
'test' 2.000
'train' 6.000
'vali' 2.000