istella

  • คำอธิบาย :

ชุดข้อมูล Istella เป็นชุดข้อมูล Learning-to-Rank ขนาดใหญ่ 3 ชุดที่เผยแพร่โดย Istella ชุดข้อมูลแต่ละชุดประกอบด้วยคู่ของคิวรี-เอกสารที่แสดงเป็นเวกเตอร์คุณลักษณะและป้ายกำกับการตัดสินความเกี่ยวข้องที่สอดคล้องกัน

ชุดข้อมูลมีสามเวอร์ชัน:

  • main ("Istella LETOR"): มีคู่เอกสารการสืบค้น 10,454,629 คู่
  • s ("Istella-S LETOR"): มีคู่เอกสารแบบสอบถาม 3,408,630 คู่
  • x ("Istella-X LETOR"): มีคู่เอกสารการสืบค้น 26,791,447 คู่

คุณสามารถระบุว่าจะใช้ชุดข้อมูลเวอร์ชัน main , s หรือ x ดังต่อไปนี้:

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

หากระบุเฉพาะ istella ตัวเลือก istella/main จะถูกเลือกตามค่าเริ่มต้น:

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • หน้าแรก : http://quickrank.isti.cnr.it/istella-dataset/

  • รหัสที่มา : tfds.ranking.istella.Istella

  • รุ่น :

    • 1.0.0 : การเปิดตัวครั้งแรก
    • 1.0.1 : แก้ไขการทำให้เป็นอนุกรมเพื่อรองรับ float64
    • 1.1.0 : รวมคุณสมบัติเป็นคุณสมบัติ 'float_features' เดียว
    • 1.2.0 (ค่าเริ่มต้น): เพิ่มตัวระบุการค้นหาและเอกสาร
  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • โครงสร้างคุณลักษณะ :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
doc_id เทนเซอร์ (ไม่มี,) int64
float_features เทนเซอร์ (ไม่มี 220) float64
ฉลาก เทนเซอร์ (ไม่มี,) float64
แบบสอบถาม_id ข้อความ สตริง
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (การกำหนดค่าเริ่มต้น)

  • ขนาดการดาวน์โหลด : 1.20 GiB

  • ขนาดชุดข้อมูล : 1.12 GiB

  • แยก :

แยก ตัวอย่าง
'test' 9,799
'train' 23,219

อิสเทลล่า/เอส

  • ขนาดการดาวน์โหลด : 450.26 MiB

  • ขนาดชุดข้อมูล : 421.88 MiB

  • แยก :

แยก ตัวอย่าง
'test' 6,562
'train' 19,245
'vali' 7,211

อิสเตลลา/x

  • ขนาดการดาวน์โหลด : 4.42 GiB

  • ขนาดชุดข้อมูล : 2.46 GiB

  • แยก :

แยก ตัวอย่าง
'test' 2,000
'train' 6,000
'vali' 2,000
,

  • คำอธิบาย :

ชุดข้อมูล Istella เป็นชุดข้อมูล Learning-to-Rank ขนาดใหญ่ 3 ชุดที่เผยแพร่โดย Istella ชุดข้อมูลแต่ละชุดประกอบด้วยคู่ของคิวรี-เอกสารที่แสดงเป็นเวกเตอร์คุณลักษณะและป้ายกำกับการตัดสินความเกี่ยวข้องที่สอดคล้องกัน

ชุดข้อมูลมีสามเวอร์ชัน:

  • main ("Istella LETOR"): มีคู่เอกสารการสืบค้น 10,454,629 คู่
  • s ("Istella-S LETOR"): มีคู่เอกสารแบบสอบถาม 3,408,630 คู่
  • x ("Istella-X LETOR"): มีคู่เอกสารการสืบค้น 26,791,447 คู่

คุณสามารถระบุว่าจะใช้ชุดข้อมูลเวอร์ชัน main , s หรือ x ดังต่อไปนี้:

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

หากระบุเฉพาะ istella ตัวเลือก istella/main จะถูกเลือกตามค่าเริ่มต้น:

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • หน้าแรก : http://quickrank.isti.cnr.it/istella-dataset/

  • รหัสที่มา : tfds.ranking.istella.Istella

  • รุ่น :

    • 1.0.0 : การเปิดตัวครั้งแรก
    • 1.0.1 : แก้ไขการทำให้เป็นอนุกรมเพื่อรองรับ float64
    • 1.1.0 : รวมคุณสมบัติเป็นคุณสมบัติ 'float_features' เดียว
    • 1.2.0 (ค่าเริ่มต้น): เพิ่มตัวระบุการค้นหาและเอกสาร
  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • โครงสร้างคุณลักษณะ :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
doc_id เทนเซอร์ (ไม่มี,) int64
float_features เทนเซอร์ (ไม่มี 220) float64
ฉลาก เทนเซอร์ (ไม่มี,) float64
แบบสอบถาม_id ข้อความ สตริง
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (การกำหนดค่าเริ่มต้น)

  • ขนาดการดาวน์โหลด : 1.20 GiB

  • ขนาดชุดข้อมูล : 1.12 GiB

  • แยก :

แยก ตัวอย่าง
'test' 9,799
'train' 23,219

อิสเทลล่า/เอส

  • ขนาดการดาวน์โหลด : 450.26 MiB

  • ขนาดชุดข้อมูล : 421.88 MiB

  • แยก :

แยก ตัวอย่าง
'test' 6,562
'train' 19,245
'vali' 7,211

อิสเตลลา/x

  • ขนาดการดาวน์โหลด : 4.42 GiB

  • ขนาดชุดข้อมูล : 2.46 GiB

  • แยก :

แยก ตัวอย่าง
'test' 2,000
'train' 6,000
'vali' 2,000