이스텔라

  • 설명 :

Istella 데이터 세트는 Istella에서 공개한 3개의 대규모 Learning-to-Rank 데이터 세트입니다. 각 데이터 세트는 기능 벡터로 표시되는 쿼리-문서 쌍과 해당 관련성 판단 레이블로 구성됩니다.

데이터 세트에는 세 가지 버전이 포함되어 있습니다.

  • main ("Istella LETOR"): 10,454,629개의 쿼리-문서 쌍을 포함합니다.
  • s ("Istella-S LETOR"): 3,408,630개의 쿼리-문서 쌍을 포함합니다.
  • x ("Istella-X LETOR"): 26,791,447개의 쿼리-문서 쌍을 포함합니다.

다음과 같이 데이터 세트의 main 버전, s 또는 x 버전을 사용할지 여부를 지정할 수 있습니다.

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

istella 만 지정된 경우 기본적으로 istella/main 옵션이 선택됩니다.

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • 홈페이지 : http://quickrank.isti.cnr.it/istella-dataset/

  • 소스 코드 : tfds.ranking.istella.Istella

  • 버전 :

    • 1.0.0 : 최초 릴리스.
    • 1.0.1 : float64를 지원하도록 직렬화를 수정합니다.
    • 1.1.0 : 기능을 하나의 'float_features' 기능으로 묶습니다.
    • 1.2.0 (기본값): 쿼리 및 문서 식별자를 추가합니다.
  • 자동 캐시 ( 문서 ): 아니요

  • 기능 구조 :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
doc_id 텐서 (없음,) int64
float_features 텐서 (없음, 220) float64
상표 텐서 (없음,) float64
query_id 텍스트
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main(기본 구성)

  • 다운로드 크기 : 1.20 GiB

  • 데이터세트 크기 : 1.12 GiB

  • 분할 :

나뉘다
'test' 9,799
'train' 23,219

istella/s

  • 다운로드 크기 : 450.26 MiB

  • 데이터 세트 크기 : 421.88 MiB

  • 분할 :

나뉘다
'test' 6,562
'train' 19,245
'vali' 7,211

이스텔라/x

  • 다운로드 크기 : 4.42 GiB

  • 데이터세트 크기 : 2.46 GiB

  • 분할 :

나뉘다
'test' 2,000
'train' 6,000
'vali' 2,000
,

  • 설명 :

Istella 데이터 세트는 Istella에서 공개한 3개의 대규모 Learning-to-Rank 데이터 세트입니다. 각 데이터 세트는 기능 벡터로 표시되는 쿼리-문서 쌍과 해당 관련성 판단 레이블로 구성됩니다.

데이터 세트에는 세 가지 버전이 포함되어 있습니다.

  • main ("Istella LETOR"): 10,454,629개의 쿼리-문서 쌍을 포함합니다.
  • s ("Istella-S LETOR"): 3,408,630개의 쿼리-문서 쌍을 포함합니다.
  • x ("Istella-X LETOR"): 26,791,447개의 쿼리-문서 쌍을 포함합니다.

다음과 같이 데이터 세트의 main 버전, s 또는 x 버전을 사용할지 여부를 지정할 수 있습니다.

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

istella 만 지정된 경우 기본적으로 istella/main 옵션이 선택됩니다.

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • 홈페이지 : http://quickrank.isti.cnr.it/istella-dataset/

  • 소스 코드 : tfds.ranking.istella.Istella

  • 버전 :

    • 1.0.0 : 최초 릴리스.
    • 1.0.1 : float64를 지원하도록 직렬화를 수정합니다.
    • 1.1.0 : 기능을 하나의 'float_features' 기능으로 묶습니다.
    • 1.2.0 (기본값): 쿼리 및 문서 식별자를 추가합니다.
  • 자동 캐시 ( 문서 ): 아니요

  • 기능 구조 :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
doc_id 텐서 (없음,) int64
float_features 텐서 (없음, 220) float64
상표 텐서 (없음,) float64
query_id 텍스트
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main(기본 구성)

  • 다운로드 크기 : 1.20 GiB

  • 데이터세트 크기 : 1.12 GiB

  • 분할 :

나뉘다
'test' 9,799
'train' 23,219

istella/s

  • 다운로드 크기 : 450.26 MiB

  • 데이터 세트 크기 : 421.88 MiB

  • 분할 :

나뉘다
'test' 6,562
'train' 19,245
'vali' 7,211

이스텔라/x

  • 다운로드 크기 : 4.42 GiB

  • 데이터세트 크기 : 2.46 GiB

  • 분할 :

나뉘다
'test' 2,000
'train' 6,000
'vali' 2,000