cfq

  • 説明:

構成の一般化を測定するための CFQ データセット (およびその分割)。

背景については、 https://arxiv.org/abs/1912.09713.pdfを参照してください。

検証セットに関する注意: テスト セットと同じ分布を持ち、未知のテスト分布に関してモデルの構成的一般化を測定することに関心があるため、トレーニングのサブセットに対してチューニングを行うことをお勧めします。セットのみ (論文のセクション 5.1 を参照)。

使用例:

data = tfds.load('cfq/mcd1')
FeaturesDict({
    'query': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
クエリ文章ストリング
質問文章ストリング
@inproceedings{Keysers2020,
  title={Measuring Compositional Generalization: A Comprehensive Method on
         Realistic Data},
  author={Daniel Keysers and Nathanael Sch"{a}rli and Nathan Scales and
          Hylke Buisman and Daniel Furrer and Sergii Kashubin and
          Nikola Momchev and Danila Sinopalnikov and Lukasz Stafiniak and
          Tibor Tihon and Dmitry Tsarkov and Xiao Wang and Marc van Zee and
          Olivier Bousquet},
  booktitle={ICLR},
  year={2020},
  url={https://arxiv.org/abs/1912.09713.pdf},
}

cfq/mcd1 (デフォルト設定)

  • データセットサイズ: 49.75 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/mcd2

  • データセットサイズ: 51.39 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/mcd3

  • データセットサイズ: 50.22 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/question_complexity_split

  • データセットサイズ: 52.81 MiB

  • スプリット:

スプリット
'test' 10,340
'train' 98,999
'validation' 10,339

cfq/question_pattern_split

  • データセットサイズ: 52.81 MiB

  • スプリット:

スプリット
'test' 11,909
'train' 95,654
'validation' 12,115

cfq/query_complexity_split

  • データセットサイズ: 52.81 MiB

  • スプリット:

スプリット
'test' 9,512
'train' 100,654
'validation' 9,512

cfq/query_pattern_split

  • データセットサイズ: 52.81 MiB

  • スプリット:

スプリット
'test' 12,589
'train' 94,600
'validation' 12,489

cfq/random_split

  • データセットサイズ: 52.81 MiB

  • スプリット:

スプリット
'test' 11,967
'train' 95,744
'validation' 11,967

cfq/cd0_r1

  • データセットサイズ: 49.72 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r2

  • データセットのサイズ: 49.45 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r3

  • データセットサイズ: 49.76 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r4

  • データセットサイズ: 50.04 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r5

  • データセットのサイズ: 49.36 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r6

  • データセットのサイズ: 49.36 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r7

  • データセットサイズ: 49.93 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r8

  • データセットのサイズ: 48.58 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r9

  • データセットサイズ: 49.23 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r1

  • データセットサイズ: 51.54 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r2

  • データセットサイズ: 48.18 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r3

  • データセットサイズ: 49.23 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r4

  • データセットサイズ: 49.76 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r5

  • データセットのサイズ: 49.10 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r6

  • データセットのサイズ: 49.10 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r7

  • データセットサイズ: 48.02 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r8

  • データセットサイズ: 48.13 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r9

  • データセットサイズ: 48.44 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r1

  • データセットのサイズ: 50.90 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r2

  • データセットサイズ: 49.12 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r3

  • データセットのサイズ: 50.68 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r4

  • データセットサイズ: 52.61 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r5

  • データセットサイズ: 50.63 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r6

  • データセットサイズ: 50.63 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r7

  • データセットのサイズ: 52.39 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r8

  • データセットのサイズ: 50.53 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r9

  • データセットサイズ: 50.64 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r1

  • データセットサイズ: 52.08 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r2

  • データセットサイズ: 52.11 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r3

  • データセットサイズ: 51.25 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r4

  • データセットサイズ: 49.94 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r5

  • データセットサイズ: 49.71 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r6

  • データセットサイズ: 49.71 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r7

  • データセットサイズ: 50.86 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r8

  • データセットサイズ: 49.43 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r9

  • データセットサイズ: 50.32 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r1

  • データセットサイズ: 48.52 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r2

  • データセットのサイズ: 47.40 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r3

  • データセットのサイズ: 49.18 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r4

  • データセットサイズ: 47.86 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r5

  • データセットサイズ: 49.01 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r6

  • データセットサイズ: 49.01 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r7

  • データセットのサイズ: 51.70 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r8

  • データセットのサイズ: 50.94 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r9

  • データセットのサイズ: 51.98 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r1

  • データセットのサイズ: 51.00 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r2

  • データセットサイズ: 49.91 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r3

  • データセットのサイズ: 51.26 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r4

  • データセットサイズ: 51.27 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r5

  • データセットのサイズ: 51.87 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r6

  • データセットのサイズ: 51.87 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r7

  • データセットサイズ: 48.52 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r8

  • データセットサイズ: 48.62 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r9

  • データセットのサイズ: 48.48 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r1

  • データセットサイズ: 49.32 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r2

  • データセットのサイズ: 49.36 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r3

  • データセットサイズ: 49.85 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r4

  • データセットサイズ: 50.07 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r5

  • データセットサイズ: 49.86 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r6

  • データセットサイズ: 49.86 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r7

  • データセットサイズ: 49.42 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r8

  • データセットサイズ: 48.52 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r9

  • データセットサイズ: 49.54 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r1

  • データセットサイズ: 49.75 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r2

  • データセットサイズ: 49.07 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r3

  • データセットサイズ: 50.22 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r4

  • データセットサイズ: 49.12 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r5

  • データセットサイズ: 48.80 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r6

  • データセットサイズ: 48.80 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r7

  • データセットサイズ: 50.69 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r8

  • データセットサイズ: 51.39 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r9

  • データセットサイズ: 49.94 MiB

  • スプリット:

スプリット
'test' 11,968
'train' 95,743
'validation' 11,968