Grounded SCAN (gSCAN), yerleşik dil anlayışında kompozisyon genellemesini değerlendirmek için sentetik bir veri kümesidir. gSCAN, doğal dil talimatlarını eylem sıralarıyla eşleştirir ve aracının talimatları ızgara tabanlı bir görsel gezinme ortamı bağlamında yorumlamasını gerektirir.

Daha fazla bilgi şu adreste bulunabilir:

'command': Sequence(Text(shape=(), dtype=string)),
'manner': Text(shape=(), dtype=string),
'meaning': Sequence(Text(shape=(), dtype=string)),
'referred_target': Text(shape=(), dtype=string),
'situation': FeaturesDict({
'agent_direction': int32,
'agent_position': FeaturesDict({
'column': int32,
'row': int32,
'direction_to_target': Text(shape=(), dtype=string),
'distance_to_target': int32,
'grid_size': int32,
'placed_objects': Sequence({
'object': FeaturesDict({
'color': Text(shape=(), dtype=string),
'shape': Text(shape=(), dtype=string),
'size': int32,
'position': FeaturesDict({
'column': int32,
'row': int32,
'vector': Text(shape=(), dtype=string),
'target_object': FeaturesDict({
'object': FeaturesDict({
'color': Text(shape=(), dtype=string),
'shape': Text(shape=(), dtype=string),
'size': int32,
'position': FeaturesDict({
'column': int32,
'row': int32,
'vector': Text(shape=(), dtype=string),
'target_commands': Sequence(Text(shape=(), dtype=string)),
'verb_in_command': Text(shape=(), dtype=string),
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
emretmek Sıra(Metin) (Hiçbiri,) sicim
tavır Metin sicim
anlam Sıra(Metin) (Hiçbiri,) sicim
yönlendirilen_hedef Metin sicim
durum ÖzelliklerDict
durum/ajan_yön tensör int32
durum/ajan_konumu ÖzelliklerDict
durum/ajan_konumu/sütun tensör int32
durum/ajan_konumu/sıra tensör int32
durum/yön_to_hedef Metin sicim
durum/mesafe_to_hedef tensör int32
durum/grid_size tensör int32
durum/yerleştirilmiş_nesneler Sekans
durum/yerleştirilmiş_nesneler/nesne ÖzelliklerDict
durum/yerleştirilen_nesneler/nesne/renk Metin sicim
durum/yerleştirilen_nesneler/nesne/şekil Metin sicim
durum/yerleştirilen_nesneler/nesne/boyut tensör int32
durum/yerleştirilmiş_nesneler/konum ÖzelliklerDict
durum/yerleştirilen_nesneler/konum/sütun tensör int32
durum/yerleştirilen_nesneler/konum/sıra tensör int32
durum/yerleştirilmiş_nesneler/vektör Metin sicim
durum/hedef_nesne ÖzelliklerDict
durum/hedef_nesne/nesne ÖzelliklerDict
durum/hedef_nesne/nesne/renk Metin sicim
durum/hedef_nesne/nesne/şekil Metin sicim
durum/hedef_nesne/nesne/boyut tensör int32
durum/hedef_nesne/konum ÖzelliklerDict
durum/hedef_nesne/konum/sütun tensör int32
durum/hedef_nesne/konum/sıra tensör int32
durum/hedef_nesne/vektör Metin sicim
hedef_komutlar Sıra(Metin) (Hiçbiri,) sicim
fiil_in_command Metin sicim
grounded_scan/compositional_splits (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Bileşimsel genelleme örnekleri.

  • İndirme boyutu : 82.10 MiB

  • Veri kümesi boyutu : 998.11 MiB

  • bölmeler :

Bölmek örnekler
'adverb_1' 112.880
'adverb_2' 38.582
'contextual' 11.460
'dev' 3.716
'situational_1' 88.642
'situational_2' 16.808
'test' 19.282
'train' 367.933
'visual' 37.436
'visual_easier' 18.718


  • Yapılandırma açıklaması : Daha büyük hedef uzunluklarına genelleme örnekleri.

  • İndirme boyutu : 53.41 MiB

  • Veri kümesi boyutu : 546.73 MiB

  • bölmeler :

Bölmek örnekler
'dev' 1.821
'target_lengths' 198.588
'test' 37.784
'train' 180.301


  • Yapılandırma açıklaması : Uzamsal ilişki muhakemesi için örnekler.

  • İndirme boyutu : 89.59 MiB

  • Veri kümesi boyutu : 675.09 MiB

  • bölmeler :

Bölmek örnekler
'dev' 2.617
'referent' 30.492
'relation' 6.285
'relative_position_1' 41.576
'relative_position_2' 41.529
'test' 28.526
'train' 259.088
'visual' 62.250