- Mô tả :
Grounded SCAN (gSCAN) là một bộ dữ liệu tổng hợp để đánh giá sự tổng quát hóa thành phần trong việc hiểu ngôn ngữ theo tình huống. gSCAN ghép nối các hướng dẫn ngôn ngữ tự nhiên với các chuỗi hành động và yêu cầu tác nhân diễn giải các hướng dẫn trong ngữ cảnh của môi trường điều hướng trực quan dựa trên lưới.
Thông tin thêm có thể được tìm thấy tại:
Đối với
compositional_splits
vàtarget_length_split
: https://github.com/LauraRuis/groundedSCANĐối với
spatial_relation_splits
: https://github.com/google-research/lingu/tree/master/lingu/gscan/dataTrang chủ : https://github.com/LauraRuis/groundedSCAN
Phiên bản :
-
1.0.0
: Bản phát hành đầu tiên. -
1.1.0
: Đã thay đổi tính năngvector
thành Văn bản(). -
2.0.0
(mặc định): Thêm cấu hình Space_relation_splits mới.
-
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Cấu trúc tính năng :
FeaturesDict({
'command': Sequence(Text(shape=(), dtype=string)),
'manner': Text(shape=(), dtype=string),
'meaning': Sequence(Text(shape=(), dtype=string)),
'referred_target': Text(shape=(), dtype=string),
'situation': FeaturesDict({
'agent_direction': int32,
'agent_position': FeaturesDict({
'column': int32,
'row': int32,
}),
'direction_to_target': Text(shape=(), dtype=string),
'distance_to_target': int32,
'grid_size': int32,
'placed_objects': Sequence({
'object': FeaturesDict({
'color': Text(shape=(), dtype=string),
'shape': Text(shape=(), dtype=string),
'size': int32,
}),
'position': FeaturesDict({
'column': int32,
'row': int32,
}),
'vector': Text(shape=(), dtype=string),
}),
'target_object': FeaturesDict({
'object': FeaturesDict({
'color': Text(shape=(), dtype=string),
'shape': Text(shape=(), dtype=string),
'size': int32,
}),
'position': FeaturesDict({
'column': int32,
'row': int32,
}),
'vector': Text(shape=(), dtype=string),
}),
}),
'target_commands': Sequence(Text(shape=(), dtype=string)),
'verb_in_command': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
yêu cầu | Trình tự (Văn bản) | (Không có,) | sợi dây | |
thái độ | Chữ | sợi dây | ||
Ý nghĩa | Trình tự (Văn bản) | (Không có,) | sợi dây | |
được giới thiệu_mục tiêu | Chữ | sợi dây | ||
tình hình | Tính năngDict | |||
tình huống/tác nhân_direction | tenxơ | int32 | ||
tình huống/đặc vụ_vị trí | Tính năngDict | |||
tình huống/đại lý_vị trí/cột | tenxơ | int32 | ||
tình huống/đại lý_vị trí/hàng | tenxơ | int32 | ||
tình huống/hướng_đến_mục tiêu | Chữ | sợi dây | ||
tình huống/khoảng cách_đến_mục tiêu | tenxơ | int32 | ||
tình hình/grid_size | tenxơ | int32 | ||
tình huống/placed_objects | Sự phối hợp | |||
tình huống/placed_objects/đối tượng | Tính năngDict | |||
tình huống/đặt_đối tượng/đối tượng/màu sắc | Chữ | sợi dây | ||
tình huống/placed_objects/đối tượng/hình dạng | Chữ | sợi dây | ||
tình huống/placed_objects/đối tượng/kích thước | tenxơ | int32 | ||
tình huống/đặt_đối tượng/vị trí | Tính năngDict | |||
tình huống/placed_objects/vị trí/cột | tenxơ | int32 | ||
tình huống/placed_objects/vị trí/hàng | tenxơ | int32 | ||
tình huống/placed_objects/vector | Chữ | sợi dây | ||
tình huống/mục tiêu_đối tượng | Tính năngDict | |||
tình huống/mục tiêu_đối tượng/đối tượng | Tính năngDict | |||
tình huống/mục tiêu_đối tượng/đối tượng/màu sắc | Chữ | sợi dây | ||
tình huống/mục tiêu_đối tượng/đối tượng/hình dạng | Chữ | sợi dây | ||
tình huống/mục tiêu_đối tượng/đối tượng/kích thước | tenxơ | int32 | ||
tình huống/đối tượng_mục tiêu/vị trí | Tính năngDict | |||
tình huống/đối tượng_mục tiêu/vị trí/cột | tenxơ | int32 | ||
tình huống/đối tượng_mục tiêu/vị trí/hàng | tenxơ | int32 | ||
tình huống/đối tượng mục tiêu/vector | Chữ | sợi dây | ||
target_commands | Trình tự (Văn bản) | (Không có,) | sợi dây | |
verb_in_command | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{NEURIPS2020_e5a90182,
author = {Ruis, Laura and Andreas, Jacob and Baroni, Marco and Bouchacourt, Diane and Lake, Brenden M},
booktitle = {Advances in Neural Information Processing Systems},
editor = {H. Larochelle and M. Ranzato and R. Hadsell and M. F. Balcan and H. Lin},
pages = {19861--19872},
publisher = {Curran Associates, Inc.},
title = {A Benchmark for Systematic Generalization in Grounded Language Understanding},
url = {https://proceedings.neurips.cc/paper/2020/file/e5a90182cc81e12ab5e72d66e0b46fe3-Paper.pdf},
volume = {33},
year = {2020}
}
@inproceedings{qiu-etal-2021-systematic,
title = "Systematic Generalization on g{SCAN}: {W}hat is Nearly Solved and What is Next?",
author = "Qiu, Linlu and
Hu, Hexiang and
Zhang, Bowen and
Shaw, Peter and
Sha, Fei",
booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2021",
address = "Online and Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.emnlp-main.166",
doi = "10.18653/v1/2021.emnlp-main.166",
pages = "2180--2188",
}
grounded_scan/compositional_splits (cấu hình mặc định)
Mô tả cấu hình : Ví dụ về tổng quát hóa thành phần.
Kích thước tải xuống :
82.10 MiB
Kích thước tập dữ liệu :
998.11 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'adverb_1' | 112.880 |
'adverb_2' | 38,582 |
'contextual' | 11.460 |
'dev' | 3,716 |
'situational_1' | 88,642 |
'situational_2' | 16,808 |
'test' | 19,282 |
'train' | 367.933 |
'visual' | 37,436 |
'visual_easier' | 18,718 |
- Ví dụ ( tfds.as_dataframe ):
grounded_scan/target_length_split
Mô tả cấu hình : Ví dụ để khái quát hóa độ dài mục tiêu lớn hơn.
Kích thước tải xuống :
53.41 MiB
Kích thước tập dữ liệu :
546.73 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.821 |
'target_lengths' | 198,588 |
'test' | 37,784 |
'train' | 180,301 |
- Ví dụ ( tfds.as_dataframe ):
grounded_scan/spatial_relation_splits
Mô tả cấu hình : Ví dụ về suy luận quan hệ không gian.
Kích thước tải xuống :
89.59 MiB
Kích thước tập dữ liệu :
675.09 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 2.617 |
'referent' | 30,492 |
'relation' | 6,285 |
'relative_position_1' | 41,576 |
'relative_position_2' | 41,529 |
'test' | 28,526 |
'train' | 259,088 |
'visual' | 62.250 |
- Ví dụ ( tfds.as_dataframe ):