- Descrição :
Corr2causa
A inferência causal é uma das marcas da inteligência humana.
Corr2cause é um conjunto de dados em grande escala com mais de 400 mil amostras, nas quais dezessete LLMs existentes são avaliados no artigo relacionado.
No geral, Corr2cause contém 415.944 amostras, com 18,57% em amostras válidas. O comprimento médio da premissa é de 424,11 tokens e da hipótese de 10,83 tokens. Os dados são divididos em 411.452 amostras de treinamento, 2.246 amostras de desenvolvimento e de teste, respectivamente. Como o objetivo principal do conjunto de dados é avaliar o desempenho dos LLMs, os conjuntos de teste e desenvolvimento foram priorizados para ter uma cobertura abrangente sobre todos os tamanhos de gráficos.
Página inicial : https://github.com/causalNLP/corr2cause/tree/main
Código fonte :
tfds.datasets.corr2cause.Builder
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
727.22 MiB
Tamanho do conjunto de dados :
739.91 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'dev' | 2.246 |
'test' | 2.246 |
'train' | 411.452 |
- Estrutura de recursos :
FeaturesDict({
'input': Text(shape=(), dtype=string),
'label': int64,
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
entrada | Texto | corda | ||
rótulo | Tensor | int64 |
Chaves supervisionadas (consulte o documento
as_supervised
):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@misc{jin2023large,
title={Can Large Language Models Infer Causation from Correlation?},
author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
year={2023},
eprint={2306.05836},
archivePrefix={arXiv},
primaryClass={cs.CL}
}