Si la correlación no implica causalidad, entonces ¿qué lo hace?

***CulitoDeRana*** · 20-07-2017, 07:39 PM

El artículo: https://medium.com/@akelleh/if-correlati...4f20d26438

Este es un problema recurrente en mi trabajo. No hay ningún artefacto estadístico que permita saber con certeza si existe correlación entre dos eventos de un fenómeno observado. Y hay muchos fenómenos donde la experimentación no es posible, o no es viable. Leed el artículo y comentáis.

Rick · 20-07-2017, 08:05 PM

Comentaré mejor cuando tenga tiempo para leer el artículo.

Pero a priori, para afirmar la causalidad hay que precisamente entender todo el proceso causal que lleva de una cosa la otra, si podemos decir que la disminución de la masa forestal causa una menor concentración de oxigeno en la atmósfera es porque conocemos bien el proceso de fotosíntesis y sus efectos. Si no podemos decir disminución del número de piratas no causa el efecto invernadero a pesar de que existe esa correlación es porque no podemos establecer una cadena causal para los dos fenómenos.

Y si, las ciencias sociales son una putada porque no pueden aislarse variables

Enviado desde mi Redmi Note 3 mediante Tapatalk

Jaime · (This post was last modified: 20-07-2017, 08:42 PM by Jaime.)

(20-07-2017, 07:39 PM)iagovar Wrote: El artículo: https://medium.com/@akelleh/if-correlati...4f20d26438

Este es un problema recurrente en mi trabajo. No hay ningún artefacto estadístico que permita saber con certeza si existe correlación entre dos eventos de un fenómeno observado. Y hay muchos fenómenos donde la experimentación no es posible, o no es viable. Leed el artículo y comentáis.

En mi experiencia, correlación no implica causalidad de entrada, pero suficiente correlación aproxima de manera suficiente a la causalidad de modo que, a la práctica, el supuesto efecto aleatorio es indistinguible del causal en la gran mayoría de casos.

Cool, huh? Me explico. Todo se reduce a pensar en términos estadísticos. En términos de estadística matemática, que es la única estadística que dice la verdad (sólo que la verdad siempre es insuficiente). La estadística matemática, dicho de manera muy grosera, se ocupa de describir conjuntos, particularmente regiones en espacios n-dimensionales, en los que es posible hallar una determinada familia de objetos (puntos del espacio) con una probabilidad establecida de antemano. Esta es una manera pedante de describir lo que es un intervalo de confianza, la región factible de un test de hipótesis o un conjunto plausible en el ámbito de la estadística bayesiana (las tres cosas son la misma, vista desde prismas distintos).

Como lo que queremos es regiones que contengan objetos con suficiente probabilidad, una máxima que debemos tener en cuenta cuando hacemos estadística es que los parámetros poblacionales son, siempre, desconocidos y, a lo sumo, lo que haremos será 1, asegurarnos de que existen y 2, aproximarlos tan bien como podamos. Estas aproximaciones las llamamos parámetros muestrales, para dar a entender que los obtenemos de la información de la porción de datos de la que disponemos, que nunca es toda (si fuera toda, entonces efectivamente podríamos conocer los parámetros poblacionales, pero entonces no estaríamos haciendo estadística, sino simple aritmética). Lo buena que sea una aproximación a partir de la muestra del desconocido parámetro poblacional dependerá del famoso nivel de confianza y del favorito de todos, el p-valor. El p-valor, para quién no lo sepa, es la probabilidad de observar un efecto de un experimento "o peor" dadas las condiciones -los datos- disponibles. Es decir, que si el p-valor es bajo, lo que uno observa es demasiado implausible como para ser fruto del azar. Y cuánto más bajo menos se explica por el azar, ergo la parsimonia dicta que se explica por una causalidad. Cuál sea esa causalidad ya es otra historia, pero las corrientes de la filosofía de la ciencia "aconsejan" identificarla con la explicación más sencilla de todas las disponibles, y esa usualmente la hipótesis que hemos hecho al comenzar el análisis de los datos.

Obviamente, ello no siempre es cierto. A menudo sucede que uno tiene unos datos, establece una hipótesis sobre ellos, halla una correlación, la contrasta y logra pasar el test. Pero luego llega un batch nuevo de datos cuyo comportamiento no se explica por la hipótesis anterior y todo falla. ¿Qué hace uno entonces? Pues se lía a pensar que efectos adicionales pueden estar afectando a la nueva muestra y, a la vez, no contradicen del comportamiento de la muestra anterior. Esto puede hacerse mediante una generalización de la hipótesis anterior (p.ej: de la relatividad especial a la relatividad general) o sustituyendo la hipótesis anterior por una nueva que igualmente explica los efectos de la muestra original pero, además, predice los nuevos (p.ej: en vez de suponer que existe el éter, mejor suponer que la luz no es una onda mecánica, sino otro tipo de onda).

Y aquí vuelvo a mi tesis inicial: el proceso descrito hasta ahora se puede entender como una proceso en el que una sucesión de correlaciones observada me acerca, cada vez más, a la verdad. A la causa de las cosas. La verdad verdadera posiblemente no la llegaré a conocer nunca, como nunca conoceré los parámetros poblaciones relaes, pero puede que logre aproximarla tanto que ante cualquier evento de la vida cotidiana, lo que yo he descrito es prácticamente indisintinguible de la verdad, salvo quizá en un evento tan específico e improbable que la grandísima mayoría de los implicados jamás llegarán a experimentar. Y si esto es así, las soluciones que yo proponga en base a los datos analizados solucionarán los problemas que vayan apareciendo.

Al fin y al cabo, la ciencia no va saber la verdad intrínseca de la naturaleza, sino de construir modelos que nos permitan interpretarla y lidiar con ella.

Por cierto, ¿qué entenderías tú por "artefacto estadístico que permita saber con certeza si hay correlación entre dos eventos de un fenómeno observado"? ¿Algo que dado dos conjuntos de datos te diga si existe una ley que mapea los unos a los otros?

PrincipeVegetaFinalFlash · 20-07-2017, 09:32 PM

Te cuento un poco lo que se hace desde la economía positiva. Apuntes sueltos, que no estoy muy centrado.

¿Hay un efecto dosis-respuesta? ¿Cómo funciona? ¿Se ha controlado para variables de confusión, y de qué manera? Muchísimas correlaciones quedan explicadas integrando una variable temporal; siempre vas a tener DAGs, variables mediadoras y moderadoras, regresiones múltiples, etc. ¿Se han considerado los posibles mecanismos de causalidad? En la economía es importante tener un cuerpo teórico sólido antes de trazar causalidades, y no es difícil ver cuándo un planteamiento es endeble.

psycho · 18-10-2017, 07:09 PM

(20-07-2017, 07:39 PM)Silvio Wrote: El artículo: https://medium.com/@akelleh/if-correlati...4f20d26438

Este es un problema recurrente en mi trabajo. No hay ningún artefacto estadístico que permita saber con certeza si existe correlación entre dos eventos de un fenómeno observado. Y hay muchos fenómenos donde la experimentación no es posible, o no es viable. Leed el artículo y comentáis.

Que dos variables mantengan variaciones correlativas durante un periodo no garantiza que tengan una causa común.

Es cierto que todo tiene una sola causa (Big Bang o lo que sea) pero cuando querés probar causalidad en un fenómeno, analizás la secuencia hasta el primer factor (aceptado convencionalmente) que te sea conveniente. Si la linea de causalidad no se sostiene dentro del periodo, la relación no es causal.

Igualmente has de aportar el mecanismo que justifica la relación causal.

Slds.