(20-07-2017, 07:39 PM)iagovar Wrote: El artículo: https://medium.com/@akelleh/if-correlati...4f20d26438
Este es un problema recurrente en mi trabajo. No hay ningún artefacto estadístico que permita saber con certeza si existe correlación entre dos eventos de un fenómeno observado. Y hay muchos fenómenos donde la experimentación no es posible, o no es viable. Leed el artículo y comentáis.
En mi experiencia, correlación no implica causalidad
de entrada, pero suficiente correlación aproxima de manera suficiente a la causalidad de modo que, a la práctica, el supuesto efecto aleatorio es indistinguible del causal en la gran mayoría de casos.
Cool, huh? Me explico. Todo se reduce a pensar en términos estadísticos. En términos de
estadística matemática, que es la única estadística que dice la verdad (sólo que la verdad siempre es insuficiente). La estadística matemática, dicho de manera muy grosera, se ocupa de describir conjuntos, particularmente regiones en espacios n-dimensionales, en los que es posible hallar una determinada familia de objetos (puntos del espacio) con una probabilidad establecida de antemano. Esta es una manera pedante de describir lo que es un intervalo de confianza, la región factible de un test de hipótesis o un conjunto plausible en el ámbito de la estadística bayesiana (las tres cosas son la misma, vista desde prismas distintos).
Como lo que queremos es regiones que contengan objetos con suficiente probabilidad, una máxima que debemos tener en cuenta cuando hacemos estadística es que los parámetros poblacionales son, siempre, desconocidos y, a lo sumo, lo que haremos será 1, asegurarnos de que existen y 2, aproximarlos tan bien como podamos. Estas aproximaciones las llamamos parámetros muestrales, para dar a entender que los obtenemos de la información de la porción de datos de la que disponemos, que nunca es toda (si fuera toda, entonces efectivamente podríamos conocer los parámetros poblacionales, pero entonces no estaríamos haciendo estadística, sino simple aritmética). Lo buena que sea una aproximación a partir de la muestra del desconocido parámetro poblacional dependerá del famoso nivel de confianza y del favorito de todos, el p-valor. El p-valor, para quién no lo sepa, es la probabilidad de observar un efecto de un experimento "o peor" dadas las condiciones -los datos- disponibles. Es decir, que si el p-valor es bajo, lo que uno observa es demasiado implausible como para ser fruto del azar. Y cuánto más bajo menos se explica por el azar, ergo la parsimonia dicta que se explica por una causalidad. Cuál sea esa causalidad ya es otra historia, pero las corrientes de la filosofía de la ciencia "aconsejan" identificarla con la explicación más sencilla de todas las disponibles, y esa usualmente la hipótesis que hemos hecho al comenzar el análisis de los datos.
Obviamente, ello no siempre es cierto. A menudo sucede que uno tiene unos datos, establece una hipótesis sobre ellos, halla una correlación, la contrasta y logra pasar el test. Pero luego llega un batch nuevo de datos cuyo comportamiento no se explica por la hipótesis anterior y todo falla. ¿Qué hace uno entonces? Pues se lía a pensar que efectos adicionales pueden estar afectando a la nueva muestra y, a la vez, no contradicen del comportamiento de la muestra anterior. Esto puede hacerse mediante una generalización de la hipótesis anterior (p.ej: de la relatividad especial a la relatividad general) o sustituyendo la hipótesis anterior por una nueva que igualmente explica los efectos de la muestra original pero, además, predice los nuevos (p.ej: en vez de suponer que existe el éter, mejor suponer que la luz no es una onda mecánica, sino otro tipo de onda).
Y aquí vuelvo a mi tesis inicial: el proceso descrito hasta ahora se puede entender como una proceso en el que una sucesión de correlaciones observada me acerca, cada vez más, a la verdad. A la causa de las cosas. La verdad verdadera posiblemente no la llegaré a conocer nunca, como nunca conoceré los parámetros poblaciones relaes, pero puede que logre aproximarla tanto que ante cualquier evento de la vida cotidiana, lo que yo he descrito es prácticamente indisintinguible de la verdad, salvo quizá en un evento tan específico e improbable que la grandísima mayoría de los implicados jamás llegarán a experimentar. Y si esto es así, las soluciones que yo proponga en base a los datos analizados solucionarán los problemas que vayan apareciendo.
Al fin y al cabo, la ciencia no va saber la verdad intrínseca de la naturaleza, sino de construir modelos que nos permitan interpretarla y lidiar con ella.
Por cierto, ¿qué entenderías tú por "artefacto estadístico que permita saber con certeza si hay correlación entre dos eventos de un fenómeno observado"? ¿Algo que dado dos conjuntos de datos te diga si existe una ley que mapea los unos a los otros?