08 mayo 2015

La estadística para dummies 2


Alguna vez escribí una entrada que se llamaba "estadística para dummies", como estoy siguiendo otro curso online de lo mismo, creo que es el momento de insistir con algunas ideas adicionales que nos sirvan para mirar críticamente algunos argumentos basados en la estadística.

Dos estadísticas distintas
Hay dos tipos distintos, la estadística descriptiva recolecta, muestra los datos y calcula ciertas medidas de dispersión como la media, el promedio y la moda. Estas medidas tratan es de representar a todo el conjunto de valores en un solo número típico, por ejemplo la estatura promedio de los chilenos.

Por otra parte tenemos la estadística inferencial que intenta encontrar relaciones de causa-efecto entre variables a partir de las frecuencias con que se repiten valores de los datos recolectados, esta estadística pretende predecir cosas como por ejemplo: fumar causa cáncer,  manejar borracho causa accidentes y cosas por el estilo.

Las relaciones causales
Pocos dudan que existen causas y efectos. La temperatura de hervor del agua varía -por ejemplo- "por causa de" o "dependiendo de" la altura a que nos encontramos. Si tiro una piedra hacia arriba esta describirá una perfecta parábola y caerá al suelo, la causa es que yo tiré la piedra, le di impulso en cierta dirección y el efecto es que la piedra se movió describiendo una parábola.

No es tan simple
Esto nos parece evidente y trivial, pero no lo es tanto, porque supone una visión mecanicista que niega la existencia del azar. Un visión mecanicista afirma que todo está determinado y que lo que consideramos "azar" es nuestra ignorancia para identificar la cadena de causas y efectos.

Parece que el universo no es como un reloj
Desde los griegos hasta el Siglo de las Luces siempre se pensó en la ciencia como una forma metódica de "descubrir la verdad" desentrañando esta madeja de causas y efectos. Durante la Ilustración se llegó al climax de este pensamiento mecanicista y hasta existió una religión newtoniana, basada en la Ley de Gravedad y tonteras por el estilo. La ciencia moderna es mucho más modesta y aterrizada.

Las cosas que se repiten
¿De donde viene esta idea de que existen causas y efectos? de la regularidad de nuestras observaciones, si una persona ve durante todos los años de su vida que en la mañana amanece y que oscurece de noche puede extrapolar pensando que será siempre lo mismo porque hay causas que producen estos efectos invariables.

Puede que sea solo una ilusión
Pero muchas cosas que se creyeron invariables por siglos han mostrado que no lo son cuando se observan con suficiente detalle, la invariabilidad en casi siempre producto de las limitaciones de nuestros sentidos, bien podría ser una ilusión como muchas otras que nos induce la mente y los organos sensoriales. Una religión newtoniana hoy sería ridícula, como muchas certezas que hasta hace algunos años parecían cosas completamente seguras.

Causas y efectos en base a las frecuencias
La estadística inferencial como dijimos, trata de establecer relaciones de causa-efecto en base a las frecuencias. Si estuviésemos en el Siglo de las Luces podríamos decir que busca la verdad a partir de las frecuencias, pero ahora que somos más humildes digamos que busca explicaciones que tengan cierto poder predictivo. Observamos y registramos las frecuencias para hacer predicciones, en base al análisis combinatorio y al cálculo de probabilidades.

Combinatoria y probabilidades
Básicamente es algo simple,combinatoria consiste en tabular los resultados de todas las combinaciones posibles de dos o más eventos, por ejemplo de tirar dos dados. El cálculo de probabilidades es el porcentaje en que pueden darse esas combinaciones.

El ejemplo con dos dados
En el ejemplo clásico de dos dados, si sumamos los números que dan al arrojarlos, vemos que pueden ir entre 2 (dos unos) y 12 (dos seis), en medio de estos dos valores hay otros que se producen con más o menos combinaciones. Por ejemplo el siete se obtiene de varias formas (6+1; 5+2; 4+3... etc.) de hecho es la suma que tiene más probabilidad de obtenerse, porque hay más combinaciones, en cambio para el 2 y el 12 solo hay una combinación, por lo que es el resultado con menos probabilidades. Todo jugador de crap sabe eso, si los dados no están cargados estas son las probabilidades


Los grandes números
Si lanzamos dos dados muchas veces y ponemos los resultados en un gráfico lo esperable es que nos salga muy parecido al gráfico que mostramos arriba, mientras más veces arojamos los dados más parecido saldrá, porque las probabilidades funcionan mejor en los grandes números. Si hacemos solo 12 o 13 tiradas probablemente nos saldrá una curva distinta, pero mientras más hagamos más parecida será la curva.

Este es el ejemplo de predicción más sencilla que se basa en algo bien lógico: a mayores combinaciones posibles más probabilidades y en los grandes números funciona bastante bien.

Las muestras
Otro ejemplo un poco más complicado son las encuestas electorales ¿se han fijado como muchas veces fallan estrepitosamente?. En las últimas elecciones de Inglaterra hace un par de días todas las encuestas daban resultado estrechísimo, sin embargo los tories ganaron por mayoría absoluta. Estas encuestas tienen la virtud de entregar prediciones y contrastarlas con resultados en muy corto tiempo.

¿Por que fallan las encuestas?
El método es el siguiente: se toma una muestra que se procura sea representativa de la población total, de manera similar a que un cocinero no necesita tomar toda la sopa para saber cuan salada está quedando, le basta tomar una sola cucharada. El detalle es que la sal se disuelve de manera perfecta y homogenea en el agua, esto no ocurre casi nunca con las muestras de las encuestas que están sujetas a toda clase de deformaciones (bias). Una muestra perfectamente representativa es imposible, excepto para ejemplos triviales.

Y las encuestas electorales son una buena muestra de esta limitación, para que hablar de las encuestas de opinión. Incluso si la muestra fuese perfecta todavía funcionaría solo en los grandes números porque trata con probabilidades, no con certezas.

Encontrar relaciones causa-efecto a partir de nubes de datos
Una tercera forma de predicción, mucho más débil que las dos anteriores, supone que del análisis estadístico de los datos crudos, se pueden encontrar variables independientes (causas) y dependientes(efectos) por medio de sofisticados análisis matemáticos. ¿Por qué este método es el más débil de todos? porque acumula tres clases de defectos: la necesidad de grandes números, el problema de la muestra y el hecho que correlación no implica causalidad. De ese tipo son los estudios que "demuestran" que fumar produce cáncer o emborracharse todos los días produce cirrosis.

Al diablo con eso
Si las encuestas electorales fallan a cada rato, imagínense como fallará este método, que esconde detrás de mucho poder de cálculo con ecuaciones paramétricas y cosas por el estilo unas bases tremendamente débiles. Sin embargo gran parte de la investigación científica de ciencias sociales, economía e incluso medicina se hace con este método y se presentan los resultados "significativos", es decir que supuestamente no se debieron al azar, como verdades científicamente comprobadas.

Al diablo con eso, el día que las encuestas electorales hagan predicciones exactas en condiciones de gran incertidumbre le creeré a un trabajo que use esa famosa frase que dice "los resultados sugieren que blablabla". ¿Saben cuando la estadística es perfectamente predictiva? en los casos triviales, cuando todo el mundo se da cuenta de la tendencia sin necesidad de hacer ni un maldito cálculo, como por ejemplo la caída de popularidad de Bachelet. En esas cosas funciona de maravillas, lástima que eso no sirve para nada.

7 comentarios:

  1. Siguien con mi chifladura con Taleb, hay resumenes de su librito en http://babalum.com/indice-confundidos-por-el-azar-de-nassim-taleb/

    Sin embargo una disquisicion por joder nomas, en mi opinion todo se enlaza en causalidad estricta, no existe algo como "otro" interviniendo, eso otro es parte del sistema que esta incompletamente descrito. Todo evento o cosa es causado por otros. Eso no implica, en modo alguno, que sea posible describir la causalidad estricta de nada que sea solo un poco complejo.

    ResponderBorrar
  2. Taleb es un crack, para leer y releer.

    Lo de la causalidad es un asunto de fe nomás, no hay nada científico, ni siquiera lógico que pueda afirmar o negar las causas y efectos de manera definitiva. Estamos condicionados a pensar causalmente y de eso vienen las religiones, el dios del trueno, el rayo de la muerte, la ciencia y todo eso. Si no pensamos causlmente no podemos pensar así es que la causalidad es incluso operativamente indispensable, pero no hay nada que le pueda dar categoría de "verdad"

    Es utilitaria y normalmente -casi siempre-las causalidades que percibimos son ilusiones, algunas útiles, otras perjudiciales. ¿Existe? sepa Moya, es como discutir si existe dios o los ovnis, creo que ni vale la pena darle muchas vueltas.

    ResponderBorrar
  3. Estoy de acuerdo es filosofia o musica como decia Alvaro Bardon :-)
    Lo ponia porjoder un poco no mas.
    Yo le veo una utilidad a la causalidad eso si:cada vez que alguien afirma algo como producido por el "astral" o semejante nonada, me sirve para descartarlo o preguntarme que ignoramos.

    ResponderBorrar
  4. Yo creo que la causa-efecto es una manera de pensar excelente1, siempre que uno no se la tome en serio, No es algo serio, solo es útil.

    Al tomarlo en serio y creer firmemente en la metáfora del reloj, muy complicado pero mecánico, caemos en la ilusión de estar "buscando la verdad" eso es una estupidez.

    Las relaciones causales son buenas si reconocemos que son provisionales y utilitarias solamente, no dicen verdad acerca de nada, solo pueden servir igual que las ecuaciones de Newton sirven perfectamente para calcular trayectorias aunque estén fundamentadas en puras equivocaciones.

    ResponderBorrar
  5. Sip, es facil caer en el fetichismo del conocimiento actual. Recuerdo haber leido textos donde se especificaba: en el estado actual del arte,o algo asi. Parece que ya no es usual.

    Y sobre pronosticos,yo recibo cada par de dias informes de un banco,sepa Moya como llegue a estar en esa base de datos, analizando puras leseras, algun indicador que se mueve 0.3 por ciento o algo asi y sacan corajudas conclusiones y recomendaciones...

    ResponderBorrar
  6. acabo de descubrir a Nassin Taleb gracias a Wilson - creo que estará en mis proximas lecturas...
    A mi simpere me hizo gracia la "aguja de Nuffon", un método de estmar en número Pi (buscado o perfeccionado tantos siglos) Otra venteaja de los grandes números.
    http://es.wikipedia.org/wiki/Aguja_de_Buffon

    ResponderBorrar
  7. Excelente lo de la aguja de Buffon, no lo había visto nunca. Claro que tiene un problema de implementación práctica no menor: ellanzamiento de la aguja debería garantizar una aleatoriedad perfecta, supongo que más perfecta cuantos más dígitos se estén calculando y eso es físicamente imposible, no hay como lanzar algo para que caiga de manera perfectamente aleatoria sin seguir ningún patron. Al final hay varias formas de calcular pi que topan en lo mismo: un generador aleatorio so suficientemente perfecto y el problema de un generador aleatorio es medio filosófico porque ¿quien puede asegurar que es realmente aleatorio y no está influenciado por alguna variable externa?

    Taleb es un crack, además porque es muy agradable de leer, escribe re bien

    ResponderBorrar

"Send me a postcard, drop me a line
Stating point of view
Indicate precisely what you mean to say
Yours sincerely, wasting away
Give me your answer, fill in a form
Mine for evermore
Will you still need me, will you still feed me
When I'm sixty-four"