21 julio 2011

Estadistica para dummies

Buena parte del trabajo estadístico consiste en alimentar con datos alguno de los paquetes de software que existen, copiar una serie de ecuaciones para el marco teórico y finalmente presentar cierto valor de r cuadrado, o de Prob. > F como prueba irrefrutable y definitiva de casi cualquier hipótesis. No es nada de otro mundo y creo que no hay nada interesante que decir sobre eso, pero si conviene tener alguna idea sobre el concepto de significancia estadística y su valor como argumento científico.

En la entrada anterior sobre las parvularias mencionaba un análisis de mínimos cuadrados que es la manera estándar para "demostrar estadísticamente" algunas hipótesis de trabajo en ciencias sociales, por ejemplo en este caso se trataba de mostrar que la educación pre escolar causaba un mejor rendimiento académico en los niños después que crecían.

Seguramente el que hizo el estudio diría "¡un momento! yo jamás dije que iba a probar eso. simplemente hice análisis de regresión que mostraba significacncia entre esas dos variables". Sin embargo en las conclusiones del estudio no vacila en presentar los "efectos" de la educación pre escolar sobre el rendimiento académico posterior, olvidando algo que los que usan estadísticas deberían tener grabado a fuego en el cerebro: "correlación no implica causalidad".

El método de los mínimos cuadrados es un asunto relativamente simple de entender, pero antes veamos una relación lineal: supongamos que tenemos dos variables, por ejemplo velocidad y espacio recorrido: nos subimos a un auto y vamos midiendo cuantos metros recorremos a distintas velocidades -constantes- en un mismo intervalo de tiempo, digamos en una hora. Si medimos ciudadosamente y marcamos con puntos en un gráfico cuantos metros recorrimos en una hora, tendremos algo más o menos así:
Y el resultado -como ven- es que al unir los puntos tenemos una línea perfectamente recta. El espacio que recorremos depende de la velocidad en una "relación directa" esto quiere decir que al graficar las mediciones nos da una línea recta. Si en lugar de 1 hora tomásemos un período de 2 horas también tendríamos una recta, aunque con otra pendiente (más inclinada).

Estas relaciones que dan líneas rectas son muy especiales porque permiten predecir el futuro con gran exactitud y de manera más fácil: basta con extender la línea con una regla para saber que si nos movemos a 70 km/h en una hora habremos recorrido 70000 mts, sin necesidad de medir nada, tampoco necesitamos movernos a peligrosos 300 km/h para saber que recorreríamos 3000000 mts, basta con extender la recta y leer.

Ojo, porque ni siquiera las relaciones lineales nos indican causa-efecto: podríamos medir la edad del conductor y encontrarnos -por casualidad- con una relación perfectamente lineal entre edad del conductores y distancia recorrida, pero eso no nos permite predecir nada porque no es una relación causal sino casual.

El problema se complica cuando al medir los datos no aparece una línea recta, sino que una nube de puntos que no sigue una recta. Por ejemplo si medimos las calificaciones obtenidas según el CI de cada alumno, podríamos tener algo como lo que se muestra la figura del comienzo de esta entrada. Por simple inspección podemos ver que en general, aunque no siempre, los alumnos con CI más alto obtienen mejores calificaciones.

La regresión lineal consiste en encontrar una línea recta que se ajuste mejor a la nube de puntos por ejemplo algo así

Que nos permitiría "predecir" dentro de cierto rango de error un valor, por ejemplo que nota es probable que se saque un alumno con un CI de 145. La línea que mejor se ajusta a la nube se calcula con el método de mínimos cuadrados, o que también podríamos llamar recta de mínima dispersión, que me perdone mi gran profesor de estadística don Erich Glass (QEPD) por usar una palabra inexacta, pero que sirve para explicar la idea).

Esta predicción es mucho más incierta que cuando tenemos una relación directa y el método de mínimos cuadrados nos permite el ajuste más aproximado posible de la recta a la nube de puntos. Si la nube muestra algún patrón podremos hacer mejores predicciones -por ejemplo podemos intuir que los alumnos de mayor CI se sacan mejores notas- pero no podemos hacer un pronóstico exacto. Entonces decimos que la regresión nos indica que hay alguna forma de relación entre las dos variables.

Cuando hablamos de magnitudes físicas determinísticas, o sea que responden siempre de la misma manera ante un mismo estímulo, si se trabaja con muestras representativas, si los errores de encuestas se pueden considerar despreciables y -sobre todo- si el modelo matemático usado está libre de bias, el análisis estadístico funciona bien para predecir, siempre y cuando exista una tendencia subyacente y la dispersión de los datos no sea excesiva. En esos casos pueden existir otras curvas que se ajusten a la nube de puntos, no necesariamente una línea recta, el problema es entonces encontrar la curva que calza mejor.

Pero incluso en estos problemas ideales, determinísticos, donde suponemos que puede haber una curva o función matemática que se ajuste a la nube de puntos seguimos con el problema que correlación no implica causalidad, porque la relación causa-efecto puede ser casual o bien deberse a otra variable que ni siquiera se ha tomado en cuenta.

Un problema mucho mayor es, por ejemplo, si tratamos de encontrar relación entre cosas como años de educación pre escolar y resultados académicos en la educación media, donde no existen solo esas dos variables sino muchísimas más (educación y preocupación de los padres, herencia genética, habilidades particulares de cada cual y un enorme etc.).

En estudios así -la mayoría de los estudios econométricos son de esa clase- se está obligado a hacer un modelo muy simplificado y sujeto a multitud de restricciones que hacen mucho más difícil tener una predicción exitosa.

Si le sumamos que las variables del comportamiento humano no son determinísticas y distintas personas pueden reaccionar de manera diferente ante un mismo estímulo (según sus preferencias) o incluso una misma persona puede responder de manera diferente dependiendo de su humor del momento, entonces podemos ver el verdadero valor de estos estudios tan repletos de ecuaciones que en realidad tienen similar validez que las predicciones de mi gran amiga y afamada mentalista doña Eliana Merino. A decir verdad, yo le creo más a doña Eliana.

Y todos los días se están escribiendo miles de papers basados en modelos con un bias grosero y un análisis de correlación, donde al final llegan a un pequeño cuadrito que dice algo así como "prob. >F = 0,0097" lo que les permite asegurar que probaron que si existe una significancia estadística que justifica gastar millones de dólares en esta o aquella política pública.

No solo los economistas austriacos se dieron cuenta de la inutilidad de muchos modelos econométricos sino el propio Keynes, que escribió: "Una parte demasiado grande de la economía ‘matemática’ reciente es una simple mixtura, tan imprecisa como los supuestos originales que la sustentan, que permite al autor perder de vista las complejidades e interdependencias del mundo real en un laberinto de símbolos pretenciosos e inútiles”. Ya que le han creído tanta tontera a Keynes, por que no le creen esto, que es cierto. Hasta mañana.

6 comentarios:

  1. Bueno el tema de los parvularios y su inefectividad.
    Al menos encierran a los peques sus buenas horas, cosa que las madres puedan ir a sus pegas o irse a la playa sin cabritos odiosos...
    Una correlacion divertida, que estoy seguro que es muy alta, seria entre el crecimiento de la delincuencia, y la incorporacion de la mujer al trabajo remunerado.

    ResponderBorrar
  2. Pero aquí no hay una "leve sospecha" de que el fenómeno A tiene vinculación con el B. Que los niños tengan previa escolarización antes de los grados es algo que uno naturalmente ve como factor de mayor rendimiento. Es como predecir si alguien que ya estuvo entrenando hace meses va a correr más rápido que alguien que estuvo quieto.
    Los maestros lo observan "in situ", antes de ver cualquier gráfico.
    En cuanto a que la ventaja se vaya perdiendo, es posible, pero ahí hay un factor de aplanamiento: en una clase con mitad de aventajados y mitad que no el maestro terminará bajando el ritmo y exigencia para que una mayoría llegue. Es mejor que todos cuenten con la ventaja entonces. Aunque describamos la educación como un esfuerzo estrictamente personal, etc.. la verdad es que la gente se educa mejor o peor según el ambiente que la rodea.

    ResponderBorrar
  3. ...de paso, mi profesor cuando me gradué me preguntó como pregunta final si la temperatura en New York y el consumo de cerveza en Moazambique mostraban una muy buena correlación si eso era señal de relación entre ellas. Pensé que todo dependía de los hemisferios, verano e invierno, y que en todo caso eran ambos afectados por el calendario pero no interdependientes. Dije que no. Me aprobó con la nota mínima. Y no me dijo si la respuesta final ayudó a bajarme la nota al mínimo o salvó el examen.

    ResponderBorrar
  4. Wilson. Ulschmidt, usé el ejemplo del jardín de párvulos porque creo que ilustra bien el uso de las estadísticas en ciencias sociales para construir un argumento político.

    La vinculación entre años de parvulario y rendimiento académico no está ni remotamente "demostrada" en los estudios y las correlaciones que se hacen tienen todos los problemas que mencioné en cuanto a validez de los resultados: no determinismo, la mayoría de las variables no se toman en cuenta, etc. etc.

    Esa suposición "natural" que menciona Uslchmidt nunca ha aparecido validada y no hay el menor indicio que los niños que pasan por parvulario tengan mejor "entrenamiento" intelectual que los que no han pasado, de hecho no ha sido necesario elevar las exigencias académicas sino todo lo contrario.

    Es tan sencillo encontrar r cuadrados que indiquen relación significativa como diseñar un proyecto con VAN y TIR positivo, todos sabemos que nadie en el mundo estudia realmente si un proyecto es factible o no, simplemente lo hacen para que de factibilidad adaptando los supuestos para tener un VAN y TIR adecuados. Con estos estudios estadísticos pasa más o menos lo mismo y la cantidad de los que encuentran significancia estadística es mucho mayor que los que no la encuentran. Igualito que los proyectos de inversión: son todos factibles.

    ResponderBorrar
  5. En la Argentina se idolatra un ídolo no-católico, la Difunta Correa, madre que en el desierto muere pero su bebé se mantienen con viva mamando de su seno hasta que los encuentran.
    Pero ahora los antropólogos nos han dicho que es una reinterpretación popular de la Zapam-Zucum. deidad diaguita de grandes pechos - Zapam-Zucum es onomatopéyico, simula el ruído del balanceo de los grandes senos - que mientras las madres van a cosechar tuna y dejan a sus hijos bajo la sombra de los algarrobos se acerca y los amamanta para aliviar la sequedad del desierto. Aunque es temperamental otras veces y se los roba.
    Ya ve, en una tradición diaguita centenaria, la culpa materna por abandonar al hijo por el trabajo y la necesidad de un cuidado parvulario encargado en esta caso a una diosa.
    este tipo de servicios es necesario desde que existe la organización humana!
    Como dijo Zamudio permite adaptarse y socializar al niño mientras la madre hace otras cosas - la socialización, que antes se hacía en la calle o plaza de la aldea, el niño urbano necesita hacerla en un lugar más protegido.
    Y si no la Zapam-Zucum se lo lleva.

    ResponderBorrar
  6. Bueno Ulschmidt, tal vez en cierto modo yo también he adorado -sin saberlo- a Zapam-Zucum alguna que otra vez, creo que es una deidad admirable especialmente por haber existido antes de los implantes de silicona.

    Yo no veo la más mínima necesidad de la educación parvularia masiva ni menos obligatoria, más bien creo que es uno más de los intereses corporativos, principalmente económicos creados alrededor de un excelente negocio que nació financiado con platade los impuestos y hoy no hay manera de pararlo.

    Así es como van apareciendo nuevas "necesidades" del estado: hay que dar almuerzos a todos los niños y retenerlos todo el día en escuelas y colegios, incluso a los infantes tienen que ser "atendidos" por especialistas porque de otro modo pueden ser tontos. Pamplinas, es todo un cochino negocio, nada más creado alrededor de plata de los impuestos, todos quieren agarrar lo que pagamos nosotros, los giles cada vez que compramos un kilo de pan, y para que decir una botella de vino o una lata de cerveza.

    ResponderBorrar

"Send me a postcard, drop me a line
Stating point of view
Indicate precisely what you mean to say
Yours sincerely, wasting away
Give me your answer, fill in a form
Mine for evermore
Will you still need me, will you still feed me
When I'm sixty-four"