Páginas

15 junio 2015

Experimentos estadísticos para dummies


Esta semana en el curso Evaluación de Impacto en Programas Sociales, llegamos al núcleo del curso, que son los cálculos de poder estadístico. Este curso de edX, MIT y jPAL creo que es lo más parecido a un curso presencial en cuanto a cantidad de contenidos y exigencias, estaba un poco asustado con el módulo pero me fue muy bien, todo con 100%, por lo que me atreveré a contarles algunas cosas que hay que saber para diseñar experimentos estadísticos.

El método a grosso modo
En palabras medio burdas, estos experimentos tratan de determinar si un programa social, un tratamiento médico, una medicina, etc. sirvieron o no para los objetivos que buscábamos.

Lo que queremos determinar
Abusando de el lenguaje -y solo para ahorrar palabras- podemos plantearlo así: queremos saber si es "cierta" una determinada hipótesis, por ejemplo si un programa social tuvo el impacto que deseábamos o si un medicamento sirve para curar una enfermedad. Obviamente esta "certeza" es solo estadística y sujeta a todas las limitaciones de las que hemos hablado muchas veces antes.

Verdades y mentiras
Cuando hacemos un experimento estadístico, tenemos cuatro situaciones posibles:
-Encontramos que es cierto algo que es cierto (OK)
-Encontramos que es falso algo que es falso (OK)
-Encontramos que es cierto algo que es falso (falso positivo o error tipo 1)
-Encontramos que es falso algo que es cierto (falso negativo o error tipo 2)

Estos cuatro resultados son posibles aunque hagamos todo bien, por la naturaleza estadística del estudio, de lo que se trata es bajar la probabilidad de obtener falsos.

La hipótesis inicial
Los experimentos estadísticos además parten de una hipótesis, que puede ser que cierto programa social, una droga, etc. sirven o no. Esto plantea el problema y la tentación de falsear el experimento. Para bajar esa tentación los experimentos se trata de demostrar lo contrario de lo que deseamos, también llamado "hipótesis nula".

La hipótesis nula
Supongamos que tenemos un programa social y recolectamos datos para evaluar si tuvo impacto o no, el experimento siempre planterá como hipótesis que no tuvo impacto, y si los resultados muestran algo que se pueda interpretar como impacto, se parte del supuesto que esa diferencia es fruto del azar.

Tratamiento y control
Para los experimentos estadísticos se toma un grupo al que se le hizo la intervención (grupo de tratamiento) y otro "estadísticamente idéntico" al que no se le hizo el tratamiento (grupo de control).

Un ejemplo
Supongamos que hicimos un programa de comprensión de lectura para los escolares. Lo primero que debemos determinar es el tamaño de la muestra, para que pueda presumirse representativa. Hay un programa llamado Optimal Design plus Empirical Evidence, es gratis y muy sencillo de usar. Lo fundamental en este caso es que los participantes sean "estadísticamente idénticos" (lo más posible) y que se asigne de manera lo más aleatoria (por sorteo) quien queda en el grupo de tratamiento y quien en el de control. Esas son dos condiciones fundamentales del experimento.

Resultados de pruebas o datos medidos
Supongamos que nuestra muestra es de 1200 estudiantes. a 600 le aplicamos el programa (grupo de tratamiento) y a los otros 600 no (grupo de control). Al comienzo les podríamos hacer una prueba de comprensión lectora a los 1200, con los puntajes obtenidos formamos nuestra "línea base". Al fin del programa hacemos una prueba a ambos grupos por separado.

El sesgo o bias
Supongamos que no hubiésemos hecho la selección al azar y en el puntaje de las pruebas el grupo de tratamiento saca un promedio más alto en los puntajes que el de control ¿es que el programa tuvo impacto positivo?. No se puede decir, porque la diferencia puede deberse a otras variables desconocidas que introducen bias. Por ejemplo en el grupo de tratamiento podrían haberse concentrado los alumnos que tuvieron mejor profesor, su puntaje más alto no se debe al programa sino a la variable "calidad del profesor" que no deseamos medir.

Del mismo modo si hubiesen obtenido un puntaje más bajo tampoco se podría asegurar que el programa fue malo por razones similares (variables desconocidas que introducen sesgo o bias). Además tenemos los errores muestrales, como usamos el azar para construir nuestros grupos puede que haya tocado la casualidad que los grupos quedaran sesgados.

Dispersión de los datos
¿Como nos aseguramos de medir solo el impacto del programa, aislándolo de los sesgos?. Eso es imposible de medir exactamente pero podemos obtener probabilidades. Si al hacer pruebas al fin de nuestro programa para comprensión de lectura obtuvimos que el grupo de tratamiento sacó en promedio 550 puntos, mientras el grupo de control obtuvo 520, entonces suponemos que esa mejora de 30 puntos se debió al azar o al errorr de muestra, esa es nuestra hipótesis nula.

Poder y tamaño de la muestra
Al calcular la muestra existen factores que aumentan la probabilidad que nuestra conclusión sea correcta. Podemos definir por ejemplo que queremos hacer el experimento con un 80% de poder estadístico. Para esto debemos determinar el tamaño correcto de la muestra.

Una muestra ideal tomaría a todos los individuos pero eso es caro y a veces no es práctico. El tamaño de la muestra se calcula en base a la dispersión (varianza) de los resultados en torno al promedio, mientras más dispersos, mayor la muestra que necesitamos. La disprsión de los datos se incorpora en un parámetro llamado "delta" usado para calcular la muestra.

Otra cosa que debe incorporarse es si hay correlación dentro de los grupos, el ideal es que la correlación sea cero (los individuos son completamente independientes entre si), a mayor correlación, mayor la muestra que necesitamos. Esto se incorpora en un parámetro llamado "r cuadrado".

Significancia estadística
La significancia es la que nos dice a partir de que probabilidad podemos rechazar la hipótesis nula, normaslmente se fija en 95% de probabilidad, entonces se dice que el margen de error es del 5%, esta sería la "conclusión" del experimento. Si podemos rechazar la hipótesis nula (que los resultados se debieron al azar) con un 95% de probabilidad o más habremos encontrado que nuestro programa si tuvo impacto significativo.

Trampas y cuchufletas
Si queremos demostrar que si hubo impacto, aunque no lo haya habido, existen varias cuchufletas disponibles. Una de esas consiste en "cortar las colas" de la distribución de resultados, dejando fuera los datos anormalmente bajos o altos, para poder usar una muestra más pequeña. Otra es ignorar los factores que producen sesgo o la correlación dentro de los grupos. Si alguien quiere mentir con estadísticas tiene un abanico de opciones disponibles.

Software estadístico
Mucha gente que se jacta de conocer las estadísticas, lo que saben en realidad es ingresar datos a los diversos software estadísticos que existen y tienen una idea muy superficial de lo que están haciendo. Hace un tiempo tomé un curso sobre "data analysis" (muy aburrido) donde leyendo la experiencia de profesionales que trabajan en eso, aprendí que con el Excel basta y sobra para hacer casi toda clase de experimentos. Desde entonces desconfío de los que se jactan de usar el SPSS, R o cualquier otro paquete "sofisticado y poderoso" a menos que me demuestren que saben lo que están haciendo.

La reputación estadística
Como es difícil que a cada experimento le hagan una auditoría metodológica completa, lo que se hace -en las encuestas de opinión pública al menos- es comparar el resultado predecido por el estudio con el resultado real. Las elecciones presidenciales son un "banco de pruebas" excelente para eso y comparar las encuestas con los resultados nos da una idea del poder de estos experimentos, que normalmente resulta mucho menor al poder calculado.

Si la gente pusiera atención a esas diferencias entre predicción de las encuestas y resultados reales, creería mucho menos en los resultados de los experimentos estadísticos. Los experimentos estadísticos dan muy buenos resultados cuando el resultado es obvio y notorio, cuando los resultdos esperados no son claros, la estadística tiene muchas veces tanta probabilidad de acertar como tirar una moneda al aire. Pese a toda la sofisticación matemática, creo que son métodos muy sobre valorados.

P.D. se me olvidaba mencionar que los datos para calcular el tamaño de la muestra (delta, r cuadrado, varianza, etc.) se sacan de una "encuesta piloto" que se hace más o menos al ojo, al azar en un pequeño grupo de los sujetos. Increíble pero cierto.

2 comentarios:

  1. Sr. Copresidente:

    Bonita disciplina la Estadística, pero es muy cierto lo que señalas en cuanto a sus limitaciones. Y, dada su dificultad técnica, está lleno de aprendices de brujo que se llenan la boca con distribuciones, parámetros y correlaciones (sobre todo con éstas) sin tener mayor idea de lo que hablan pero que, aún peor, convencen justamente por eso. La ignorancia es arrogante, dicen.

    Hace varios años, en una oficina pública donde entonces trabajaba, yo había diseñado varios modelos teóricos para tratar de representar los comportamientos reales, pero faltaba diseñar el experimento estadístico y, por cierto, tomar los datos en terreno. Estaba en eso cuando justo vino un cambio de jefe y, como suele suceder, con él llegaron algunos "asesores estrella", entre ellos uno que era sociólogo, con magister y además doctor (c), que se interesó mucho en lo que estaba haciendo, así que lo tomó y diseñó la fase de terreno.

    Resultado: la religión de los individuos era muy relevante al momento de tomar decisiones de tránsito...

    Resultado real (según yo): se malogró el test y se sobrerepresentó una variable (religión) cuya influencia sobre el fenómeno era irrelevante.

    Nunca más se supo de mis modelos teóricos, obviamente. Al poco tiempo renuncié y me dediqué a otra cosa, pero aún los tengo por ahí. Podrían ser un buen tema de tesis.

    Una buena frase que resume mis experiencias estadísticas es que ésta "es el arte de torturar a los números hasta que confiesen"...


    Saludos,
    El triministro.

    ResponderBorrar
  2. Así es triministro, la cocina estadística es más grande que la del Palacio de buckingham, desgraciadamente con el auge de los nuevos software está repleto de gente -la mayoría de las ciencias sociales- que la usan generosamente para falsear resultados. Como el software hace muy fáciles los cálculos no cuesta mucho armar un modelo e irlo cocinando hasta que nos de los resultados que esperamos.

    Hay dos errores básicos muy comunes: los metodológicos como equivocarse en el peso que le das a las variables en las regresiones, haciendo oídos sordos a los resultados absurdos, como ese de religión y comportamiento en el tránsito que mencionas. También hay errores en los modelos mismos, que no responden a lo que estamos preguntando. Si se entendiera que son solo cálculos de probabilidades sujetos a un cúmilo de simplificaciones y supuestos muy fuertes, la respetabilidad de estos estudios bajaría bastante.

    Algunos se equivocan porque no tienen el conocimiento matemático base necesario y no entienden bien lo que están haciendo, pero otros con mucho conocimiento matemático también se equivocan porque creen que las idealizaciones y simplificaciones brutales que hacen al modelar no serán significativas. O sea se equivocan por exceso y por falta de calle!

    Cuandoveo esos estudios que "demuestran estadísticamente" cosas como el valor de la educación preescolar en el rendimiento académico futuro, me dan ganas de salir arrancando. .

    ResponderBorrar

"Send me a postcard, drop me a line
Stating point of view
Indicate precisely what you mean to say
Yours sincerely, wasting away
Give me your answer, fill in a form
Mine for evermore
Will you still need me, will you still feed me
When I'm sixty-four"