08 diciembre 2011

No le creo mucho a las estadísticas de personas


Siendo las 2:15 AM acabo de mandar a mis coautores la tabla resumen y las fichas de los paper (más de 20) que me leí en estos días. Se supone que el artículo sobre la deserción universitaria debe ser fácil, pero lo estoy haciendo de la manera difícil con fichas y todo eso que, pese a lo trabajoso esa manera ayuda bastante a entender y organizar las ideas.

El artículo anterior lo escribí a sangre de pato nomás así es que me lo devolvieron -dos veces- con una montaña de correcciones y objeciones. Si eso de la metodología funciona, supongo que esta vez las objeciones deberían ser menos. Al menos eso espero. Ojalá que este me sirva como entrenamiento para el próximo artículo sobre economía del agua, que creo que sería el primero que -más o menos- valdrá la pena.

Mientras más artículos leo, menos me gusta la econometría. Eso que los estadísticos llaman investigación empírica, muy distinta de los experimentos de ciencias exactas, claro. En estudios sociales se trata de hacer un modelo matemático a partir de datos que no tenemos idea como están relacionados, entonces hacemos una primera aproximación poniendo los datos en una tabla (tabla de contingencia) y tratando de ver relaciones .

El método se llama estadística inferencial, porque trata de inferir relaciones usando la estadística a partir de datos dispersos.La gran diferencia con las ciencias exactas es que las inferencias estadísticas pueden no resultar ciertas en general.

En otras palabras tenemos muchos datos que varían (variables) y queremos saber si algunos causan la variación de otros (variables independientes) o son el resultado de otros datos que varían (variables dependientes). Entonces usando el "suponguimetro" planteamos una hipótesis y decimos: "esta variable cambia como resultado de los cambios de esta, esta y esta otra". Eso es lo que pomposamente los econometristas llaman un modelo matemático. Normalmente es una o varias ecuaciones del tipo

Yi = K + C1*X1+C2*X2....+Cn*Xn
Por ejemplo:
Deserción=C1*Notas Ens Media +C2*Escuela donde Estudió+C3*Coef.Intelectual
Donde C1, C2, C3 son números, los "coeficientes" o el "peso" (influencia) que tendría cada una de las variables.

Claro que estoy super simplificando el modelo, normalmente no es una sola ecuación sino un sistema de varias ecuaciones y si el sistema es dinámico serían ecuaciones diferenciales, hay constantes, error y etc. pero en fin, esa es más o menos la idea base, las otras complicaciones son detalles nomás. En el fondo toda predicción es un problema de aproximación de puntos a una curva. En este link pueden ver una explicación más completa.

En algunos casos podemos usar el "suponguimetro" para armar nuestro modelo. Por ejemplo yo aquí supuse que la deserción dependía de las notas de enseñanza media, la escuela donde estudió y el C.I. del alumno, lo que parece una suposición razonable pero ¿quien nos asegura que es así? Podría no haber ninguna relación con alguna o incluso con todas esas variables.

Para eso la estadística ofrece algunas "pruebas de hipótesis" que permiten tener algo más concreto que el suponguimetro, pero no mucho más concreto porque si estamos tratando con personas generalmente obtenemos los datos a partir de encuestas ¿quien nos dice que las respuestas fueron veraces? ¿y como sabemos que el grupo que encuestamos representa de manera auténtica a toda la población que nos interesa?.

Claro, los estadísticos tienen pruebas y explicaciones para todo eso, pero el caso es que no son nada convincentes tratándose de personas. Hasta los estudios con animales o plantas no tengo problemas con las estadísticas, pero con personas mmhhh...

Si le agregamos que correlación no implica causalidad, entonces llegamos a que los modelos econométricos, por más repletos de ecuaciones y yaba-daba que usen, parecen tener un poder predictivo parecido al de mi amiga y afamada mentalista doña Eliana, que una vez hasta me dijo que en el futuro yo iba a tener mucha plata.

En todo caso un buen artículo con la historia de la estadística, lleno de anécdotas y datos curiosos se puede leer en el blog Estadísticas Amigables de Hugo Casanova. Es muy entretenido y recomiendoleerlo al que le interese el tema.

Un último detalle antes de seguirlos aburriendo con mis pesadillas estadísticas, con todo este asunto me he dado cuenta de la enorme importancia que tiene un buen abstract, ese resumen de pocas palabras que se pone al principio de los artículos. Cuando hay que leer 30 o más artículos que uno no sabe a priori si son basura, si tienen algo que valga la pena o si son extraordinarios entonces viene la importancia de que el abstract esté bien escrito ¡algunos no dicen nada, son pura propaganda, generalidades, tonteras! Desde hoy me declaro devoto de San Abstracto, me gustaría escribir alguna vez uno así:

Título del artículo "¿Son adecuados los sistemas de ecuaciones paramétricas para explicar el comportamiento de la deserción universitaria?
Abstract: No.

Y como ya es muy tarde y yo me caigo de sueño, además mañana me tendré que levantar relativamente temprano, como dice el corrido, ya con esta me despido. Hasta mañana.

14 comentarios:

  1. Eñ "suponguímetro" ! maravilloso descubrimiento, que agrego al "ojímetro· y al "masomenometro" que ya escuché antes.
    Antes que el machacador de números permitiera tirar todo tipo de curvas sobre una nube de puntos en cualquier PC no era imposible dibujar tendencias sobre un papel donde se haboam ploteado los dichos valores. Si las tendencias eran rectas, se usaban reglas, pero si eran curvas se usaba o la mano alzada pero, por prolijidad, mayormente un "curvilíneo", una pieza de plástico con diferentes curvaturas.
    Y esa terminaba siendo "la curva". Por tanto, postulo que los fabricantes de curvilíneos han influído sobre la economía occidental por lo menos durante cien años.

    ResponderBorrar
  2. jaja, son las tres herramientas fundamentales: suponguímetro, ojímetro y masomenómetro!!.

    Claro, me acuerdo de esas piszas de plástico con muchas curvas, como no se me había ocurrido antes que con esas se puede dibujar y quedan bonitas.

    Ahora se alimentan los datos y los programas dan curva, coeficientes ¡todo! los ingenieros ya no son como antes, no señor.

    Según me dice mi socio debemos ver la carga (signo) de los coeficientes y cuales fueron significativos: si son muchas en un solo sentido se usa regresión lineal múltiple; si van una a una en una sola dirección se usa un modelo logit; si todas se relacionan se usan ec estructurales o modelos de trayectorias. Lo bueno es que hay programas para todo eso, nada de curvilíneos ahora jaja!

    Hace unos dían no sabía una palabra de eso, pero sigo sin creer nada. Si al final todo se basa en encuestas.

    ResponderBorrar
  3. Tengo algunas cosas en el tintero con Ud. Don Tomás, pero la rutina come el tiempo como hongos los pies.

    Sobre el post de la muerte del hombre rico, no estoy tan seguro, siempre recuerdo al G. Eastman, de kodak, si bien estaba enfermo, no era el fin del mundo, pero un día dijo "My work is done, why wait?", subió a su pieza y se metió un tiro.

    Los bancos, los definía Bob Hope, como unos tipos que te prestan una linterna cuando es de día y les demuestras que no la necesitas, pero es complicado, si no prestan palos, si prestan palos. Todos olvidan el factor riesgo, y por eso se repite la historia, "la confianza exuberante" es crónica, desde el asunto de los tulipanes holandeses, mar del sur, la manía de los ferrocarriles de 1845, el fraude Louisiana, la manía bursátil de1929, las punto.com, etc.

    Perdió la vallejo, pero 1 cosa ¿cómo con todo lo pasado votó apenas poco más del 50% de los alumnos?

    Como decía un profe, y siempre lo repito, la estadística es el arte de probar cualquier cosa.

    Y por favor, si puede vote:

    La Encuesta Del Año 2011



    --

    ResponderBorrar
  4. recuerdo que eso de generar rectas y curvas a partir de la observación, lo aprendí en física con Silvia Martin gran profesora,un aprendizaje que hasta hoy me sirve.
    También con el tiempo aprendí la importancia de calibrar los instrumentos antes de medir, una idea que parece obvia pero que muchas veces es pasada por alto.
    Para medir el comportamiento de servidores uso una herramienta llamada cacti, basado en snmp.
    Cacti mas comandos de consola como sar,top,ps,lsof puedea diagnosticar rápidamente un fallo.

    ResponderBorrar
  5. Vea, cuando estudiaba Hidrología mis profesores - jefes de los organismos que seguían eso a nivel nacional - se lamentaban de la escasa estadística sobre el ramo. Algunas pocas décadas de datos, en lluvias, por ejemplo, y sólo desde que las companías ferrocarrileras inglesas les dieron un pluviómetro a cada jefe de estación y lo obligaron a anotar.
    Por cierto los empleados resentidos gustaban llenarle el pluviómetro durante las noches calmas para que el jefe se torturara la mañana siguiente con el dilema de si anotar o no ese extraño fenómeno.
    Usaban mis profes el Modelo de Markoff, un ruso que fabrica series sintéticas de datos a partir de los estadísticos básicos de una publación (distribución, media, desvío, etc...) con más un generador random. Todo eso para simular series de datos en períodos más largos de los que en realidad tenían.
    Yo, mientrs tanto, leí las memorias de Lina Bernard, una protestante que habitó la ciudad costera en 1850. Se burlaba un tanto del sistema católico para enfrentar los desastres naturales: Cuando el río crecía, sacaban un Santo de alguna Iglesia y lo paseaban en Procesión. Si no daba resultado, sacaban otro, semana tras semana. San Jerónimo era el penúltimo y la Virgen el remedio final.
    En general los curas del momento habrán estimado que el Milagro de la remisión del mal ocurriría antes de que se les agotara el Santoral, salvando la Fe.
    Entonces yo propuse que se recorriesen las Iglesias y se revisasen las anotaciones de su procesiones y rogativos. De eso sí había material, me informaron, hasta de varios siglos.
    LUego se plantearía una ecuación valuando la magnitud del fenómeno natural por la cantidad y jerarquía de Santos que volcó a la calle. De tipo:
    Excepcionalidad del Fenómeno = K1 * veces que se utilizó a San Franciso + K2 * veces que se utilizó a Santa Magadalena + ...

    Esto serviría, postulé, para valuar desde la magnitud de los terremotos hasta la duración de las inundaciones del Pasado.
    Pero en la Cátredra no me prestaron la menor atención.

    ResponderBorrar
  6. Heitai, mucha gente se suicida para apurar el trance nomás, me parece OK, Hemingway fue un buen ejemplo aunque dicen que estaba borracho cuando se mató. Vaya uno a saber.

    No se puede hacer nada relacionado con bancos o prestamos si no se considera el riesgo, es absurdo, el riesgo es todo en esos casos.

    La votación del 50% es muy alta para la U de Chile, creo que esa es más o menos el % de la población con derecho a voto con que se eligen presidentes en Chile.

    Las estadísticas son fascinantes, excepto en asuntos donde entra el comportamiento humano, ahí si que no les creo nada

    ResponderBorrar
  7. Eduardo, la mala calibración de los instrumentos da para millones de errores, en estadística pasa algo parecido con la determinación de la muestra ¡es increíble la cantidad de errores y subjetividad que se introducen!.

    Los procesos para calcular muestra aleatoria son tan enredados y caros que es casi estandar usar muestreos no-aleatorios ¡y con eso todo el resto del trabajo y las conclusiones no valen nada! La estadística de por si da resultados inciertos, pero si tomamos mal la muestra le sumamos error tras error. Es igual que medir con un instrumento mal calibrado.

    ResponderBorrar
  8. Ulslchmidt, esos procedimientos esotéricos como los de Markoff de completar series usando datos aleatorios no me convencen para nada. Creo que no es raro que esa clase de estadísticas se use para fenómenos donde los errores conceptuales no se notan o no importan mucho. Me gustaría ver si con esas estadísticas se puede predecir cosas como ganar en la ruleta o algo por el estilo donde la inutilidad del método se nota enseguida. Para fenómenos climáticos es bastante más difícil darse cuenta si sirve o no.

    Extraordinaria idea de observar las iglesias, si se piensa bien no es muy distinta del hecho de crear curvas de tendencia sintéticas, que no tienen ninguna relación con el fenómeno mismo, como lo hace la rregresión y otros métodos. Yo voto por la observación de los santos!

    ResponderBorrar
  9. Generalmente la aplicación de Redes Neuronales es denostada porque es una "caja negra" de la cual no se conoce el significado de las variables. Sin embargo, en los modelos econométricos aunque se conoce el significado de cada variable, tampoco sirven de mucho puesto que cada variable es definida o interpretada subjetivamente por quien realiza el estudio.

    De esta forma, un modelo basado en redes neuronales resulta tan carriliento como cualquier modelo econométrico, así es que también debiera considerarse para el caso de fenómenos sociales.

    ResponderBorrar
  10. Si Claudio, la subjetividad de los modelos esconometricos es la madre del cordero, creo que es el gran punto débil especialmente cuando tratan de predecir el comportamiento humano, es un carrilde proporciones mayúsculas. Yo admiro mucho la estadística, excepto en asunos donde entra el comportamiento humano, creo que en eso normalmente son un mega-cuento

    ResponderBorrar
  11. Hola Tomas:
    Hace tiempo que no comentaba tus textos ... supongo que este es el tema del momento la endiucacion y desercion universitaria (de interes para los "dueños de Universidades y Bancos solidarios") y los que apoyan esta causa noble y justa, los marepotos y tusunamis .
    Revisando los modelos matematicos que ilustraban el texto , la experiencia me dice que el tincometro le achuntara bastante a la prediccion de quienes desertaran en la U, siempre tuve compañeros re inteligentes que se fueron de la carrera por decision personal (uno de ellos era PhD Math de Stanford cachate esa), otros con plata que no siguieron por falta de aguante, y unos re pobres con todo en contra que lograron la meta a costa de un sacrificio personal y familiar mas triste que la historia de Remi, Marco y Heidi juntos, ahora somos muchos los orgullosos egresados y endeudados.
    Es que son muchas variables, da una curva con puntos muy dispersos, "la mente" del ser humano es muy compleja como para predecir con exactitud el comportamiento, pero hay algo que nos juega en contra siempre .. la genetica eso de que todos los chilensis tenemos en mayor o menor grado sangre mapuche y española nos hace volubles en cuanto a decisiones tomando en cuenta los factores estresores como carga de trabajo o estudio o ambas, inclinacion por el epicurismo o estoicismo , gustos por brebajes fiestas malones encerronas y otros accesorios recreativos, nivel hormonal del momento alza de testosterona o estrogenos segun corresponda, ciclo de sueño y factores descompensantes que son como todos los anteriores, y luego viene la historia personal (vease "la sociologia de Karl Marx", donde estamos casi condenados a quedarnos en la casta social donde nacimos). Ahora si el susodicho pudo vencer todo lo anterior y aguanta mas palos en la cabeza que Ghandi y logra quedar en alguna universidad (para seguir recibiendo palos de todo tipo.. saludos las FFEE de Car).. veamos como influye el nuevo ambiente universitario para tratar de predecir exito o fracaso. En resumen ya lo dijeron antes genotipo+ambiente=fenotipo.
    A proposito, parece que eso de calibrar todo antes de empezar, el metodo prusiano de aprendizaje en mi hogar y lo weno para aguantar castigo como buen nativo de esta patria me hicieron sobrevivir, para un proximo regreso a mi ciudad y disfrutar del trabajo poco y la larga siesta previa al paseo en la playa.
    Saludos, Pedro.

    PD: aun conservo la cercha ( AKA Curvilineo) que me ayudaba con las curvas de calibracion en Fisica en la U. Tengo pendiente aprender a usar la regla de calculo , eso es mas de tu epoca Ja!

    ResponderBorrar
  12. Ah Pedro, tocas un punto muy interesante que en los modelos econométricos se llama la "heterogeneidad no observada" o sea características personales imposibles de medir -o que simplemnente no se miden en el modelo- hay todo un cuento con eso. Creo que el tema da para una nueva entrada, es muy interesante y claro, es una de las razones por los cuales esos modelos son por lo general igual de útiles que un cenicero de moto.

    ResponderBorrar
  13. Hola Tomas:
    Gracias por el comentario de heterogeneidad no observada, sabes que aunque somos bien heterogeneos en algunos factores por esta larga y angosta faja de tierra, la genetica mapuche española es bastante transversal, te recomiendo leer los papers de Genetica de poblaciones del Dr Carlos Valenzuela de La Facultad de Medicina Universidad de Chile (Medico, Genetista, pediatra, estadistico y teologo), el ha estudiado bastante el tema y obviamente destaca la excepcion de las 20 y tantas familias del barrio alto que no se han mezclado con el perraje desde la Colonia Pos Hom , ahi nos vemos ... Slds Pedro

    PD: no se por que sali como Unknown en el comentario previo.
    pf.hecht@gmail.com

    PD2: Aca en la Chile estaban ocupando un modelo de esos para predecir mal rendimiento en examen medico nacional, que obviamente mide cosas en un estilo que para nada se asemeja a la enseñanza de medicina de la Chile. Con esto seleccionaban personajes y temas para realizar reforzamiento pre competencia

    ResponderBorrar
  14. Pedro, esos modelos son un temazo y la genética es uno de los campos donde esos modelos estadísticos son más exitosos, voy a buscar los trabajos del Dr. Valenzuela ue parecen muy interesantes.

    Lo que me comentas sobre el valor predictivo de las pruebas de selección y de habilitación (como es el exámen médico nacional) es prácticamente lo mismo que yo estoy haciendo. Hay varios modelos posibles y el que ahora está de moda es el de Ecuaciones Estructurales. Tengo que escribir sobre eso más adelante, es muy interesante porque usa modelos econométricos para aplicarlos a la psicología. Aunque los métodos son bien dudosos es muy bonito el refinamiento increíble al que han llegado ara tratar de adivinar cuestiones que tienen que ver con el comportamiento humano. Es un temón

    ResponderBorrar

"Send me a postcard, drop me a line
Stating point of view
Indicate precisely what you mean to say
Yours sincerely, wasting away
Give me your answer, fill in a form
Mine for evermore
Will you still need me, will you still feed me
When I'm sixty-four"