Páginas

06 septiembre 2022

Encuestas y pronósticos

Las encuestas normalmente se ofertan como instrumentos para hacer proyecciones o para bajar la incertidumbre sobre algún tema. Por ejemplo los resultados de las elecciones, la aprobación de figuras públicas y cosas por el estilo, bueno, eso es al menos en las encuestas que pretenden ser serias, porque hay otras -como las de Marta Lagos- que son solo productos para vender desinformación y propaganda.

Pero hablemos de encuestas que publican sus metodologías, que no manipulan los datos de base, que usan muestras con aleatoriedad y representatividad calculadas matemáticamente, y que cumplen con todos los requisitos de la estadística inferencial que permiten hacer "prediciiones educadas"-

El caso de las encuestas electorales es interesante, porque ese es uno de los muy pocos casos en que la validez del instrumento y su potencia de predicción pueden ser confrontadas con el resultado real de un censo, en un corto período de tiempo cuando se conocen los resultados de la elección. 

Entre las encuestadoras chilenas creo que hay una sola que cumple con las condiciones metodológicas de rigor y seriedad como acabo de describir, es la encuesta del Centro de Estudios Públicos (CEP), las demás como Cadem, Criteria y una multitud de otras empresas chicas simplemente se dedican a forrarse en plata creando productos a la medida de sus clientes políticos: confianza cero.

Bueno, el asunto es el siguiente me parece que CEP hizo su última encuesta en abril-mayo 2022, leo en la prensa lo siguiente:

Resultados Encuesta CEP: 37% aún no ha decidido cómo votará en el plebiscito de salida
A pocos meses del proceso eleccionario, el sondeo mostró que un 27% de los consultados optaría por el Rechazo a la nueva Constitución, mientras 25% optaría por el Apruebo. Sin embargo, dicha diferencia estadísticamente no sería "significativa".

Ya todos sabemos que la opción rechazo ganó por veinticuatro puntos porcentuales, siendo que en una medición de abril la única encuesta seria pronosticaba un empate estadístico. Algo anda mal aquí y si no hubo manipulación de los datos, cosa que dudo y si el diseño de la muestra tomó todos los resguardos para que fuera representativa, cosa que parece desprenderse de la ficha técnica, entonces la conclusión lógica es que la estadística inferencial no es un instrumento adecuado para hacer inferencias y menos pronósticos.

A mi no me interesan las implicancias políticas de esto, pero creo que las técnicas son infinitamente más amplias. Si una encuesta metodológicamente bien hecha, rigurosa, es incapaz fe hacer un pronóstico medianamente cercano sobre un problema sencillícimo, como es quien ganará entre dos alternativas ¿Cómo es posible que tengamos confianza en experimentos estadísticos de doble ciego en cuestiones de tratamientos, vacunas y epidemias? ¿Cómo podemos confiar en los estudios econométricos que hacen ministerios y el Banco Central? ¿Cómo podemos ver con confianza la evaluación de impacto de los proyectos sociales, que deciden inversiones billonarias del estado?

Estos problemas que he mencionado y muchos otros, que "investigan" usando la estadística inferencial,  resultan ser un fraude, aunque aparezcan en papers de revistas de "alto impacto" y por más que tengan el valor que sea de r cuadrado, que todos los cálculos sean correctos y que no exista sesgo de ninguna clase. Es nuestra ignorancia la que nos da seguridad, las certezas de los ignorantes son rotundas.

Es una ignorancia creer que la complicación matemática tiene virtudes de magia negra, que un largo y complicado set de ecuaciones y sus cálculos nos permiten ver el futuro. Y lo peor es que no se trata de seudociencia, es ciencia pura y dura, aunque pésimamente aplicada. 

Ojo, porque pronosticar el resultado de un plebiscito con solo dos opciones es un problema ridículamente simple comparado con las otras cosas que se "investigan" usando la estadística inferencial, que están sujetos a multitud de ruidos y variables, tanto evidentes como ocultas. La clave que permite sobrevivir a este "engaño científico" es que -a diferencia de las elecciones donde tenemos resultados y podemos comprobar enseguida si el pronóstico fue correcto o  no- en todos los demás problemas no hay forma de saberlo, no existe ninguna manera de conocer el acierto o fallo con certeza, "el papel aguanta todo".

Las vacunas y epidemias; las fluctuaciones de la economía y los precios; el impacto social de los proyectos y miles de otras cosas que se "pronostican" usando la estadística infernecial son chamullos disfrazados de ciencia. La estadística es el nuevo fetiche, que usan los grupos de poder o interés especial para manipular la opinión en un mundo lleno de ignorantes. Esta masa -que incluye acade´micos y doctores- no tienen capacidad de pensamiento crítico y se tragan sin masticar cualquier argumento de autoridad que les metan por la boca.

12 comentarios:

  1. JAK siempre lo tuvo claro https://youtube.com/shorts/Uu3xoAof8XU?feature=share

    ResponderBorrar
  2. Jjajaja. Ese ganapán de La RED es una vergüenza.

    Sobre las encuestas, el pelado de Cadem, que sabemos es una mascota de Sebastián, anunciaba días antes del plebiscito que el apruebo estaba repuntando gracias a las concentraciones callejeras. Estaba clarito el fulano.

    Y toma en cuenta esto: Las encuestas acertaron el ganador pero no la cantidad de gente que votó, esto, debido a la gran diferencia de votos.
    Si por el contrario, hubiese ganado el rechazo por poca diferencia, las encuestas hubiesen dado como ganador al apruebo en el universo de votantes menor que esperaban, es decir, entre dos alternativas se hubieran equivocado. Un fraude.

    ResponderBorrar
  3. Máximo, yo no hablo de la parte política que no me interesa mucho (nada en realidad) el punto es técnico. Toma en cuenta que CEP es distinto de Cadem y la encuesta CEP es la única encuesta que se hace de acuerdo a cierta rigurosidad estadística en Chile, yo no creo que haya tenido ni problemas metodológicos ni de sesgo.
    Acertar en el ganador con un resultado así era obvio e inevitable, el asunto es este: creo que desde el punto de vista estadístico todos estamos de acuerdo que si el resultado es apretado resulta muy difícil de predecir, las que aciertan en ese caso son más que nada por suerte.
    En cambio en una diferencia tan grande es evidente que -según la teoría de la estadística inferencial- era casi imposible escoger una muestra no representativa que fallara en los porcentajes ¡una encuesta 60-40 es como pescar en un barril! No puede fallar, especialmente si la muestra se ha diseñado siguiendo con rigor los criterios de la misma estadística.
    Ahora, hay encuestas que se hicieron con una metodología que es un chiste, como la que hizo Mayol y sacó porcentajes mucho más cercanos al resultado real, sin cumplir ninguno de los requisitos de muestreo ni de aleatoriedad para asegurar que no había sesgo.
    ¿Qué significa todo eso? Para mi es claro que el MÉTODO no sirve, la estadística infernecial no sirve y da mejores resultados un mono tirando dardos o Mayol preguntando a su grupo de amigos, solo por casualidad tiene iguales o mejores pronósticos

    ResponderBorrar
  4. Hay una odiosa teoria de muestreo que pide que cada elemento de la poblacion tenga la misma probabilidad de estar en la muestra, o los resultados, por mucha formula que se use, pueden valer hongo.
    Eso en biologia, un campito de manzanas, por ejemplo se puede aproximar casi al 100 % y validar (los tomadores de muestras tambien son tramposos y flojos) muestreando parte de la muestra de nuevo.
    Pero medir cantidad, tamaño, distribucion, etc son mediciones bastante o muy precisas. No hay sesgo en las preguntas, no lo hay en el tono que usa el encuestador, ni hay maña ideologica, o moda o miedo o mera precaucion del encuestado, ademas cada elemento del muestra se mide efectivamente, no hay conserjes que no te dejen pasar al edificio, o encuestados que manden a buena parte el intento. Tampoco me interesan resultados "bonitos", el muestreo es para mi, me cuido de hacerme trampas, quiero tener una prevision de lo que encontrare al final del ciclo.
    En fin las condiciones para que un muestreo a personas de una poblacion son, en la practica , imposibles. Entonces se usan aprox, se dividen en sectores, y se les atribuyen ciertas caracteristicas seudohomogenea, y se atribuye un peso relativo de cada uno,se usa mucho el reemplazo de sujetos, se trata de chequear con contra preguntas lo que de verdad creen los pocos (generalmente bastante pocos) que aceptan ser entrevistados, se hacen los lesos con el probable sesgo que implica aceptar la entrevista, etc etc. Es decir las normas se van al diablo.
    Entonces no es raro que no atinen (curiosamente hubo una que hablaba de 40/60 % nadie la pesco, pudo ser solo casual o propaganda). Se suma que la poblacion de votantes esta vez crecio, y aparentemente con gente que no acostumbraba votar, (vote por primera vez ;-) ) y que tenia una conducta desconocida, solo se afirmaba que era semejante a los votantes, otros muy pocos apostaban a gente mas centrada, pero eran meras opiniones.

    ResponderBorrar
  5. Wilson, la aleatoriedad de la muestra es requisito Nº1 en cualquier experimento estadístico, para conseguirla existe una serie de métodos y un estudio serio debe cumplir con eso. Sin embargo, aunque la muestra sea 100% aleatoria eso no asegura que sea representativa. En un curso de estadísticas bayesianas de Coursera, la profesora decía que la muestra era como diluir sal en la sopa, así no necesitas tomar toda la sopa para saber si está bien o mal de sal, con una cucharada basta.
    Esa analogía es excelente, porque ilumina el problema más grande e insoluble de la estadística inferencial; es IMPOSIBLE que el universo esté igualmente "diluido" (en el sentido figurado) que el universo total, para obtener una muestra representativa. Por eso jamás las muestras son representativas, porque no se diluyen como la sal en la sopa, no existe matemáticas ni aleatorización que solucione esa debilidad fundamental

    ResponderBorrar
  6. Además que están los problemas muestrales y de sesgo que mencionas y muchos más, que afectan incluso a las manzanas o las piedras. PAra que hablar del uso de estadísticas en biología o economía

    ResponderBorrar
  7. Cierto que cada arbol y sus manzanitas ,es diferente y unico, y una muestra que cumpla con las condiciones no es una cucharada de sopa, pero una muestra tiene requisitos, su tamaño dada la poblacion y el error muestreal que da un rango donde es confiable...razonablemente. Pero claro poblaciones muy herogeneas son complicadas, especialmente si no se conoce esa dispersion.
    Yo le tengo razonable confianza a las investigaciones biologicas, relativamente directas digamos de una variable contra un resultado, como un medicamente y su efecto. Los huastecos hacen algo semejante, con parcelas experimentales uniformadas por conocimento de sus de caracteristicas (siembran trigo parejo en todas y miden su respuesta base, para detectar diferencia de suelo, irrigacion, mal de ojo etc), entonces despues aplican un tratamiento a algunas elegidas y miden diferencias con las no aplicadas. Claro que el "doble ciego" ahi no existe.
    Otro cuento son los intereses de los investigadores, las modas que se van imponiendo si quieren financiamiento etc.

    ResponderBorrar
  8. Interesante el tema. Un matemático, biólogo, estadístico de alto vuelo fue Robert Fischer, el tipo que congenió la selección darwiniana con la genética de Mendel. Nunca le gustó la inferencia bayesiana, por caso.
    Ahora, en el caso de las votaciones, creo que el error supera los errores muestrales, metódicos, etc.. porque simplemente es un proceso en curso. La gente está en proceso de decidirse o de cambiar su decisión o de siquiera conocer el tema. Todo lo que va pasando la puede afectar. Muchos quieren estar con el ganador, y los resultados los influyen, o no desperdiciar el voto, y se concentran en los que son los principales candidatos, por ejemplo. Como se sabe que los resultados influyen, las encuestas truchas aumentan, son parte de la campaña. Mucha gente desarrolla "defensas" contra las encuestas, esconden sus inclinaciones. Mucha gente cuelga el teléfono y a otra le encanta contestar.
    Imagínese:
    1) las personas que tienden a evitar las encuestas son más reservadas y conservadoras y tienen al "rechazo" en cambios institucionales fuertes,
    2) Las personas que suelen contestar encuestas están más predispuestas a aceptar cambios institucionales drásticos,
    No tiene que ser cierto, pero nadie puede demostrar que los postulados estos son falsos. Basta algo así y ya te sesga el muestreo. Uls

    ResponderBorrar
  9. profe, q le pasó con la cuenta twitter?

    ResponderBorrar
  10. De hecho, puede que ahora las encuestas recuperen prestigio desde el momento que predijeron la victoria del rechazo. Poca gente se va a fijar por cuántos puntos se hizo la predicción y se descartará como un detalle menor.

    ResponderBorrar
  11. Por eso es que además resulta complicado modelar los mercados. Quienes apuestan en la bolsa lo hacen guiados más por instinto que por aplicar algún modelo, pero de todas maneras apostar en la bolsa se parece mucho a la ruleta.

    ResponderBorrar

"Send me a postcard, drop me a line
Stating point of view
Indicate precisely what you mean to say
Yours sincerely, wasting away
Give me your answer, fill in a form
Mine for evermore
Will you still need me, will you still feed me
When I'm sixty-four"