10 marzo 2019

In vino veritas y Big Data


Vino veritas
Anoche nos juntamos en el Stadio Italiano con amigos que no veía desde hace más de 15 años. Estuvimos con Héctor Vera y Cecilia, su señora, también con Toribio Vergara, debe haber sido de los años 90 o 2000 que no nos veíamos. Héctor se acaba de jubilar de la Escuela de Periodismo de la Universidad de Santiago, donde era el decano permanente, mientras que Toribio, con quien me saqué la foto, es hombre de radio, de los mejores periodistas que tenemos en Arica. Grandes valores ambos.

Aproveché que no estaba manejando así es que me tomé cada vaso de cóctel de mango, vino y piscola que me pusieron por delante. Tomar y conversar en compañía de amigos es uno de los lujos más grandes que podemos darnos en la vida, en especial con Héctor que tiene el don de la palabra. Es uno de los mejores conversadores que conozco, lástima que me faltó sacarme una foto con mi buen amigo, ojala me manden alguna para colocarla acá.

Con mi cerebro medio borrado de innumerables piscolas -todos se portaron muy sobrios y caballeros, menos yo- escuché la linda historia de Ulises, que en su largo camino de vuelta a su casa naufraga y va a dar a la isla Ogigia, donde es muy bien recibido por la ninfa Calipso, que se enamora de él y hace todo lo posible para que se quede, dándole sexo y placeres de todo tipo sin interrupción, ella y las demás ninfas de la isla.

Ulises llega a olvidar el paso del tiempo y Calipso tiene cuatro hijos en siete años con él, imaginen como lo estaba pasando el pobre, pero en un momento se acordó de su familia, de su esposa Penélope y le vino la nostalgia, entonces recordó que el propósito de su viaje era volver a casa. Calipso no lo dejaba ir y Ulises lloraba todo los días mirando el mar y recordando  a los suyos, finalmente le pidió a Atenea, la diosa que lo protegía, que le ayudara, esta intercedió con Zeus, quien ordenó a Calipso que soltara inmediatamente a Ulises.

Calipso frustrada -no podía desobedecer a los diosos- hizo un último intento y le ofreció a Ulises que si se quedaba con ella, le daría la inmortalidad y la eterna juventud: a su lado nunca iba a envejecer. Ulises lo pensó y le dijo que no, prefería envejecer con los suyos y estirar la pata como cualquier mortal. No recuerdo a propósito de qué salió esa historia, pero Héctor la contó muy bien y yo -que nunca leí la Odisea- la encontré apasionante. La Odisea relata un viaje con final feliz, algún día me animaré a leerla, aunque sea en español.

Esta buena historia fue lo que se me quedó en la memoria entre las muchas tonteras que hablamos. Yo creo que habría escogido igual que Ulises, envejecer con amigos y familia, aunque unos pocos años con Calipso y las ninfas no me vendrían nada de mal, a ver si se me cruzan las ninfas un día de estos. Aunque medio difícil lo veo igual levanto mi vaso con néctar de ambrosía y brindo por eso.


Big data y elecciones
Leo en el blog Soy Data de Jorge Ubero, un interesante artículo sobre el fracaso -o tal vez mal uso- de la ciencia de datos para predecir elecciones. Con esto de la ciencia de datos está pasando algo muy parecido a lo que ocurrió con el mal uso de la estadística en ciencias sociales, economía, medicina, etc. durante el Siglo XX y hasta comienzos del Siglo XXI.

La estadística fue el gran fetiche del Siglo XX, se le atribuyeron propiedades casi mágicas y la capacidad para predecir el futuro muy exagerada. No hay que olvidarse que sir Francis Galton, que inventó la regesión lineal, también era un frenólogo y tuvo toda clase de ideas chifladas en base a sus estudios estadísticos. Desde entonces y hasta el día de hoy se viene abusando de las herramientas matemáticas para convencer al populacho y dar un barniz de "científico" a toda clase de engaños.

La mayoría de los "estudios" e "investigaciones" de econometría por ejemplo son bastante fraudulentos, para que hablar de los estudios médicos o nutricionales, está repleto de abuso de las estadísticas y de artículos que venden opiniones interesadas cubiertas con el engorroso ropaje matemático de las estadísticas para hacerlas ver "respetables y científicamente probadas" ante los ojos de la gente ignorante.

Hoy es el Big Data que ha tomado el lugar de fetiche que tuvieron las estadíticas en el siglo pasado. En palabras simples, el buzzword "Big Data" se refiere a estadísticas sobre grandes bases de datos. Una de las críticas más fuertes que se le ha hecho siempre a la estadística tradicional es que las muestras representativas muy rara vez existen, normalmente se trabaja con uestras y métosod llenos de sesgo.

El Big Data trata de responder a eso trabajando sobre una enorme cantidad de datos, para esto se aprovechan que gracias a Internet se han coleccionado muchos más datos que nunca antes en la historia y que se pueden aplicar las herramientas estadísticas ya no sobre muestras sino sobre censos, o sea sobre la totalidad de la población o algo que se le aproxime. Esta va a ser una tendencia creciente en futuros estudios porque los datos masivos se están haciendo cada vez más accesibles y disponibles.

Sin embargo
El problema de la muestra no representativa no es el único que tiene la estadística, existen otros mucho más fundamentales y es que aunque se usen las más super sofisticadas herramientas matemáticas y los mejores algoritmos, no existe manera de predecir iertas cosas a partir de las frecuencias. Para asuntos que involucran el comportamiento humano, incluso el cálculo de probabilidades, algo puramente aritmético y de mucho sentido común, es inútil, porque las frecuencias en estos fenómenos no nos dicen nada, no entregan real información.

Esto se ve muy claro en los pronósticos electorales y es lo que se comenta con bastante honestidad, a mi modo de ver, en el blog Soy Data. Los pronósticos electorales basados en estadísticas y Big Data pueden ser increíblemente exactos y exitosos, como mostró el pronóstico sobre el triunfo de Obama, pero solo sirven para pronosticar lo que es evidente, lo que no necesita de ningún tipo de estudio. Sn embargo cuando los resultados de una elección son estrechos, el estudio de las frecuencias es completamente inútil, incluso con los algoritmos de Big Data más sofisticados y con muestras que se aproximan a censos trabajando sobre preferencias reveladas.

Claro que totalmente inútiles no son, sirven para engañar a la gente y crear sensaciones falsas. Aunque estos efectos son de muy corto plazo, a veces funcionan y todavía hay gente que se toma en serio encuestas chantas como las de Mori o Plaza-Cadem, cuando incluso encuestas bien hechas como las del CEP o el Centro de Microdatos de la U de Chile, tampoco son capaces de predecir nada muy relevante.

14 comentarios:

  1. ... cuando los romanos necesitan inventarse un pasado glorioso, que conecte a las familias patricias con los mismos dioses, Augusto le encarga al profeta Virgilio la tarea y este escribe "La Eneida" - réplica de la Iliada y la Odisea, o inspirada en ellas - y allí se cuenta cómo los fugados de la caída de Troya, miembros de su casa gobernante y por descendientes de dioses, navegan por el Mediterráneo hasta desembarcar en Italia y fundar los linajes que darán lugar a Roma.
    En una de esas vueltas Eneas, el héroe, desembarca en Cartago y la reina Dido se enamora de él. Por influjo de los dioses se hacen amantes pero al fín Eneas recibe un mensaje de otros dioses traído por Mercurio: su destino en la vida es fundar Roma. Parte entonces, a cumplir con su deber más que por gusto, y Dido se suicida. Uls

    ResponderBorrar
  2. Ah eso si que no pues!!!
    ¿Dejar a una reina, sexo y piacere para fundr Roma? Yo al menos no lo habría hecho por ningún motivo.
    Debo leer un poco más, lo único que se de la mitología antigua es por el Tarot, aparte de eso no he leído ni un solo libro de esos

    ResponderBorrar
  3. oh, yo lo se más por comentarios, artículos y videos que tratan el tema que por haberlo leída. Creo que hojeé la Eneida un par de veces - de paso, Virgilio es poeta, no "profeta" como escribí - en librerías de viejo, me dije a mí mismo "tan barata, debería uno comprar una colección de clásicos" y acto seguido... la dejé en la estantería.
    Sigo esperando la película. Uls

    ResponderBorrar
  4. Por mi parte deben ser unos 15 años, tal vez más, que no compro un libro. Prácticamente todo lo que se ha escrito y vale la pena leer está a unos clic de distancia, gratis y ni siquiera hay que levantarse del sillón para conseguirlo. De todas las maravillas de Internet esta es la más impresionante, no tendría vida para leer todo lo interesante que tengo al alcance de la mano.

    Me he acostumbrado tanto a leer en pantalla que cuando leo un libro en papel me cuesta mucho y se me cansan los ojos, además que mis lentes los compé para ver a 1.50m de distancia y para leer a esa distancia tendría que mandarme a estirar los brazos!

    ResponderBorrar
  5. bueno, voy a meterlo en un entredicho !
    porque yo también, siguiendo su caso y otros contertulios, me pasé a los .pdf y la verdad, una comodidad y un ahorro enorme. textos de Harari, de Jay Gold, de Jared Diamond y varios más.
    Justo ahora me puse a buscar textos de Wilfredo Pareto, y no doy con ninguna de descarga gratis. Quizás Pareto se dejó de publicar antes de la revolución informática, no se.
    En especial buscaba "escritos sociológicos", por una referencia, pero nada. Si alguien sabe de algún sitio, agradeceré el dato. Uls

    ResponderBorrar
  6. Ulschmidt, me pasé un buen rato buscando y, efectivamente, parece qu no hay ningún texto original de Pareto online, ni en español ni en inglés. Me habría gustado mucho también haber encontrado alguno

    Seguramente todavía hay derechos de autor vigentes y han hecho un buen trabajo defendiéndolos

    ResponderBorrar
  7. Tampoco aparecio por aca.
    Hay una creencia o pronostico futurista, que afirma que con IA, algoritmos raros y big data sera posible predecir el comportamiento de la gente. Se cita que habria sido usado, aun primariamente, en la campaña de Trump, no les creo ni la punta; puede que se llegue a predecir, mas aproximadamente que hoy, el comportamiento de colectivos, por aquello de los grandes numeros y las compensaciones internas en ellos, pero ni en sueños el comportamiento individual. Claro que como dices, en asuntos gruesos, puede predecirse que hara alguien, por ejemplo es improbable que tu votes por la Bachelet 3.0 , pero son asuntos triviales.
    Sin embargo, es claro que se ha avanzado mucho en entender los procesos cerebrales y como se toman las decisiones, (aparentemente de raiz emocional y de estructuracion y justificacion racional)que muchas veces son aparentemente paradojicas; probablemente sabiendo mucho mas se podra mejorar los pronosticos, pero dudo que lleguemos a predecir los actos indeterminados individuales.

    ResponderBorrar
  8. Esas son puras macanas Wilson, es muy extraña esa ilusión de la gente que por medio de la ciencia o algo así podrán ser omnisapientes, es una tontera. En un mundo donde se pudiesen predecir comportamientos y acontecimientos, sería horrible, no existirían las sorpresas, ni la riqueza ni el riesgo. Es muy raro que haya gente que piense que algo así sería bueno.

    El azar no es un accidente, es -creo yo, lo más fundamental que existe. Sin azar este mundo sería la porquería más grande, probablemente ni podría existir

    ResponderBorrar
  9. gracias por buscar! lo puse en molestias.
    Pareto, precisamente, analizó estas cosas.
    A mí lo que me llama la atención es cuan equilibrados son los ballotages. ¿Porqué terminan 51-49 o imclusive 55-45 los más desparejos? Casi nunca 65-35, por ejemplo. Hay procesos de primera selección, segunda, tercera, en que la sociedad va construyendo un equilibrio nuevo y terminan muy empatados todos. Los candidatos harán lo propio, tratando de arrastrar a los indecisos se tienden a parecer demasiado, pero igual, es un fenómeno muy recursivo, muy dinámico y muy impredecible. Uls

    ResponderBorrar
  10. A mi también me interesaba pero no hubo caso. Solo encontré una descarga gratis de Forma y equilibrios sociales
    https://getafebiblioteca.atyrsa.com/lire?id=8488123787
    Pero había que dejar datos de trajeta de crédito "olo para verificar", no gracias.

    Los resultados estrechos en elecciones muestran la falta de liderazgos por una parte y también de representatividad. Cuando no hay líderes o son pocos los que votan la torta electoral se dispersa más o menos al azar y en los grandes números debería dar más o menos en mitades.

    Los candidatos sin liderazgo son percibidos como todos malos, entonces la gente vota por el mal menor, por qejemplo en el caso de las últimas eleciones en Chile salió elegido Piñera por miedo a otro gobierno de zquierda, pero como no tiene liderazgo no fue capaz de sacar mayoría parlamentaria, está abajo en ambas cámaras.Son presidentes débiles, precarios y despreciados por sus propios votantes

    ResponderBorrar
  11. Aqui se refieren a una disputa entre Taleb y un pronosticador muy famoso en Usa. A mi me queda como poncho el asunto, pero quiza sea de interes seguirla a los que saben
    https://towardsdatascience.com/why-you-should-care-about-the-nate-silver-vs-nassim-taleb-twitter-war-a581dce1f5fc

    ResponderBorrar
  12. Entiendo que hay errores debido a muestras sesgadas, arbitrarias para hacer estadistica, ademas del error de hacer predicciones a futuro, Tomas, ¿donde mas hay que poner la navaja en un estudio estaditico para ver posibles errores?
    Uls aqui va un enlace de algunos libros de Pareto unos estan en ingles otros en italiano: https://archive.org/search.php?query=creator%3A%22Pareto%2CVilfredo.%22
    Atte. Pedro

    ResponderBorrar
  13. Wilson, buena, voy a echarlo una mirada. No se si viste la conersación de Taleb con Tyler Cowen, es muy buena, hablan de todo, está en https://marginalrevolution.com/marginalrevolution/2018/05/conversation-nassim-nicholas-taleb.html

    ResponderBorrar
  14. Pedro, el problema de uso de las estadísticas no son los eroores, sino que es mucho más importante: ningún estudio de frecencias, uses las matemáticas que uses, sirve para predecir asuntos donde interviene el comportamiento humano. O sea, si puedes hacer predicciones exitosas en los grandes números pero solo sobre asuntos triviales y bastante evidentes, para los que no necesitas ninguna estadística. El problema es que se usan matemáticas para asuntos que las matemáticas no sirven, solo para darle un cierto prestigio científico y para ocultar lo que son simples opiniones o ideas interesadas.

    ¿Por qué las estadísticas tenen entonces tanto prestigio y se escriben cientos de miles de paper de econometría, soiología, pricología, política, etc tapadas con fórmulas matemáticas? Porque es un engaño, un scam para los ignorantes. Los métodos frecuentistas o bayesianos tienen utilidad limitada a asuntos donde las relaciones causa-efecto están claras y son invariables, especialmente los fenómenos de la física y algunos de química y biología, nada más, en medicina ya empieza el abuso y engaño, para que hablar en ciencias sociales.

    Ahora sobre los errores más importantes (si estamos hablando de usar estadísticas en ciencias básicas por ejemplo) son la selección de la muestra, su calidad de representativa homogenea y sobre todo aleatoria (sin bias), también están los problemas del certeris paribus (suponer siatuaciones donde las variables son independientes cuando no lo son) y la elección de las herramientas específicas, hay multitud de supuestos irrealistas en cada experimento estadístico y los que trabajan en eso conocen bien el truco de "sintonizar" o "corregir" el proceso, para que entregue los resultados que se buscan a priori.

    La estadística se usa de manera tan fraudulenta o más que la evaluación de proyectos

    ResponderBorrar

"Send me a postcard, drop me a line
Stating point of view
Indicate precisely what you mean to say
Yours sincerely, wasting away
Give me your answer, fill in a form
Mine for evermore
Will you still need me, will you still feed me
When I'm sixty-four"