22 septiembre 2019

Buzzwords y Big data

Buzzwords
Hay palabras que se ponen de moda, se usan cada vez que alguien quiere parecer inteligente o informado. Luego, con el tiempo, pierden sustancia y significado. Estoy siguiendo un curso del Banco Interamericano de Desarrollo que se llama "Big data sin misterios" y aprovecharé para comentarles sobre ese asunto y también sobre las "buzzwords"

Partamos por las buzzwords, son palabras -nuevas o existentes- que adquieren popularidad y son usadas en abundancia durante un período de tiempo, después pasan de moda y ya nadie vuelve a usarlas. Son herramientas indispensables en el maletín de los "emprendedores" que andan vendiendo sus cuentos, de las instituciones educativas que buscan ganar plata con algún curso de naturaleza nebulosa o por políticos y opinólogos para hacerse pasar por personas "bien informadas". Se trata de lo que tradicionalmente en Chile conocíamos como "chamullo". La palabra buzzword, de hecho, es un buzzword. ¿Quieren un ejemplo? Recuerden la "Web 2.0", una expresión que reinó por unos 4 o 5 años y hoy yace extinta en el olvido.

Está repleto de eatas palabrejas de moda, busco en Wikipedia y me encuentro con una interesante lista de buzzwords, si alguien quiere dar charlas motivacionales, hacerse pasar por experto en tecnología o justificar cualquier estupidez política, basta con que escoja un puñado de estas palabras y las ponga juntas en un discurso, en un artículo del diario, en un twit o lo que sea, tendrá éxito asegurado entre los giles. Se puede aceptar el uso de alguna de estas feas palabras aquí y allá, si la idea del texto lo amerita y no existe otra forma más clara de decirlo, pero cada vez que leo un chorizo encadenado de estas tonteras, el que las usa, en mi opinión, psa directamente a la categoría de un pelmazo.

Big Data
Con esta palabreja tuve similares dificultades que con "la nube", pasé mucho tiempo sin entender de qué diablos se trataba, bueno, con este curso y otras averiguaciones que he hecho por mi cuenta, algo voy entendiendo.  El contador de visitas que yo tengo en mi blog es un buen ejemplo de Big Data. Desde que empecé a contar las visitas con Statcounter, en junio de 2005 hasta hoy, voy acercándome a los 2 millones de visitas (1.719.786 en este minuto, para ser exactos), que ya son un número que se podría considerar "big"..

Analíticas
El contador no solo registra el número de visitas sino que a cada visitante le extrae cierta información: su IP que da información de donde está el servidor que lo conecta (cada IP tiene registrados datos como el dueño del servidor y su dirección), el tiempo que estuvo conectado, datos de la máquina como la resolución de pantalla, el sistema operativo y explorador usado, la fecha y hora de conexión, el link desde donde llegó y el link adonde se fue al salir, por ejemplo estas son las analíticas de mi sitio Python en 3 días, donde la información de cada visitante ocupa una celda horizontal


Ese es un log típico con datos sobre las visitas a una página, donde cada división horizontal presenta datos sobre cada visita. Como mi blog no es comercial yo solo uso estas estadísticas para curiosear de vez en cuando si aparece algo raro, un comentario desagradable o cosas así, pero supongamos que esta fuese una página comercial, con más de un millón setecientos mil datos registrados podría  buscar patrones y convertir esos datos en información útil.

En busca de regularidades y patrones
Se trata de buscar regularidades entre ese millón setecientos mil conjuntos de datos podría ver -por ejemplo- quienes son los que más visitan, de que país vienen, que entradas son las más leídas, que día de la semana recibo más visitantes y mucha otra información. Incluso cruzando información de otras fuentes, muchas veces puedo identificar quien es la persona que me visita, cuando viaja de una ciudad a otra,donde vive y cosas por el estilo. No son cosas definitivas, pero si suposiciones bien fundadas que para mí normalmente solo sirve para entretenerme, pero en un sitio comercial es información que puede tener un buen valor monetario.

La analítica, que es como se llama esta primera aplicación del big data, es lo que en la actualidad más se usa, consiste simplemente en el uso de la estadística descriptiva para obtener patrones, regularidades, detectar comportamientos a partir del registro de millones de conjuntos de datos: se ordenan los resultados, se obtienen promedios, se agrupan y se determina la participación de cada grupo en el total y cosas por el estilo.

Datachile
El físico chileno César Hidalgo, quien renunció no hace mucho al MIT Media Lab, es de los pocos que ha mostrado una aplicación práctica de big data abierta al público con su Proyecto Datachile, francamente yo creo que el resultado no es muy impresionante, aunque el concepto de "convertir datos en historias" parece atractivo, no es, a mi modo de ver, nada de oto mundo, se ha estado haciendo todo el tiempo. Me parece que hay demasiada exageración en torno a una idea muy básica de presentar datos de manera atractiva. Digamos que es el escalón cero del concepto de Big Data.

Si se dan una vuelta por el Proyecto Datachile verán distintos gráficos que muestran agrupaciones de datos que se consideran importantes, presentados en forma gráfica. Creo que hay dos problemas con esto: primero es que antes de elegir los set de datos que se van a presentar, hay que tener claro "para que" serán usados, por ejemplo en Datachile hay mucha información que simplemente replica lo que se puede obtener de los anuarios estadísticos de organismos de gobierno.

No se ve, por ejemplo, cual es la utilidad de presentar datos demográficos  que son muy fáciles de obtener a partir del INE y no presentar datos sobre recaudación de impuestos, desagregados por territorio y demografía, o datos sobre inversión pública e inversión privada por localización. Si la intención era desplegar información que hoy no es fácilmente accesible pese a estar en registros públicos, creo que el resultado es decepcionante, porque gran parte -o toda- la información desplegada es de acceso  relativamente sencillo.

El oro de Hong Kong
En todo caso revisando otras analíticas simples del Observatorio de Complejidad Económica, me encuentro con una interesante estadística sobre el comercio exterior de Hong Kong ¿saben cual es su principal producto de exportación? El oro, con 25.6 billones representa el 19% de las exportaciones de ese país. ¿Y los principales destinos de esa exportación? Suiza, Reino Unido y Tailandia. Ahora bien, todos sabemos que en Hong Kong no hay minas de oro ni mucho menos, oficialmente ese oro lo importa desde Australia, Suiza y Japón.

¿Saben que creo yo? Que los billonarios chinos están sacando su patrimonio para esconderlo en lugar seguro, otra importante exportación de Hong Kong son los diamantes (9%) pequeños, portables y fáciles de esconder, se han usado para mover platas negras durante siglos. creo que no ando tan perdido cuando he escrito que los chinos están preparándose para la catástrofe, dejando al país vacío cuando explote la burbuja. Otro dato interesante es el monstruoso desequilibrio de la balanza comercial de Hong Kong, con 136 billones de exportación y  608 billones en importaciones. Son datos de 2017 ¿qué diablos hacen con la diferencia que se queda en el lugar, que es más o menos del mismo porte que mi pequeña ciudad de Arica? Sospechosa la cuestión..

Las otras promesas del Big Data
Además de la analítica con estadísticas descriptivas el Big Data ofrece otras dos técnicas que usan más que nada la estadística inferencial o la bayesiana. Bueno, yo he escrito muchas veces de los grandes problemas que presentan estas estadísticas, que tratan de hacer predicciones en base al análisis de frecuencias y su dispersión respecto de valores medios. Uno de los defectos más grandes de la estadística inferencial es con las muestras que no son representativas, en e caso del Big Data este problema prácticamente desaparece porque ya no se trata de muestras sino que se trabaja con toda la población: son censos en lugar de muestras.

De lo que se trata entonces es de usar el análisis de los datos no solo para presentar lo que está pasando sino para tratar de predecir lo que podría ocurrir en el futuro, este tipo de análisis da resultados del tipo "hay un 35% de probabilidades de que la empresa xx tenga pérdidas el próximo año". Esto por supuesto está sujeto a las muchas simplificaciones y errores que entregan normalmente los análisis estadísticos, pero al menos tienen la ventaja de eliminar el sesgo en el muestreo, que es uno de los mayores problemas en estas cosas.

Una tercera promesa, que ya es un poco tipo "guerra de las galaxias" es que mediante algoritmos predictivos sobre grandes conjuntos de datos se formulen de manera automática decisiones y cursos de acción. En este punto, donde Big Data ofrece la llamada "inteligencia de negocios" creo que es lo más débil y -como siempre- lo que más se publicita, la toma de decisiones automatizada es algo que se viene intentando desde los comienzos de la computación, recuerdo por ejemplo los llamados "sistemas expertos" y la iniciativa japonesa para la inteligencia artificial de los años setenta, todos esos intentos han fracasado y creo que seguirán fracasando. Es muy difícil que algún día una máquina llegue a ser capaz de tomar decisiones importantes, estamos muy, muy lejos de eso todavía.

Antes de terminar,algo que se me quedaba en el tintero virtual es que no todos los datos son del mismo tipo,ordenados y bien formateados, como pueden ser los datos de un censo o las estadísticas de comercio exterior. Hay otra clase de datos que no son en absoluto estructurados, imaginen por ejemplo los cientos de millones de mensajes de texto que se emiten por Twitter o Facebook cada día. Esto también se puede llevar a números usando el "análisis semántico", que consiste en identificar palabras, frases y patrones de lenguaje que se repiten sacando estadísticas de eso.

Tiempo atrás me encontré por casualidad una página que al parecer habían dejado abierta inadvertidamente, donde desplegaban resultados de análisis semántico de las redes sociales en relación a las autoridades de gobierno y algunas políticas específicas. Mi impresión es que hay empresas que tienen cuenteado al gobierno cn esos embustes, lo que explicaría lo desastrosa que ha resultado su gestión política.

Muchos años atrás yo hice un análisis semántico artesanal en los foros de dos sitios turísticos internacionales: el Lonely Planet y el South American Handbook,ya ni se donde quedaron los resultados, fue un trabajo de chinos pero sugería conclusiones bien interesante sobre el turismo de Arica, Tengo como tarea pendiente volver a hacerlo pero con algo de programación Python, que es mu adecuada para esas cosas. Tarea para cuando se me pase la flojera.

15 comentarios:

  1. o sea que falta mucho para que Skynet se apodere del planeta ? qué cosa. Tenderemos que seguir con nuestros políticos ! Uls

    ResponderBorrar
  2. jaja, yo creo que reemplazar a los pol´ticos por inteligencia artificial muestra un nivel de ingenuidad de proporciones cósmicas, ontológicas. De hecho, pensar que se pueden reemplazar por cualquier clase de "inteligencia" ya es una idea descablellada, si le agregamos "inteligencia artificial" (cosa que no existe) saltamos varios órdenes de magnitud en la locura

    ResponderBorrar
  3. ... imagino que la única forma aceptable sería la de la deidificación. Quizás después de un cataclismo la super-inteligencia es tomada como deidad y los humanos se someten a ella porque piensan que es la Voz de Dios. Naturalmente, los últimos Programadores o mejor dicho Operadores se convierten en la casta sacerdotal, que intercede entre los humanos comunes y la Máquina-Dios, hasta que los sacerdotes interpretan cada vez más la cosa como les parece - aumentan los diezmos, por ejemplo - y menos como dice el programa. Entonces renace la política !

    ResponderBorrar
  4. jaja, el problema es que las decisiones políticas se toman en una situación de incertidumbre, con información incompleta, y tienen resultados que la gente puede contrastar a corto, mediano y largo plazo así es que (i) no existe ningún algoritmo que siempre tome "decisiones correctas" y (ii) es muy difícil obedecer a un Dios que comete muchos errores

    ResponderBorrar
  5. .. acabo de leer "cerdos, vacas, guerras y brujas" de Marvin Harris. Me divertí bastante. Marvin adhiere a la idea de sacralizar las vacas en India o no comer cerdo en las religiones de Medio Oriente no son cosas locas sino estrategias económicas y ambientales oportunas en su momento, luego sacralizadas.
    De las brujas, opinaba que eran una distracción política. Las brujas aparecieron cuando muchas herejías campeaban en Europa, algunas aceptables y otras muy desafiantes. Había que asignarle un papel muy exigente a la religión normal y eso era librarnos de las brujas.
    Es decir: No importa si Dios se equivoca a veces. Lo importante es tener algunas brujas para quemar.

    ResponderBorrar
  6. Voy a buscar el libro, suena interesante!

    Y es cierto, si el algoritmo falla se quema a unos cientos de programadores y listo... En lugar de rezar se podría programar un "Hello World" en diferentes lenguajes o con variantes, cada día jaja

    ResponderBorrar
  7. Hola Tomás, César Hidalgo habría declarado a El Mercurio que está trabajando en un proyecto que pretende que las decisiones políticas sean tomadas por sistemas de inteligencia artificial, lo que a su vez permitiría prescindir de los políticos:

    https://www.emol.com/noticias/Tecnologia/2018/04/16/902649/Fisico-chileno-trabaja-en-proyecto-para-reemplazar-a-los-politicos-con-inteligencia-artificial.html

    No puedo creer que eso pueda llegar a ser factible, y si llegare a serlo, pues estimo que significaría el fin del género humano, con todos sus defectos y a la vez con todas sus grandezas.

    ResponderBorrar
  8. Oscar, a mi me parece una idea muy tonta, Hidalgo puede ser muy doctor y todo lo que quieras, pero al parecer de ciencias sociales y políticas no tiene la menor idea, lo que dice es una soberana tontera.

    La "inteligencia artificial" o lo que se conoce por ese nombre, está a años luz de resolver esa clase de problemas. yo creo que le hizo mal su paso por el Media Labs del MIT que se ha caracterizado por proyectos estúpidos desde hace varios año, no nos olvidemos que de allí viene uno de los peors fraasos de la tecnología, el "one laptop per child" de Nicholas Negroponte, que fueel anterior director de ese laboratorio, la iniciativa OLPC fue el mejor ejemplo de fracaso de la academia frente a la iniciativa coerial: apenas empezaron a producir los laptop a 180 dólares aparecieron las tablets con el chip ARM a 50 dólares en el retail, gastaron una barbaridad de plata, embarcaron a Colombia, Perú y un montón de otros países en un proyecto que era malo desde que se diseñó.

    Sin ser especialista yo mismo escribí varias veces contra esa iniciativa en CSP y tal vez acá mismo, cualquiera que supiera lo que estaba pasando en tecnología se podía dar cuenta que era un fracaso, pero hicieron picar a Bill Gates y un montón de filántropos en ese proyecto sin pies ni cabeza.

    Yo creo que lo que dice Hidalgo ahora va por el mismo camino, son cosas que suenan muy atractivas al populacho, pero ideas muy malas y que probablemente nunca llegarán a funcionar

    ResponderBorrar
  9. La inteligencia artificial está mucho más avanzada de lo que crees. Indudablemente sus decisiones no usan criterio ni son "inteligentes" en el sentido humano de la palabra, pero la parte más extraordinaria y de más reciente desarrollo es la creación de las mismas reglas (similar a los sistemas expertos) se hace automáticamente. Este proceso, una verdadera creación de sinapsis artificial, es desde donde se pueden obtener resultados asombrosos para la toma de decisiones. No hay criterio, pero sí optimización.

    Lo otro, big data no es sólo grandes volumenes de datos, sino que la división del proceso. La idea es tratar de computar de manera local lo más que se pueda, y al final agregar; esto permite procesar en paralelo, usando una gran cantidad de procesadores. Es fundamental el concepto de particionar datos y distribuirlos en grandes clusters. Por eso es que la programación funcional ha tenido un repunte tan grande en los últimos años, pues es lo más natural para usar en ambientes distribuídos (por conceptos tales como inmutabilidad, composición de funciones, etc.)

    En fin, Big Data no es sólo otro buzzword, es de verdad. "Cloud" fue un buzzword en su momento pero Cloud Services sí es un concepto espectacular, y hoy ya funciona (es cosa de crear una aplicación en Azure para entender como va la cosa).

    ResponderBorrar
  10. Ah, y eso de los análisis semánticos para la toma de decisiones... ahí el problema no es de la herramienta ni del análisis, sino de la toma de muestras. Los giles que posteamos en línea estamos lejos de representar al promedio.

    Hoy en día está toda la infraestructura para crear un Synco 2.0, pero el problema fundamental aún existe: los datos de entrada. Esa brecha se mantendrá por algun tiempo (pero la "Internet Of Things" va a dar para esto, acuérdate no más de mi predicción, se usarán datos como a qué hora prendes tu cafetera eléctrica o cuántas veces abres tu refrigerador para predecir cosas como productividad, desempleo, etc.)

    ResponderBorrar
  11. Ldus, la optimización en la toma d deisiones (optimización convenxa por ejemplo, que usan algoritmos de Google, Amazon y otros) está muy lejos de poder llamarse "inteligencia" y puede cometer errores enormes, de tipo acumulativo, porque no pueden tratar con la incerteza que es lo fundamental de toas las decisiones importantes.

    Creo que este pobre y humilde blog ha sido "víctima" de los algoritmoss predictivos de Google para hacer elPage Rank, jaja. Cuando se ha tratado de usar algoritmos para mejorar el rendimiento de las inversiones en bolsa, el efecto es siempre el mismo: funcionan por un corto plazo y apenas el mercado los asimila, fracasan.

    ¿Por qué pasa esto? Porque las decisiones de inversión, como todas las decisiones donde actúa un agregado grande de personas, funcionan en base a la incertidumbre, mientras que las optimizaciones funcionan en base a regularidades, situaciones que se repiten.

    Por eso tampoco ha dado éxito ningún algoritmo para predecir el resultado en unas elecciones reñidas, son asuntos donde la estadística pierde todo su valor, lo mismo que las optimizacione y los sistemas expertos, que sirven para problemas de naturaleza mucho más mecánica, simple y predecible,por ejemplo paradiagnosticar fallas y cosas por el estilo.

    Lo que mencionas sobre el Internet de las Cosas es lo mismo: sería posible predecir las decisiones de la gente i actuaran como máquinas, mucha gente desde la técnica tiene esa visión pero no es así, aunque sepas exactamente cada una de las decisiones que toman millones de personas, nunca serás capaz de predecir de manera fiable como actuará el agregado de todos, si se elimina la incertidumbre, por ejemplo en economía (o si se reduce mucho) el sistema económico completo se destruiría, porque nadie querría apostar sabiendo que alguien tiene los dados cargados, y el que tiene ese algoritmo que le permite ganar de maner consistente, en poco tiempo se haría dueño de toda la riqueza del mundo, ¿entonce qué pasaría? Que esa riqueza perdería su valor.

    Por eso yo ni me preocupo de los algoritmos de Google que contestan automáticamente los correos, ni los de Amazon que me "sugieren" que comprar, a medida que paseel tiempo irán perdiendo su valor, porque funcionan para asuntos mecánicos, no humanos

    ResponderBorrar
  12. Ahí es donde te veo con un par de anteojeras producto de tu deformación profesional. La gracia de usar AI (técnicas modernas, no esa de los 60 que hace rato no se usa) en estas situaciones es que el error y la incertidumbre están integrados, y son un componente principal.

    Indudablemente, no es probable que veamos AIs tomando decisiones importantes pronto. Pero hoy sí estás viendo a las AIs especializadas en el mercado del márketing, por ejemplo, y la IoT será un componente importante.

    Para hacerlo más interesante, te apuesto un asado que antes de 10 años habrán estudios a la venta sobre (o productos basados en) comportamiento de consumidores en base a datos capturados desde telemetría de aparatos Internet Of Things y analizados por AIs especializadas (así de preciso estoy :-)).

    ResponderBorrar
  13. ¿Insinúas que soy VIEJO???? A.A.L.R.C.!
    Ah, y no seas tramposo, esos estudios ya existen basados en las analíticas, con mayor razón cuando se masifique el IoT, pero son cosas super básicas. Yo me refiero a las decisiones importantes, es decir inciertas, como por ejemplo algoritmos para tomar decisiones políticas. S. E. está muy engrupido con esos cuentos por parte de Ikison y sobre todo Comscore, que parece ser el orejero de turno de este gobierno ¡y ahi lo tienes! Haciendo una estupidez tras otra, pésimamente guiado por encuestas y analíticas.

    Cuando sepas de algún algoritmo que pueda ganar de manera consistente invirtiendo en la bolsa me avisas. Alphabet está tratando, pero en cuanto se acerque se muere, hay actividades que no pueden existir si llegan a ser previsibles, como la economía y la política.

    Además en la política hay una incomprensión fundamental en las ideas de Hidalgo: no existen decisiones buenas y malas, lo que es bueno para un grupo es malo para otro, no existe el bien común y ni siquiera el bien de una mayoría es bien común, por lo mismo la optimización en política vale fungus.

    En el artículo de Hardings "La Tragedia de los Comunes" parte diciendo algo obvio, pero que la mayor parte de la gente se olvida: No es matemáticamente posible maximizar dos variables (o más) al mismo tiempo.

    En política existen muchas variables independientes, por eso la Teoría de Juegos sirve poco o nada para tomar buenas decisiones

    ResponderBorrar
  14. Bah, me pillaste, quería comer otro asado gratis, como en la elección de Lavín. ¡Ni perdón ni olvido!

    Se sospecha que el famoso algoritmo para ganar en la bolsa está siendo usado por Alphabet (Google) y se nota dado que su empresa de inversiones tiene retornos muy grandes para una empresa tan nueva. De todas formas, aunque existiese dicho algoritmo, tienes toda la razón en afirmar que no puede ser infalible, sólo una ventaja.

    Yo lo único que digo es que la AI va a superar al instinto humano en el análisis de múltiples variables independientes mediante el simple expediente de testear escenarios usando fuerza bruta. Las variables de entrada hoy son más abundantes que nunca, y estos números van a seguir creciendo.

    En este punto, esta entrada en Twitter es re interesante, sobre la cantidad de información que los aparatos están mandando de vuelta para ser almacenados y analizados: https://twitter.com/random_walker/status/1177570679232876544


    ResponderBorrar
  15. Leus, si, sacan toneladas de información pero me parece que cometen el mismo error de los economistas matemáticos creyendo que podrán obtener buenas redicciones usando la estadística, yo lo dudo, los métodos estadisticos están enormemente sobrevalorados y en las pocas ocasiones en que se han podido poner a prueba normalmente resultan un fiasco (inversiones en la bolsa, resultados de las elecciones, etc.)

    Sobre el éxito de Alphabet en la bolsa yo creo que se trata más que nada de la enorme cantidad de activos que disponen, es lo mismo cuando alguien va al casino con muchos millones paa apostar, en el mercado de valoes a diferencia de los casinos no hay límites para las apuestas y creo que eso les debe dar una importante ventaja.

    Mi impresión es que están encandilados con la estadística igual que los economistas con la econometría y además las usan para engañar, ambos de manera muy parecida. Cualquier método estadístico más o menos sofisticado es incomprensible para el común de la gente, eso lo hace más fácil de aceptar por el prestigo de las matemáticas y todo eso. Lo de "data science" nunca me ha convencido, aunque los "data crunchers" si pueden ser muy útiles y valiosos. De la etadística yo destaco la descriptiva, la otra es en gran parte -a mi modode ver- cuento chino, humo "está estadísticamente demostrado" ¡JA!

    ResponderBorrar

"Send me a postcard, drop me a line
Stating point of view
Indicate precisely what you mean to say
Yours sincerely, wasting away
Give me your answer, fill in a form
Mine for evermore
Will you still need me, will you still feed me
When I'm sixty-four"