01 octubre 2012

La sabiduría de las multitudes


En el año 1906, en una granja de Plymouth, Inglaterra, un señor de apellido Galton hizo un experimento muy simple pero de resultados históricos para las matemáticas. El experimento de Galton consistió en juntar a 787 personas comunes y corrientes y pedirles que escribieran su estimación sobre el peso de un buey que estaba a la vista de todos. Cada persona miraba al buey, escribía en un papel su peso estimado y lo echaba en una urna.

Entre los que estimaban el peso habían unos cuantos granjeros y carniceros,  pero la gran mayoría eran personas comunes y corrientes que no tenían idea de cuanto podía pesar un buey. Contra toda intuición el peso promedio estimado fue de 1187 libras, mientras que el peso real del buey eran 1188 libras, o sea una exactitud del 99.92%. Y esto no se debió a una coincidencia, porque el experimento se ha repetido innumerables veces desde entonces con resultados similares. Esto dio origen a un principio matemático llamado "la sabiduría de las multitudes". El paper de Francis Galton lo pueden leer aquí.

Y tiene una explicación matemática, en palabras simples se puede decir que -si se cumplen ciertas condiciones- las estimaciones de una multitud completamente ignorante serán muy acertadas porque los errores de sub estimación y sobre estimación tienden a compensarse convergiendo el promedio al valor correcto. Las condiciones que deben cumplirse para que esto ocurra son tres:

1.-Definición exacta de la pregunta (con una respuesta exacta, objetiva)
2.-Las estimaciones deben ser completamente independientes y sin sesgo (no deben haber influencias mutuas ni ideas preconcebidas)
3.-Una cantidad de estimaciones independientes lo suficientemente grande

Si las multitudes ignorantes son sabias porque los errores se compensan ¿por que entonces es tan malo el desempeño de las democracias? Creo que es obvio que la condición (2) no se cumple en ninguna de sus dos partes, eso explica por que la sabiduría de las multitudes no funciona en la política.

Estaba entretenido aprendiendo sobre esto en el curso Networks: friends, money and bytes, Aparece en el capítulo que describe como Amazon recomienda sus artículos. Si hacen clic en la figura de arriba verán una típica página de Amazon -con mi cámara fotográfica soñada- que al lado de cada producto muestra las estrellas de recomendación y un número.

Esta cámara en particular ha obtenido 4 de 5 estrellas y ha sido revisada por 41 clientes. Todo eso es muy sencillo, las 4 estrellas son el puntaje promedio, redondeado, de los 41 puntajes. El problema es si yo quiero compararla con -digamos- la Nikon D3100, que tiene un precio similar, también tiene 4 de 5 estrellas pero la evaluaron 425 personas.

Intuitivamente podemos pensar que un puntaje de 4 sobre 425 revisiones es mejor que el puntaje de 4 con 41 revisiones y mucho mejor que un puntaje de 4 con -digamos- 2 revisiones. ¿pero que hay de una cámara que tenga un puntaje de 3 pero con 10000 revisiones?. Es un problema de ranking similar al que tiene Google para ordenar los resultados de búsqueda, no hay un solo criterio sino varios que actuan siguiendo algúna sofisticada fórmula matemática.

Si vemos esta página, que hace un ranking de todas las cámaras fotograficas veremos que no están ordenadas simplemente por el puntaje obtenido sino por un algoritmo que considera el puntaje y la cantidad de evaluaciones además de otros factores.

El efecto de "sabiduría de las multitudes" se incluye usando una controvertida rama de las estadísticas llamada "estimación Bayesiana", que asume que la historia pasada da información acerca del futuro, independiente del conocimiento que tengamos del fenómeno. Estas estimaciones bayesianas las hacemos todo el tiempo, creo que Laplace fue el que plenteó el siguiente problema "si durante los miles de años que se tiene registro, todos los días el sol ha salido por oriente  y se pone por ocidente ¿cual es la probabilidad que eso ocurra mañana?

Desde la estadística clásica en estado de ignorancia, que un evento se haya repertido muchísimas veces no entrega información, bien podría salir el sol mañana por el lado opuesto. Parece contra intuitivo pero ambas estimaciones tienen fundamentos conceptuales diferentes y las dos son válidas.

La cosa es que una estimación Bayesiana incorpora esta información en la llamada "regla de sucesión" que dice más o menos que mientras más se haya repetido un evento en el pasado, mayor probabilidad que se repita en el futuro.

Así, después de una serie de fórmulas y algo de cálculo integral se llega a que la estimación Bayesiana introduce un factor que hace que la probabilidad de que algo ocurra se mueva en una zona entre el valor de algo que nunca ha ocurrido antes hasta algo que ha ocurrido muchísimas veces. Así es como se incluye la sabiduría de las multitudes al cálculo de los rankings de Amazon.

Claro que el algoritmo exacto es un secreto de Amazon, pero mediante ingeniería reversa se ha podido determinar que se basa en el promedio de los puntajes, ajustado por una estimación Bayeciana, más unos bias dependientes de la calidad de los revisores y de las veces que se reporta que el artículo ha salido malo dentro de los primeros 30 días.

Esto, como todas las demás cosas que hemos visto en el curso, no solo tiene que ver con el problema específico de Amazon, sino que con el problema general de construir rankings, que es fundamental en la economía de redes.

Y como consideré que el curso está sumamente interesante, estoy escribiendo un nuevo Blog llamado 20Q para dummies, los invito a que lo vean porque allí trato de colocar en palabras sencillas cada una de las lecciones que nos están pasando.

P.D. y si usted es un real ocioso, como yo, no deje de visitar galton.org, seguro que la va a disfrutar

5 comentarios:

  1. El experimento galtoniano me impresionó mucho. Y, Tomás, otra página y llena de cosas técnicas, que despliegue el suyo !

    ResponderBorrar
  2. Sir Francis Galton era un crack Ulschmidt, agradezco a este curso haber sabido de él, me encontré dos artículos estupendos sobre este estrafalario y genial estadístico, que entre otras varias cosas inventó la regresión.

    Encontré esta divertida historia

    Y la reseña de este libro

    Otra cosa interesante que he aprendido en este curso como han aparecido aplicaciones para matemáticas que antes no las usaba nadie. Cuando yo estudiaba jamás escuché de las estimaciones bayesianas ni de estadística discreta, menos de la wisdom of crowds

    ResponderBorrar

"Send me a postcard, drop me a line
Stating point of view
Indicate precisely what you mean to say
Yours sincerely, wasting away
Give me your answer, fill in a form
Mine for evermore
Will you still need me, will you still feed me
When I'm sixty-four"