11 octubre 2012

Frecuentistas y bayesianos


En el curso Networks Friends Money and Bytes están pasando los videos de los conferencistas invitados al curso "real" de la Universidad de Princeton, el primero que ví del hiperventilado Sundeep Rangan fue muy interesante porque el estuvo en el desarrollo de la telefonía movil desde su inicio.

Dos datos muy interesantes: Rangan dice que en el futuro las celdas se irán fragmentando cada vez más y probablemente habrán pequeñas antenas celulares en casi todas las casas, igual que los access point de Wifi. La idea es que mientras más celdas y más pequeñas se necesita menos potencia y la transmisión se hace mucho más  eficiente.

La otra conclusión es que probablemente se comenzará a usar el enorme espectro de las ondas milimétricas, que está por encima del espectro actual de los aparatos 3G, mientras mayor es la frecuencia más anchos los canales disponibles. Muy buena la conferencia, pasando a otro tema:

Se me pasó el entusiasmo por las publicaciones cuando me dí cuenta que todas las ideas que me llegaban sobre temas económicos  se manejaban de manera bien parecida. Dejé tres a medio camino porque me pareció que, aunque las publicaran,  no valían nada como investigaciones.  Mi problema era -es- con el método de inferencia estadística, como he comentado un par de veces acá mismo.

Como funciona (sin matemáticas): la estadística toma una cierta cantidad de datos y trata de encontrar que factores explican esos valores. Para hacer una inferencia estadística uno parte con una hipótesis, recolecta datos -una muestra- y les hace una prueba de hipótesis.

Hay varias herramientas estadísticas pero todos siguen -en inferencia clásica- lo mismo: examinar una muestra de datos con variables dependientes e independientes (esa es la hipótesis, suponer que algo -como la posibilidad de contraer cáncer- depende de otra cosa como fumar con determinada frecuencia). Se calcula una muestra representativa y se hace la Prueba de Hipótesis, que busca cual o cuales factores tienen o no significancia estadística.

Matemáticamente la hipótesis es una curva: si los datos se ajustan a esa curva existe significancia estadística para ese factor, si no se ajuntan la hipótesis está mala. El resultado es binario: hay o no hay significancia dependiendo de cosas como r^2, el cuadrado de los errores que mide cuanto se alejan o se acercan los datos a la curva. Este método se llama frecuentista y fue inventado -nada menos- que por sir Francis Galton, el mismo de la "sabiduría de las multitudes", el mismísimo, que entre otras cosas también inventó el método de regresión.

La mayor ventaja de la inferencia estadística es su aparente objetividad: no se preocupa para nada de las causas del fenómeno, solo revisa las frecuencias y dice cuan significativa (o no significativa) son las variable explicativas, es decir cuan probable es que influyan en la frecuencia. En cierto sentido es objetiva por principio.

Pero este método tiene un montón de problemas. El más obvio es que depende demasiado del tamaño de la muestra y la presunción de representatividad es tan esotérica como leer el futuro en las hojas de té.  Un experimento con una muestra de tamaño A puede rechazar la prueba de hipótesis, cambiamos la muestra a tamaño B y la prueba de hipótesis se confirma. A medida que aparecen nuevas herramientas estadísticas se hace cada vez más fácil "ajustar el modelo" hasta que entregue las conclusiones que deseamos. Así la objetividad de la inferencia estadística es muchas veces una ilusión.

El enfoque Bayesiano existe desde hace más de dos siglos pero no se había usado hasta ahora porque las dificultades de cálculo lo hacían imposible sin usar computadores y se diferencia del frecuentista en que la historia y el conocimiento previo del fenómeno (lo que se presume "sus causas") si son tomados en cuenta para establecer el modelo. El Teorema de Bayes en su forma más sencilla es:

P(A\B)= (P(B\A) P(A))/P(B)

Donde A y B son dos sucesos probables, P(A\B) es la probabilidad a posteriori de A dado B, P(A) es la probabilidad a priori de A. Bueno, esto es un poco enredado pero el principio es el siguiente: a diferencia de la prueba de hipótesis frecuentista que no hace ninguna estimación a priori, el método bayesiano combina el conocimiento a priori que tenemos con el análisis de frecuencia de los datos, esto se valora con el Factor de Bayes que es:

BF=P(datos\H)/P(datos\K)

Donde H y K son la hipótesis y su reversa respectivamente (por ejemplo H=fumar aumenta riesgo de cáncer, K=fumar no aumenta riesgo de cáncer). P(datos\H) es cuanto peso tienen los datos para apoyar la probabilidad de la hipótesis H y P(datos\K) lo mismo pero con K

O sea en el enfoque bayesiano se combinan evidencias subjetivamente acumuladas con la información objetiva de los datos. La mejor descripción que he leído es esta: La diferencia esencial entre el pensamiento clásico y el bayesiano radica en que el clásico se pronuncia probabilísticamente sobre los datos a partir de supuestos; en tanto que el Bayesiano se pronuncia (también probabilísticamente) sobre los supuestos partiendo de los datos.

Por eso la probabilidad bayesiana se llama probabilidad subjetiva o condicional, contiene información sobre observaciones y experiencias previas a diferencia de la probabilidad frecuentista  que se basa solo en el análisis de las frecuencias de los datos y no admite suposiciones a priori de ninguna clase aparte de las hipótesis.

El enfoque Bayesiano es polémico, se discute su "subjetividad" opuesta a la "objetividad" de la estadística clásica. El problema de esta última es que muchas veces es solo aparentemente objetiva y se obtienen muchas conclusiones que dicen que "está estadísticamente comprobado" lo que que no son otra cosa que modelos ajustados ad-hoc, tal como los que hacemos proyectos de inversión y jamás nos salen no-rentables.  Probablemente la verdad está en el justo medio y dependiendo del tipo de problema uno u otro enfoque será más adecuado, solo me pareció interesante saber que existe un enfoque alternativo al frecuentista que a veces me ha olido muy mal.

P.D. me acordé de un comentario del Dr. Renato Aguirre, precisamente en medicina es donde la prueba de hipótesis está siendo más cuestionada, un muy buen artículo sobre el Análisis Bayesiano en medicina se puede ver aquí

10 comentarios:

  1. La gracia del enfoque Bayesiano es que la premisa (prior) es explicita, lo que es importante, no permite "mentir". Notese, que en enfoque frecuentista las premisas tambien existen pero estan escondidas. El ejemplo mas tipico es sacar promedios y desviasiones estandar. En ese caso uno asume que los datos siguen una distribucion normal. Eso no esta siempre justificado!

    Otra gracia del enfoque bayesiano es la posibilidad de obtener funciones de probabilidad creibles para tus parametros dado los datos.

    Un problema grande del enfoque bayesiano es por supuesto la premisa, la cual no siempre esta bien justificada y las conclusiones estan muy afectadas por ella. Es decir tambien se puede meter la mula y es mas dificil pillarte si escribes suficiente matematica ;-)

    MV

    ResponderBorrar
  2. Gracias Miguel, buen aporte. Muy interesante eso de que siempre se asume distribución normal en promedios y DS, una suposición de "pureza" que muchas veces no existe, hasta los dados y las ruletas tienen carga para algún lado, como será en otras cosas. Era algo que nunca había entendido, ahora al menos lo entiendo... en principio ;D

    ResponderBorrar
  3. Bueno, los dados y ruletas (incluso no cargados) son utiles como ejemplo.

    Si tiras un dado un numero grande de veces y sacas el promedio y la DS de los valores, vas a obtener estadisticas que son absolutamente inutiles para caracterizar tus datos y obtener informacion de tu experimento.

    MV

    ResponderBorrar
  4. ¿Pero no es el ejemplo típico para la distribución normal el promedio de los resultados -por ejemplo- de tres o cuatro dados no cargados?

    ResponderBorrar
  5. Me gradué con !análisis de los sistemas hidrológicos" y en la última pregunta el profesor me dijo: Si existe una muy buena correlación entre la lluvia en Mendoza y el consumo de cerveza en Moazmabique.. existe una correlación?
    Creo que le dije que no. Me puso apenas un aprobado. ¿Me estaba preguntando una cosa bayesiana???
    Me gustaría que hiciera un ejemplo del bayesiano, Tomás

    ResponderBorrar
  6. Ulschmidt mal la respuesta pero bien la idea: correlación no implica causalidad (si implica correlacion) o sea que dos cosas estén correlacionadas no tiene por que significar que una sea causa de la otra.

    Esto se podría interpretar como una ventaja de la prueba de hipótesis, como no se pronuncia sobre causas y efectos es "objetiva" solo dice si hay una relación numérica entre los datos pero no dice si es causal o casual.

    Claro que para todos los efectos prácticos se asume que correlación "prueba" causalidad, a pesar de lo que dice la teoría. Y es porque la correlación es necesaria pero no suficiente.

    El enfoque bayesiano no sustituye el estudio de las frecuencias, lo enriquece con experiencias anteriores, ejemplos hay hartos.

    Un ejemplo extremo es que si en los últimos 100 millones de días en Arica ha salido el sol, suponemos que la probabilidad de que mañana va a salir el sol es más alta de lo que sería con un análisis de estadística clásica, que no da ningún peso a la historia pasada.

    En la imagen de esta entrada aparecen los gráficos de una distribución normal, en línea roja los datos históricos y en línea azul como se corre la distribución por efecto bayesiano.

    Cuando un médico pronostica "le quedan unos seis meses de vida" no solo hace un análisis de las frecuencias para ese caso -que también está implícito, de manera formal o intuitiva- sino que además incorpora su experiencia en casos similares.

    Así, como decía Miguel, las conclusiones son afectadas por la premisa, pero si esta es bien formulada más que un defecto sería una ventaja.

    ResponderBorrar
  7. Renato Aguirre Bianchi12 octubre, 2012 00:38

    No me acuerdo bien qué es lo que te escribí respecto al análisis bayesiano, pero seguramente se refería a que nunca, ni por esa vía, ni los computadores más modernos "le achuntan" al diagnóstico de una habitualmente simple apendicitis con un margen de error menor que el de un cirujano consistente. Es que eso implica una gestión pericial y es casi imposible definir concretamente qué es un experto. La mejor definición que conozco proviene de la antigua Grecia, algo así como "concluyo que sólo veo en ellos a un montón de anécdotas y vivencias imposibles de concretizar".
    El tema del análisis estadístico no-bayesiano era muy primitivo antes de las computadoras, porque los cálculos matemáticos posibles solían depender de un universo normalmente distribuído sensu curva de Gauss. Hoy hay mucho mejores herramientas que prescinden de eso (en lo más básico,los "odds-ratio") pero ninguna se escapa del error Alfa y el menospreciado Beta, el cual suele ser ingnorado en las investigaciones médicas. Y de allí mi adicción a la instancia del Cochrane, el mejor guardián de la Medicina basada en la evidencia, pero está muy lejos de poder evaluar consistentemente a todo el espectro de nuestra gestión de "expertos".
    Tengo varias publicaciones en temas estadísticos solicitadas por sociedades científicas y cuando quieras te las mando pero no son muy profundas pues están dirigidas a los médicos. Dos de mis frases favoritas cuando conferenciaba en esos temas son: "las estadísticas no mienten, pero sí suelen hacerlo los estadísticos" y "si entra basura, sale basura".
    Pues la estadística moderna es muy sofisticada y si está bien planificada y ejecutada con datos fiables (difícil) aporta una valiosa información pero ésta debe ser evaluada por el experto más allá de lo matemático. Ejemplo: hay una indiscutible correlación, asociación o como se le quiera llamar entre fumar y el cáncer. Bueno, eso es casi intuitivo y el tema N°1 es que ningún análisis matemático podría demostrar una consistente relación causa-efecto, por existir infinitas covariables cuya interacción es casi imposible de evaluar. Y error N°2, entre los muchos que la Medicina comete, es no consideran a la "magnitud del efecto".
    Para lo último, dejemos a un lado lo del tabaco porque es muy obvio y vamos al tema de un medicamento que en dosis de 5mg pretende reducir (a veces no más)al tamaño de la hipertrofia benigna de la próstata (na' que ver con el cáncer de la próstata salvo por una mera asociación con la edad) bloqueando a algunas moléculas subproducto de las hormonas masculinas, lo que puede deteriorar sutilmente a la líbido. Pues en dosis de 1mg dicen que puede mejorar a la calvice.
    Y bien, uno podría suponer que ese bloqueo podría reducir la incidencia del misterioso y elusivo cáncer de la próstata, pero la débil evidencia preliminar es que ocurre lo contrario, con una muy reducida "magnitud de efecto".
    Pues si yo actuara como es lo habitual en los varones, aceptaría ese riesgo pues parece claro que sí están dispuestos a sacrificar eso para conservar mi look. Es que con el look se creen más atractivos y lo de la líbido se resuelve espectacularmente con el Viagra. ¿Se entiende el manso enredo que involucra a la magnitud del efecto y el potente resultado de las covariables más inesperadas?.
    Es que, Tomas, la Verdad existe, pero los humanos tenemos problemas para evaluarla.
    Pues no les crean a los médicos si la situación no es crítica. La información que manejamos es inconsistente y lo mejor que tenemos es la Pericia. Pero ésta cuesta mucho conseguirla y todos nos creemos peritos. Eso describe a la magia e inconsistencia de la Medicina convencional y en cuanto a las alternativas "naturales", las excluyo porque detesto a las náuseas.

    ResponderBorrar
  8. Muy esclarecedor, en medicina la pericia tiene un efecto enorme sobre las estadísticas porque los problemas son tan complejos y multidimensionales que aplicar pruebas de hipótesis basadas solo en la frecuencia de un grupo de muestra es una locura que debería estar desacreditada hace rato.

    Partiendo por que no hay dos personas iguales, al suponer distribuciones normales se aplica una tremenda simplificación, siempre se está tratando con peras, naranjas, sandías y toda clase de "frutas" distintas que se tratan como si fuera un solo "ser humano" perfectamente estandarizado.

    La tendencia a la objetividad a costa de cualquier simplificación resulta bien en muchos fenómenos simples pero en medicina, economía, ciencias sociales es solo un engaño disfrazado con matemáticas.

    Como decía MV en el primer comentario, hasta en un estudio con estadísticas bayesianas se puede contaminar la premisa escondiendo el bias con un buen chamullo matemático.

    Y sobre la medicina natural, yo creo que la mayoría de las explicaciones son ridículas y está lleno de charlatanes, pero puede servir por el efecto placebo que es poderosísimo.

    Tal vez es uno mismo el que se cura gracias a la despreocupación o se enferma por culpa de la preocupación, lo bueno de los remedios "naturales" (en verdad no me imagino cuales pueden ser no-naturales) es que pueden tener menos efectos secundarios, sobre todo para el bolsillo porque son mucho más baratos.

    Yo desde que leí que la uña de gato tenía un "narcótico" la empecé a tomar todos los días: si contiene droga debe ser buena ;D

    ResponderBorrar
  9. Renato Aguirre Bianchi12 octubre, 2012 14:58

    Hay un error en tu opinión acerca de los remedios naturales y es que no son depurados. O sea, pueden contener a algún químico saludable, pero también a otros dañinos en dosis imposibles de calcular. Y el tema de las "yerbas" es sumamente complejo por no estar sometidas a las rígidas exigencias de la FDA gringa ni la ISP chilensis y en consecuencia, según la OMS las "hierbas chinas" como las catalogan son la principal causa de efectos nocivos de los medicamentos y creo que las que más matan a personas de todo el mundo. Al margen de los otros compuestos químicos no benéficos que pueden contener, todo parte por quién los recolecta, a menudo muchachitos de campo que no tienen "ropa" para diferenciar a una especie de otra parecida y venenosa. Un ejemplo: hay muchos hongos ricos e inocuos, pero a veces muy difícilmente diferenciables de uno parecido pero tóxico. Mi padre era experto en eso, siendo Profesor Vitalicio de Fitoquímica en México y desde mucho antes y gozábamos con sus variedades de hongos. Algo me enseñó de eso y a veces me atrevo a hechar a la parrilla a lo que parece ser Agaricus campestris que aparece en mi parcela, pero igual le temo al asunto.

    Como bien dices, casi todos los medicamentos tiene un origen "natural", pero purificados y a menudo manipulados químicamente para conseguir un mejor efecto y menor riesgo colateral. Un ejemplo local no dramático: le temo a la chachacoma(Senecio nutans) por lo que explico en http://www.aricaacaballo.cl/ebook/arica_territorio_andino/arica_territorio_000301.htm.

    ¡¡Cuidado!!, no hay médicos alópatas ni brujos ni yerbateros inocuos. Por lo muy menos en Chile los primeros están legalmente obligados a prescribir sólo lo autorizado por el ISP. Y eso es tan rígido que puede tener bemoles ridículos: un par de semanas antes de que el Viagra fuera autorizado en Chile, le hicieron un sumario sanitario a un colega por prescribir el que ya estaba autorizado en Argentina...

    Y ni hablar de la homeopatía, dada la aversión que siento por las náuseas: un mínimo ejercicio matemático que hice de su Sílice C-200, entre otros, cuando sólo cursaba el tercer año universitario pero sí entendía al Número de Avogadro, me dio resultados escandalosos. Es que la homeopatía se basa en preceptos absurdos generados cuando nada se sabía de eso y los "científicos" estaban asombrados por eso de las vacunas: inyectar una dosis mínima (modificada) de microorganismos nocivos o parientes más benignos para conseguir inmunidad contra el verdadero peligro. No los culpo, fue una extrapolación razonable para la ignorancia por entonces prevalente. Lo escandaloso es que hoy haya hasta Escuelas de Medicina Homeopática en Argentina y no sé dónde más. Es que la ignorancia es atrevida y las creencias que genera las aprovecha ese Poderoso Señor, el vil dinero...

    Cuando de alumno hacíamos trabajos comunitarios rurales, nuestro principal arsenal terapéutico eran pastillitas de mero almidón: eso para reforzar tu afirmación en cuanto a la "potencia" de los placebos.

    ResponderBorrar
  10. Es un buen punto, nadie me dice que la uña de gato que tomo no es asserrin y no pueda tener algún maldito hongo porque el que la envasó no se lavó las manos o cosa parecida. Pero yo tengo algunas dudas.

    Primero sobre la pureza: un principio activo puro , refinado y fabricado bajo estrictas normas, me imagino que puede ser más beneficioso pero también más dañino dependiendo de la persona. Haciendo una comparación que a mi me gusta, digamos que las hierbas son como la cerveza o el vino, impuros, mezclados e impredecibles pero menos concentrados que -digamos- el vodka o el bourbon, purificados pero mucho más potentes para bien o para mal, quien lo sabe, el conocimiento de los efectos es siempre sobre promedios. Por eso prefiero la cerveza aunque me de mala caña, esa es una defensa natural del cuerpo que no existe contra el vodka, por ejemplo.

    Supongo que la probabilidad de envenenamiento o enfermedad grave por consumir una hierba es menor que por consumir unas drogas fuertes como las pastillas de quimioterapia sin tener cancer, por poner ejemplos extremos.

    Otra duda que tengo es sobre las explicaciones causales versus la experiencia. La homeopatía racionalmente es un absurdo, de acuerdo, pero lo racional no es lo único que funciona. Ud mismo como médico debe haber notado el efecto de tenerle o no confianza al doctor y como afecta eso al tratamiento. Un médico de mucho prestigio normalmente tiene mejores resultados que otro desacreditado o sin prestigio porque irradia cierta confianza o tranquilidad que se induce al paciente, aunque ambos den exactamente el mismo tratamiento.

    La mayoría de las explicaciones de la medicina natural son absurdas, invenciones de charlatanes, de acuerdo. Pero cuantos se han sanado de enfermedades siguiendo las recetas de Lazaeta Acharan con cataplasmas de barro y otras cosas pintorescas que no tienen mucha lógica?

    El placebo y las hierbitas también funcionan a veces, incluso la absurda homeopatía con sus disoluciones infinitesimales que son un insulto a la inteligencia.

    Lo otro que no me gusta en la medicina tradicional -y se que me voy a tener que tragar mis palabras cuando caiga al hospital como indigente y me tenga que poner inyecciones y quien sabe que otra cosa- es que no acepta las enfermedades como algo natural de la vida ¡es normal estar enfermo! se parte de la competencia de los millones de vidas que tiene cada pedacito de nosotros: envejecer, enfermarse y estirar la pata es lo más normal que existe, lo ideal sería hacerlo con el mínimo de dolor e incomodidades. Claro que eso no pasa casi nunca.

    ResponderBorrar

"Send me a postcard, drop me a line
Stating point of view
Indicate precisely what you mean to say
Yours sincerely, wasting away
Give me your answer, fill in a form
Mine for evermore
Will you still need me, will you still feed me
When I'm sixty-four"