28 marzo 2023

La irritante Teoría de la Información

El famoso Claude Shannon fue un ingeniero electrónico -es decir un tipo decente y bueno- que publicó en el Bell System Technical Journal, en 1949, un artículo que revolucionó la ciencia, las matemáticas y todavía pega coletazos apareciendo en muchas investigaciones y desarrollos de la física y otras disciplinas.

El artículo se llamaba "Una teoría matemática de la comunicación" y se puede leer en este link. Popularmente Shannon junto con Warren Weaver son conocidos como los padres de la Teoría de la Información. 

Si se fijan en los detalles, habran notado que el artículo habla de la "comunicación" y no de la "información", tal vez por allí empiezan las cosas que hacen irritante -para mi gusto- esta teoría que por su simplicidad, rigor y enorme valor práctico resulta maravillosa.

Shannon como dije, era ingeniero electrónico, eso decían sus credenciales profesionales pero también era matemático y criptólogo, una de las varias ocurrencias geniales que tuvo fue la de integrar esos tres campos para hacer una teoría general de enorme valor teórico y práctico.

El problema técnico que enfrentaba Shannon era mandar la mayor cantidad de información por un canal sin aumentar el ancho de banda. 

Este era un asunto conocido desde inicios de la radio y para entenderlo mejor podemos pensar en un sistema de comunicaciones como el agua que fluye por un tubo entre una llave(emisor) y un balde (receptor), la cantidad de información es análoga al caudal de agua que pasa por el tubo.

Si queremos pasar más litros de agua por segundo tendremos que agrandar el tubo, no queda otra, pero en las transmisiones de radio se sabía desde antiguo que se puede transmitir con baja calidad -o sea con errores- por canales muy estrechos y a medida que aumentaba el canal (ancho de banda mayor) los errores disminuían y la calidad mejoraba.

¿Cómo era posible esto de transmitir información por canales estrechos? La clave para entenderlo está en el concepto de "información", es decir algo que podemos entender e interpretar correctamente. Si alguien nos dice "hola" y le entendemos "hola" en lugar de "ala" entonces la información se transmitió correctamente y viceversa.

Pero en el proceso pueden haber muchos errores, si el canal introduce ruidos, como ocurría en las primeras transmisiones de radio, los mensajes apenas se entendían y eso en una guerra podía ser desastroso. 

Por otra parte si se aumentaba el ancho de banda para mejorar la calidad, se ocupa más "espacio" en el espectro y hay problemas de interferencia con otros canales de comunicación. Este problema de ancho de banda versus transmisión de buena calidad quebraba la cabeza de los ingenieros desde la invención de las comunicaciones por radio.

Entonces Shannon tuvo la idea de abordar este problema técnico haciendo una teoría matemática, formal  para modelar el proceso de comunicación. Aquí copiaré textual lo que dice Wikipedia sobre la Teoría, que no es diícil de entender

El modelo propuesto por Shannon es un sistema general de la comunicación que parte de una fuente de información que emite un mensaje. A través de un transmisor, se emite una señal que viaja por un canal, donde puede ser interferida por algún ruido. La señal sale del canal, llega a un receptor que decodifica la información convirtiéndola posteriormente en mensaje que pasa a un destinatario. 

Con el modelo de la teoría de la información se trata de llegar a determinar la forma más económica, rápida y segura de codificar un mensaje, sin que la presencia de algún ruido complique su transmisión. Para esto, el destinatario debe comprender la señal correctamente; el problema es que aunque exista un mismo código de por medio, esto no significa que el destinatario va a captar el significado que el emisor le quiso dar al mensaje. 

La codificación puede referirse tanto a la transformación de voz o imagen en señales eléctricas o electromagnéticas, como al cifrado de mensajes para asegurar su privacidad. Un concepto fundamental en la teoría de la información es que la cantidad de información contenida en un mensaje es un valor matemático bien definido y medible.

Como dije, no es difícil de entender pero no se ve claro para qué diablos sirve, para entenderlo sigamos como pensó Shannon el problema. Primero como electrónico se dio cuenta que había que buscar la forma de optimizar los canales, mandando la mayor cantidad de información por una canal lo más estrecho posible.

Esto permitiría no solo transmitir la información y que se entendiera, sino que la transmisión fuera más rápida.

Porque Shannon también pensó el problema como criptólogo, sabiendo que la información es siempre redundante. Pr ejmpl csi culqra pde entdr est auq flten ltras. Así se dio cuenta que la "cantidad de información" era el mínimo que se necesita transmitir para que el mensaje se entienda.

La redundancia en los idiomas por ejemplo, está relacionada con la frecuencia con que aparecen dos letras juntas, un problema muy conocido por los criptólogos. 

Por ejemplo se sabe que en español después de la letra Q aparece con gran frecuencia una U, y que despues de las letras TH en inglés aparece con mucha mayor frecuencia una E. Todo eso se sabía y lo usaban para desncriptar mensajes usando la estadística.

Y Shannon fue todavía un paso más adelante, porque si la naturaleza de la información es estadística, puede manejarse con los conceptos de una de las disciplinas más sólidas de la física, la termodinámica estadística. La cumbre de sus ideas fue identificar la cantidad de información con la entropía (desorden, imposibilidad de predecir) de un sistema.

Allí fue donde se le iluminó la ampolleta a Shannon que definió la "cantidad de información" como la dificultad de predecir. En el ejemplo que puse en negrita más arriba ¿cuantas o cuales letras se pueden eliminar para que nadie entienda el mensaje? 

Por ejemplo si sigo sacando letras y escribo P mpl cul pd ntd st an fltlts, creo que prácticamente nadie podría entenderlo. Este segundo textotiene entonces mucha más información.

Todo esto adquirió una importancia enorme con las comunicaciones por Internet, donde se necesita transmitir cantidades enormes de información con una gran velocidad. 

Gracias a esa teoría aparecieron los algoritmos de compresión, que nos permiten ver películas online o compartir fotos. La compresión no es otra cosa que eliminar las redundancias al enviar y reponerlas al recibir el mensaje.

Ya vemos como Shannon enfrentó un problema de ingeniería, usando conceptos de la criptología, creando un sistema formal matemático, juntó sus tres áreas de conocimiento en una misma teoría que cada día está mostrando más aplicaciones y valor práctico.

La Teoría de la Información es el Santo Grial de muchas ramas de la ciencia actual, por ejemplo las teorías de la física más avanzada, que explican el universo como un enorme sistema de intercambio de información. 

Es increíble la cantidad de ciencias que la usan, por ejemplo muchas investigaciones de arqueología usan como herramienta la Teoría de la Información y así, las aplicaciones son incontables y cada día aparecen más.

Y más de alguno se preguntará por qué en el título de esta entrada dice que se trata de una teoría irritante y yo se los explicaré de inmediato, según como yo lo entiendo.

Si llevamos el asunto al extremo, el sistema con más información de todos es el más entrópico, es decir uno que no sigue ningún patrón, no puede asociarse con nada y no puede predecirse de ninguna manera. 

Bueno, aquí es donde -a mi modo de ver- don Claude Elwood Shannon se pisa la cola, porque esa es precisamente la descripción de el ruido, es decir la ausencia de toda información. 

Yo se que debe haber alguna explicación para esta contradicción, pero al menos a mi no se me ocurre ninguna y pienso que definir la cantidad de información como la entropís de un sistema lleva a una contradicción, al menos así me parece a mi con mi limitado entendimiento.

2 comentarios:

  1. Excelente nota.
    Siempre confirmo que me interesan las mismas cosas que a Ud.
    Una cosilla con eso de "comunicación" e "información". Creo que acertó Shannon con el título, porque la cosa depende de que emisor y receptor compartan código y lenguaje común. Que luego pase buena información entre ambos, bueno, puede ser. Pero en principio es un esfuerzo por comunicar.
    En lo social Shannon tuvo su auge en los 60 y 70, le cambiaron el nombre a "Teoría de la Información", le intentaron aplicar en las cosas más locas y cuando no dio resultados culparon a Shannon.
    Ejemplo, un ecólogo trata de medir la biodiversidad de un eco-sistema con su fórmula, cosas así. No siempre llegaron a buen puerto.
    Al final intelectuales de literatura terminaron notando que Shannon no dice nada de la "calidad" de la información. Mencionan que un buen redactor puede poner mucha "información" en un texto corto, o estirar con floreos y rebusques un largo texto que nos informa de muy poco.
    Lo trataron a Shannon de primitivo, y lo olvidaron (en el fondo estarían resentidos de que un ajustador de cables se meta con el "mensaje")
    Ahora, yo creo que se equivocan.
    Shannon parte de un código y usa las frecuencias relativas de cada elemento. La literatura es potencialmente infinita. Parecen mundos distintos.
    Pero imaginemos dos escritores en un café de Paris en mitad de los 60.
    Seguramente pueden hablar del existencialismo y de Simone de Beauvir de corrido. Mientras hablan, comparten un montón de "códigos", de ideas comunes, de entendimientos.
    Podrán hablar de Neruda o Cortázar con un poco más de dificultad, pero un poco nomás, porque esos ya estaban de moda en el mundo culto.
    Podrán hablar de la literatura épica persa del siglo XV raramente, sólo que haya sido el tema doctoral de alguno de ellos.
    De literatura gauchesca de la región de Magallanes no hablarán porque no sabrían ni que existe. (si es que existe)
    Entonces también tienen un "código" limitado, finito pero no medible, de uso frecuencial diferente, sólo que no puede establecerse como en base a un abecedario. Pero los principios de Shannon, estoy convencido, siguen estando ahí. Uls

    ResponderBorrar
    Respuestas
    1. Claro que si Ulschmidt, una cosa que vale la pena notar es que Shannon tuvo la genialidad de definir la cantidad de información en términos formales y matemáticos, eso es algo que a nadie se le había ocurrido antes, aunque Borges cuabdo escribió "La biblioteca de Babel" seguramente tuvo una primer aintuición del asunto.

      Contaba Borges -por lo que recuerdo- de una bilioteca con infinistos libros que contenían todas las posibles combinaciones de letras que se podían formar con el alfabeto (menos mal que solo se metió con el alfabeto occidental según recuerdo)

      La enorme mayoría de esos libros no tenían ningún sentido, pero también estaba la Biblia, el Quijote, las Memoriads de una princesa rusa, en fin, toda la literatura, no solo la que existe sino la que puede existir.

      Eso era una metáfora de muchas cosas pero en su sentido más obvio y directo describía los problemas de la combinatoria y la redundancia, que es a lo que dedican su vida muchos criptografos.

      Resulta que la información, como la describe Shannon, no necesita tener ningún significado, todos los mensajes contienen información, independientemente de lo que contengan, el significado no interesa para la teoría.

      Pero la teoría de Shannon si puede decir una cosa importantísima: cuales mensajes tienen más información y cuales tienen menos, aunque no tengamos la menor idea de qué significan, ese es el punto clave de la criptología. Cuando alguien intenta desencriptar un mensaje no tiene la menor idea de qué se trata.

      En contraste tenemos la idea popular de "información" como aquello que nos es útil, nos sirve para conocer acerca de algo. Por ejemplo en la guerra yo informo donde están las tropas enemigas, o a alguien yo le informo como está la situación política en Chile.

      Pero esa no es la información a la que se refiere la Teoría, la idea de Shannon se puede aplicar de manera independiente a los contenidos. Uno puede saber cuanta información tiene un mensaje que no significa absolutamente nada y cuanta uno que tiene un significado muy valioso. De hecho un mensaje que contenga algo sin ningún significado tendrá la máxima información, mucha más de uno con significado valioso.

      Shannon también definió "el secreto perfecto" que es un método de encriptación que no puede ser roto de ninguan otra manera que no sea por fuerza bruta en un lapso de tiempo que tiende a eterno. Eso también tiene que ver con la Teoría y el método se llama "one time pad" que es muy poco práctico, ridículamente sencillo y creo que es el que se usa hasta hoy para activar las claves de lanzamiento de armas nucleares estratégicas.

      Hace años escribí una entrada sobre eso
      https://bradanovic.blogspot.com/2016/01/el-secreto-perfecto.html

      Borrar

"Send me a postcard, drop me a line
Stating point of view
Indicate precisely what you mean to say
Yours sincerely, wasting away
Give me your answer, fill in a form
Mine for evermore
Will you still need me, will you still feed me
When I'm sixty-four"