Este reporte es una primera aproximación al uso de algoritmos computacionales para hallar similitudes o diferencias entre los textos de los planes y los textos de los discursos de los candidatos. Ninguno de los resultados mostrados es una medida de calidad o desempeño, sino un cálculo directo sobre el conjunto de palabras (corpus) que el candidato haya usado para redactar su plan o elaborar su discurso.
Existen métodos que buscan calcular la similitud entre textos . Para ello hemos combinado diversas técnicas computacionales:
Para encontrar los terminos relevantes: La técnica TF-IDF
Para encontrar las distancias entre esos término: La técnica de optimización “Vecinos más cercanos” “Nearest Neighbor”.
Para medir las distancias: La técnica de búsqueda exhaustiva o brute force.
Los algoritmos de este tipo son bastante usado para recomendarnos contenidos, sabiendo qué clase de contenidos leemos.
Los planes se descargaron de VotoInformado del Jurado Nacional de Elecciones, pero como están en PDF fueron convertidos a formato txt. Se ha tratado de incluir las secciones de las propuestas y eliminar las secciones de diagnósticos. Los datos utilizados están en este link por si algun candidato desea enviarnos su plan concreto en txt o word.
La tabla siguiente muestra los resultados:
Se muestra por cada plan de algun candidato, los dos planes más cercanos a éste. Los valores van de 0 a 1, mientras menor el valor, mayor cercanía. Como se puede ver, hay en general una distancia prudente entre todos los planes. No hay ningún par de planes que tenga una distancia corta entre ellos. Esta medida sirve de manera comparativa, y en todo caso, debe hacernos reflexionar si las cercanías mostradas eran las esperadas.
Para esta sección vamos a usar los mensajes de Twitter nuevamente. Estando a pocos dias de las elecciones, hemos decidido utilizar los mensajes que cada uno de los 5 primeros candidatos en las encuestas envió via su cuenta Twitter. La técnica utilizada es la misma que la anterior. En este caso, se ha agregado todos los mensajes de Twitter desde el 1 de enero del 2016 hasta el 2 de abril de 2016. Los resultados son los siguientes.
Notese del cuadro anterior, que hay resultados similares a las diferencias encontradas entre los planes de gobierno. Es decir, en ambos casos, sea en el plan, o sea via Twitter, los lenguajes se han diferenciado claramente entre los candidatos. No sería justo decir que son similares.
Finalmente, siguiendo la misma técnica, hemos organizado los discursos de cada candidatos por mes. De ahi, se ha calculado qué tanto un candidato ha ido variando su lenguaje en el tiempo.
En este caso hay cosas por resaltar:
Recuerdese que los valores van de 0 a 1 (1 es máxmima variación), por lo que pueden interpretarlos como porcentajes. Al mostrar estas diferencia y resaltar las minimas y máximas, lo usamos nuevamente como referencia. Tengo en cuenta que esto NO ES una medida de consistencia o coherencia del candidato.
Trabajo hecho con el soporte del: