(Entrada invitada) ¿Qué tan predecibles son los votantes chilenos? Machine Learning, Política y Política Pública.

En esta entrada invitada, los economistas Cristian Dagnino y Christian Salas utilizan estrategias de machine learning y la encuesta CEP para deducir las preferencias de los indecisos. Primero describen su metodología y luego la aplican para estimar los resultados de la primera vuelta presidencial de este domingo.

En una entrada anterior, Bernardo Mackenna y yo decíamos que uno de los aspectos más comentados de la última entrega de resultados de la encuesta CEP fueron los indecisos, ellos corresponden a los encuestados que dejaron en blanco la papeleta, anularon su voto o bien escribieron que no votarían en una simulación de voto en urna de la primera vuelta presidencial en la encuesta. En una entrada posterior planteamos una forma de estimar las preferencias electorales de ese grupo.

Motivados por este ejercicio, dos economistas, Cristian Dagnino (PhD(c) en Economía de la Universidad de Chicago) y Christian Salas (PhD en Políticas Públicas de la Universidad de Chicago), utilizaron estrategias de machine learning y la encuesta CEP para deducir las preferencias de los indecisos. A continuación, ellos describen su metodología y los resultados que consiguen al utilizar esta aproximación.

*****

Póngase en este escenario: usted le pide a un desconocido en la calle que le responda algunas preguntas sobre su edad, ingreso, educación, y algunas opiniones sobre la actualidad política. Con esa información, ¿sería usted capaz de predecir por quién votará este desconocido en la primera vuelta de la elección presidencial?

En otras palabras, ¿cómo podemos usar datos como estos para predecir cuál de las nueve opciones (ocho candidatos más nulo-blanco) va a elegir?

Una aproximación natural es primero definir qué características separarían mejor a los votantes, y luego predecir en base a estas. Por ejemplo, podríamos establecer que un votante joven que se declara de izquierda probablemente se incline por Beatriz Sánchez o Marco Enríquez-Ominami, y que un votante que no se declara de izquierda y cuya primera prioridad es la delincuencia prefiera a José Antonio Kast o Sebastián Piñera.

En general, este ejercicio no es muy exitoso. De hecho, siguiendo un proceso similar al descrito en el párrafo anterior, logramos “descubrir” a sólo un 52% de los votantes de Sebastián Piñera, es decir, si predecimos de esta manera asignaríamos incorrectamente a 48% de los votantes de Piñera a otro candidato. Varias razones explican este fracaso. Nuestro prejuicio respecto de qué caracteriza a cada votante puede estar errado. Además, el número de variables que caracteriza a un grupo puede ser muy alto para considerarlas todas. Finalmente, estas variables pueden interactuar de maneras que no anticipamos; ¿cómo se diferencia la intención de voto de un joven católico que vive en Santiago y de otro igual que vive en región?

El objetivo de esta columna es predecir la intención del voto mediante herramientas de machine learning, cuyo enfoque resuelve de manera sistemática los problemas presentados en el párrafo anterior. Los algoritmos de machine learning aprenden de una base de datos que contiene las características de personas y su intención de voto. Esto permite que un algoritmo escoja automáticamente las variables más relevantes y la forma en que interactúan. El fin es tener un buen desempeño cuando nos enfrentemos a nuevos datos; en este caso, cuando nos encontremos con una muestra que contenga características de personas, pero no la intención de voto (un desconocido en la calle).

Si no conocemos la intención de voto en estos nuevos datos, ¿cómo podemos evaluar el desempeño del modelo? Una manera es comparar nuestra predicción con los datos que ya tenemos, pero esto siempre es insuficiente: nos interesa la validez de la predicción sobre nuevos datos (esto es, fuera de la muestra). Para obtener una mejor idea de la calidad del modelo, los practicantes del machine learning manejan esta dificultad poniendo penalizaciones a la complejidad y siendo cuidadosos a la hora de evaluar el modelo. Por ejemplo, podemos dividir la muestra en dos: una base de entrenamiento y una de prueba. Luego estimamos varios modelos, pero solamente usando la base de entrenamiento. Los modelos son entrenados solamente viendo los datos de la base de entrenamiento. Para elegir el mejor modelo, usamos el resultado de las predicciones del modelo en la base de prueba, pues los resultados sobre la base de entrenamiento podrían ser demasiado optimistas.

Prediciendo la intención de voto

Para ilustrar cómo el machine learning nos puede ayudar en la tarea de predicción, utilizamos la última encuesta CEP para entrenar un modelo que prediga la intención de voto.

Para mostrar los resultados de nuestro ejercicio, la siguiente figura muestra la llamada “matriz de confusión”, la cual presenta la probabilidad de que un voto real sea predicho. Cada fila representa el voto real por un candidato y cada columna la predicción del modelo. Por lo tanto, cada celda indica la fracción de los votantes reales del candidato de la fila que fueron predichos como votantes del candidato de la columna. Cada fila, entonces, suma 100%. Entonces, la diagonal que comienza en la esquina superior izquierda muestra el porcentaje de aciertos. Un modelo perfecto contendrá sólo unos (100%) en esta diagonal. Por ejemplo, del conjunto de votantes por Guillier, 2/3 son predichos correctamente, pero 12% son confundidos como votantes de Beatriz Sánchez y 16% como votantes de Marco Enríquez-Ominami. Similar desempeño logra el modelo al tratar de predecir a votantes de Beatriz Sánchez y Marco Enríquez-Ominami. Sebastián Piñera, sin embargo, es predicho con muy poco error: el modelo logra predecir al 98% de sus votantes.

Un problema de estas técnicas es que requieren muchos datos para entrenar bien un modelo, algo especialmente acuciante cuando existen candidatos con muy pocas menciones. El objetivo es separar a los votantes típicos de cada candidato en base a sus características, lo cual debe comenzar por caracterizar a este votante. Cuando sólo tres personas mencionan a un candidato se corre el riesgo de que justo estos no sean los más representativos. Por esta razón, el modelo es menos exitoso en predecir a Eduardo Artés, Alejandro Navarro, José Antonio Kast y Carolina Goic.

Candidatos con varias menciones, sin embargo, también corren riesgo de ser mal predichos. Esto es en parte porque existen candidatos cuyos votantes se parecen mucho, pero también porque el modelo se entrena para buscar las características típicas del votante de cada candidato y, tal vez, no todos sus votantes las comparten.

Para ilustrar esto, tomemos como ejemplo los dos candidatos que lideran las encuestas en la izquierda, Alejandro Guillier y Beatriz Sánchez. Notemos que en la matriz de confusión se puede ver que alrededor de un 15% de los votantes de cada uno es predicho como votante del otro. Una razón puede ser las similitudes entre ellos. Por ejemplo, en ambos casos, un 43% de sus votantes tienen como prioridad mejorar las pensiones. Otra razón puede ser que cada grupo de votantes sea relativamente homogéneo en una característica, y que, sin embargo, también incluyan gente que diste mucho de este patrón. Considere la edad promedio de cada grupo de votantes, ilustrada en la siguiente  tabla.

Edad Promedio

Total

Predichos Guillier

Predichos Sánchez

Vota por Guillier

52.70

52.95

37.51

Vota por Sánchez

36.43

46.91

34.12

Como era de esperar, los votantes de Sánchez son, en promedio, mucho más jóvenes que los de Guillier, por lo que la edad parece ser una variable útil para separar los votantes de estos dos candidatos. Esto causa que, especialmente enfrentado a individuos similares en otras dimensiones, el modelo asigne erróneamente a los votantes jóvenes de Guillier a Sánchez y, viceversa, asigne erróneamente a los votantes de más edad de Sánchez a Guillier. En cambio, la predicción de los votantes de Piñera parece más fácil en esta ocasión, probablemente porque su candidatura combina atributos y plataformas en una manera que otras candidaturas no lo hacen.

Cuando hay poca confusión entre predicción y realidad, decimos que los votantes chilenos son bastante predecibles. En este caso en particular, vemos que la información del CEP nos permite predecir con mucha confianza si una persona es un votante de Piñera, pero no resulta tan fácil predecir si una persona vota por Sánchez o Guillier.

Próximo domingo

Todo lo anterior puede ser interesante, pero ¿cómo puede aportar a la predicción de los resultados de la elección del domingo?

Aunque hay bastante información al respecto, el nivel de incertidumbre sobre el resultado de la elección sigue siendo alto. En particular, identificamos dos razones: con voto voluntario no sabemos quién va a votar e incluso dentro de quienes declararon que votarían con seguridad, todavía hay muchos indecisos.

Las herramientas de machine learning nos pueden ayudar para ambos problemas, pero, en esta ocasión, nos concentramos en el segundo: predecir la votación de los indecisos.

Para abstraernos del problema de quién asistirá a la urna, usamos la variable de votante probable construida por Ricardo González T. y Bernardo Mackenna C. Suponiendo que esta predicción es correcta, esto significa que un 44% de la población asistirá a votar. En este cálculo, los autores estiman que el 15% de quienes probablemente asistirán a votar responden que votarán en blanco, nulo o que están indecisos. Sin embargo, la fracción de nulos y blancos en la pasada elección presidencial fue de sólo 1,7% e incluso cuando el voto era obligatorio esta cifra no superaba el 4%. En otras palabras, 13% del anterior 15% son probablemente indecisos que sí marcarán una opción en la elección. ¿A dónde irán estos votos?

Esta pregunta es particularmente relevante al ver que Piñera captura un 44,4% de las preferencias de los ya decididos en la encuesta CEP. De capturar la mitad de estos indecisos, podría ganar la elección en primera vuelta. Estos indecisos son las personas que, según la encuesta CEP, tienen una alta probabilidad de votar, pero sin embargo aún no tienen decidido su voto.

Para obtener una respuesta, usamos algunas de las ideas de machine learning que expusimos arriba y consideramos modelos con diferentes niveles de complejidad, siempre evaluándolos con una base de prueba. De esta manera, entrenamos el modelo con las intenciones de voto de la gente ya decidida (incluyendo la opción de blancos/nulos) y luego usamos este modelo para predecir las posibles intenciones de voto de los indecisos. La siguiente gráfica muestra cómo el modelo descompone el 15% de estos indecisos.

De ser esto cierto, el resultado de la primera vuelta, descontando nulos y blancos, sería el siguiente:

Candidato Voto Final
Sebastián Piñera 49,31%
Alejandro Guillier 23,34%
Beatriz Sánchez 10,23%
Marco Enríquez-Ominami 7,49%
Carolina Goic 5,03%
José Antonio Kast 3,11%
Alejandro Navarro 0,99%
Eduardo Artés 0,51%

Es importante advertir la alta imprecisión de esta proyección. Primero, la base de todo este ejercicio es el resultado de la encuesta CEP, la cual encuesta a 1424 personas para representar a los más de 13 millones de votantes, lo cual naturalmente involucra un error muestral. Una segunda fuente de ruido es el voto voluntario, pues por muy precisa que sea la estimación de votante probable siempre involucrará incertidumbre. Adicional a esto, esta encuesta se realizó más de un mes antes de la elección, y eventos desde entonces pueden haber cambiado la intención de voto y/o la decisión de ir a votar. Finalmente, en la matriz de confusión quedó ilustrado que, por muy sofisticados que sean nuestros modelos, estos pueden cometer errores de predicción considerables.

El futuro de machine learning

Más allá de esta elección, las herramientas de machine learning están abriendo espacios importantes para mejorar las políticas públicas, especialmente para problemas que son predictivos y no causales.

En Estados Unidos, por ejemplo, se están utilizando algoritmos para predecir qué detenidos podrían volver a delinquir con alta probabilidad si son liberados, y con esto decidir cuáles requieren de prisión preventiva y cuáles no. Esto ha reducido las colas y tiempos de audiencia, así como la cantidad de gente total encarcelada. Relacionado al ejercicio sencillo que hicimos al principio, el algoritmo también redujo la proporción de minorías que son recomendadas a prisión preventiva, en parte porque los jueces, en el afán de procesar una gran cantidad de detenidos, utilizaban solamente tres o cuatro características para su decisión, lo cual le cargaba la mano a grupos estigmatizados como minorías.

Podemos también imaginar avances en el sistema electoral. Por ejemplo, una intervención común es invertir recursos para motivar a la gente a votar. Lograr movilizar una fracción significativa de la población puede involucrar cuantiosos recursos. Es razonable pensar que existen personas que, sin importar la intervención, ya tienen decidido si ir o no a votar, y otras que pueden ser persuadidas. En este caso, las herramientas de machine learning podrían ser utilizadas, machine learning podría ser utilizado para identificar cuál persona es cuál, y con esto guiar la intervención para focalizar los recursos de manera más eficiente.

Gane quien gane este domingo, machine learning llegó para quedarse.

Damos las gracias a Ricardo González, quien nos ayudó con el enfoque y ¡las múltiples dudas que teníamos sobre la encuesta!