viernes, 25 de marzo de 2016

129. Google y primarias demócratas en USA. Lo que importa es el color.

21/04/2016. Demócratas. Lo que importa es el color.

¿Cuándo ganará Clinton?  

El martes pasado Hillary Clinton ganó en New York y ya suma 1948 delegados (1446 electos y 502 superdelados del partido), por 1238 Sanders (1200 electos y 38 superdelegados).Quedan unos 1580 delegados por elegir de modo que es seguro que Clinton ganará. Le bastaría hacerse con 1/3 de los que restan por repartir para superar los 2383 que necesita para ser nominada de modo automático. Lo malo (para ella) es que si todo va como hasta ahora puede que no lo logre hasta casi el final de la campaña, el 5 de junio, en Puerto Rico, o peor aún, 7 de junio, cuando se decidan 694 delegados, 501 de ellos en California. Despúes de eso, solo quedarán por asignar 46 delegados en Washington DC el 14 de junio.

La cuestión es que de aquí al 5 de junio se reparten 686 dejegados, y si Clinton llevase el 55 % de los delegados como hasta ahora, sumaría +377 y tendría 2325, y aunque se le pasaran los +42 superdelegados todavía en disputa se quedaría en 2367, todavía a 16 de los 2383 necesarios.

Por desgracia, Google no me está sirviendo de mucha ayuda para adelantar pronósticos en los estados. Como muestro abajo, la relación de búsquedas hillary clinton vs. bernie sanders solo explica un 56 % del voto. 

La relación clinton vs. sanders muestra peor correlación con el voto al verse influida por otros factores, como por ejemplo que unas cuantas poblaciones en EEUU se llaman Clinton y añaden búsquedas no relacionadas con la candidata Hillary Clinton. Así todo, ¿por qué es la correlación entre los resultados electorales de los candidatos demócratas y las búsquedas en Google incluso peores que la de los republicanos?  

It's the race, stupid!

Bueno, pues aquí la respuesta: porque el voto de Clinton es, sobre todo, racial.

En los estados en los que la población blanca supera el 80 %, el voto a Clinton cayó por debajo del 50 %. Alaska y Hawai se alejan de esta correlación por el peso de la población nativa (pues probablemente el diferencial de votos de Clinton lo dan negros+hispanos). El 64 % del voto a Clinton frente a Sanders viene determinado por la distribución racial de la población de cada estado y por eso es imposible dar con una ecuación que relacione búsquedas y votos en todos los estados.  En este juego la raza es la variable independiente tanto de los votos como de las búsquedas. 

Volviendo a lo mismo. ¿Cuándo ganará Clinton?

Siguiendo entonces con la cuestión de cuándo ganará Clinton, resulta que en los estados que quedan hasta el 7 de junio la población es mayoritariamente blanca, de modo que incluso si Clinton llevase los 60 delegados de Puerto Rico, sólo sumaría 374 delegados.  

Lo que sí se le da bien a Clinton son las primarias abiertas. En los 36 estados que ya votaron, 14 lo hicieron mediante caucus y en ellos Clinton obtuvo un 35% de los votos, mientras que en las primarias de los 21 restantes logró el 57 % de los votos. Para suerte de Clinton solo se juegan en Caucus 7 delegados en el territorio de Guam y otros 7 en las Islas Vírgenes Americanas.  
Pero el sistema electoral está también muy relacionado con la ascendecia de la población europea vs latino-africana. Descontando los casos especiales de Alaska y Hawai (estados con mucha población nativa), los estados con caucus tienen una poblacion blanca media del 88% y los estados con primarias del 77 %. 

De hecho, si calculo con la correlación de arriba los votos de Clinton para un 77 % y un 88% de población blanca en los estados con caucus y primarias, el resultado se aproxima muy mucho a los resultados reales de Clinton hasta la fecha.


El sistema electoral tampoco añade o quita a la correlación de búsquedas y votos demócratas. 

Así que Clinton está ahí, ahí... ¿Tendrá que esperar al 7 de junio para lograr los 2383 delegados? Por los pelos, pero es muy posible que sí. 


25/03/2016. Google y primarias en USA. Republicanos. 

Tras revisar las búsquedas en Google en 30 estados de los EEUU y los resultados de las eleciones, debo reconocer que no hay un modo simple de predecir con una mínima seguridad el resultado.  
El gráfico anterior muestra el punto de partida. Las búsquedas son de la media semanal de la semana anterior (domingo a sábado) a las elecciones. El periodo de elecciones va del 01/02 al 15/03. En total, 30 estados. No incluyo los territorios exteriores (Puerto Rico, Islas Vírgenes Americanas, etc.). No hay datos de Ben Carson tras el Supertuesday del 01/03 porque se retiró. Opté por ajustes potenciales  y la razón es porque supongo que la relación entre votos y búsquedas es de tipo logarítmico. (Creo que, en general, la relación logarítmica es la función mediante la cual creamos el valor del mundo, aunque esto es algo que se escapa de mi propósito ahora). 

Como se ve en el gráfico, las búsquedas en Google son la base y el ajuste debería darme el exponente con el que calcular los votos de cada candidato. Como se ve en el gráfico, Trump es el principal problema para lograr un ajuste decente. Tras muchas pruebas y un poco al tun-tún, empecé con el caucus del Iowa (01/02/2016) asignando un exponente 1,73 (3^0,5) a Kasich y 1,41 (2^0.5) a los demás. El 01/03/2016 (SuperTuesday) rebajé el exponente de Trump a 1,14. El 05/03/2016 lo dejé en 1 (o sea, un ajuste lineal, a estas alturas la popularidad de Trump era ya de por sí una burbuja mediática y su crecimiento exponencial). El 12/03/2016 rebajé el exponented e Cruz a 1,14. 

Este es el resultado.


Recuerdo que para el Supertuesday GOP el acierto de mi previsión fue del 76 % y mi objetivo era del 90%. Con todos los resultados hasta la fecha, la realidad es aún peor (R2=0,63). 

¿Por qué tan malo?

Las posibilidades son:

1.- Las búsquedas en Google no reflejan el voto 
2.- Las presidenciales de los USA no son representativas. 

Creo que, en este caso, la respuesta es una mezcla de 1 y 2. Empiezo por 2.

Para los 30 estados, el error de los valores calculados es del 
       40 % en los caucus (10 estados)
       31 % en primarias cerradas (4 estados)
       28,5 % en primarias semicerradas (5 estados)
       21 % en primarias abiertas (11 estados)

Está claro que hay un déficit de representatitividad en los caucus y que cuanto más participativas y abiertas son las primarias, más semejante es su resultado al de las búsquedas. 

En cuanto a 1, es cierto que estas son unas elecciones partidistas, y Google Trends no discrimina si una búsqueda la hace un votante demócrata o un republicano, luego podría haber un sesgo. Es decir, un candidato podría ser mucho más popular entre los DEM que entre los GOP, de modo que las búsquedas estuviesen infladas (o menguadas, en caso contrario) respecto de los votos. Pero desde el momento que a cada candidato le aplico su propio ajuste, este problema deja de serlo. 

La verdadera cuestión es si la población que busca candidatos en Google en cada estado es representativa de la población en esos estados. Lo cierto es que la variabilidad de búsquedas en todos los estados es muy pequeña comparada con las búsquedas totales en los EEUU. Por ejemplo, en Vermont (un pequeño estado del norte con 626.000 habitantes) la variabilidad de búsquedas semanales de los 5 candidatos a lo largo de 1 año coincide con la total en EEUU en un 81,5 % y en Texas (el gran estado del sur, con 27,5 millones) la coincidencia es del 95%. Los estados pequeños tienden a mostrar más diferencias en búsquedas con la media de los EEUU, pero la tendencia estadística es muy endeble y poco relevante. De hecho, en Vermont y Texas votó en las primarias abiertas del GOP el 9% de la población y el error del ajuste fue del 35 % en Texas y del 20 % en Vermont. El mayor error de Texas se debió a que el voto mayoritario al candidato Cruz (que es gobernador allí, y por tanto muy conocido) no se acompañó de una correlación en las búsquedas. 


Y esta es la gran duda. De media, el comportamiento de búsquedas en los 30 estados difiere apenas un 11 % del comportamiento en todo el país. ¿Es esta variabilidad suficiente para representar la variabilida política? ¿Es la población que usa Google políticamente más homogénea que los votantes de los EEUU? Y lo que me parece más relevante: ¿Tenderá el uso masivo de la información instantánea de internet a unificar el comportamiento político? ¿Serán las masas de votantes cada vez más homogéneas? Es una interesante cuestión, y haría falta comprobar si los resultados electorales en los EEUU se han ido homogeneizando entre estados a lo largo del siglo XX. 

PD.- Para terminar, una paradoja: considerando los ajustes de los candidatos y su evolución (Cruz ha pasado de un exponente de 1,41 a 1,14), el único con posibilidades de ganar a Trump es Kasich, el último del pelotón. A Kasich le bastaría añadir muy poco interés público por su candidatura para ganar un montón de votos. 





1 comentario:

  1. Ahora mismo Hillary tiene unos 2.150 delegados (+superdelegados)y le faltan unos 240 aproximadamente y los estados que quedan por votar en el mes de mayo son escasos en delegados: Indiana 83, V.Occidental 29, Kentucky 55 y Oregón 61 = 228 (y a repartir entre ella y Sanders) ;insuficientes para llegar a la cifra mágica. No es hasta principios de junio cuando vota la madre de todas las primarias, California (475), donde fijo supera la meta. Así que el 7 de junio será cuando cante victoria...un mes desperdiciando recursos, que podría estar dedicando a recaudar dinero y esfuerzos para derritar al troglodita de las cavernas.Una pena.

    ResponderEliminar