4
Nueva York:
Fig. 9. El eje X es la diferencia entre el número de votos de Biden y el número de votos de Trump en cada actualización de votos, y el eje Y es el logaritmo natural de la proporción de los dos.
Los márgenes de voto para cada actualización se agrupan bastante en torno a cero, mientras que las pocas actualizaciones que tienen márgenes excepcionalmente grandes para cualquiera de los candidatos tienen proporciones que no son tan extremas como las de muchas otras actualizaciones.
Consolidar, comparar y medir
Habiendo realizado un breve recorrido por estados con características similares, es decir, donde Joe Biden está actualmente a la cabeza y el voto demócrata proviene abrumadoramente de una sola área urbana (o quizás dos, en el caso de Pensilvania), podemos
ver que Michigan y Ambos gráficos de Wisconsin parecen inusuales. Para evaluar más rigurosamente hasta qué punto esto es realmente anómalo, es necesario tener en cuenta la realidad de que el margen típico de Biden-Trump y la relación Biden: Trump variarán sustancialmente entre los estados. Si simplemente tomamos estos valores como son, entonces la mayoría de las diferencias entre, por ejemplo, Alabama y California probablemente serían solo artefactos de las discrepancias masivas entre el desempeño de cada candidato en estos estados.
Para lograr esto, podemos utilizar un proceso de transformación de datos llamado
estandarización . Este es un proceso mediante el cual, para una serie de datos numéricos, la media de los datos se resta de cada punto y luego el resultado se divide por la desviación estándar. Esto producirá una serie de distribuciones que permitirán una comparación de manzanas con manzanas de estos valores (es decir, margen de Biden-Trump actualizado por voto y relación logarítmica de Biden: Trump) entre estados que son muy diferentes en tamaño y muy inclinados. de manera diferente, políticamente. La estandarización de datos es una técnica muy común en el aprendizaje automático para entrenar modelos en conjuntos de datos con magnitudes y medias numéricas muy diferentes [10], ya que proporciona precisamente la funcionalidad que necesitamos aquí.
Por tanto, podemos estandarizar cada punto individual (margen, relación logarítmica) dentro de su estado [11] y graficarlo como lo hicimos antes. Así es como se ve ese gráfico. Los valores de Michigan están en rojo, los de Wisconsin son verdes y los valores de todos los demás estados son azules:
Fig. 10. El eje X es la diferencia entre el número de votos de Biden y el número de votos de Trump en cada actualización, estandarizado por la distribución de dichos valores de su estado. El eje Y es la relación logarítmica de los votos de Biden a los votos de Trump en cada actualización, nuevamente estandarizada por la distribución de dichos valores en su estado.
De estas 8,954 actualizaciones de votos en todo el país, podemos ver cuán abrumador es el patrón. En particular, vemos que, con algunas excepciones notables, a medida que un valor se vuelve más extremo en cualquier dirección, el otro tiende a volverse menos extremo.
Esto nos lleva a las excepciones identificables visualmente.
Dirigiendo nuestra atención a los puntos en el extremo derecho de la distribución, es decir, aquellos que tienen el margen Biden-Trump más extremo
con respecto a su estado , inmediatamente vemos un punto de Michigan, que está bastante por encima de donde la forma del trama de lo contrario predeciría que sea. Este, el punto en (15.494, 4.989), es la actualización de la votación que llegó a las 6:31 am EST el 4 de noviembre, fue 141,257 a Biden y 5,968 a Trump. Recuerde: esta actualización tuvo el mayor margen (135,290) de cualquiera de las 574 actualizaciones [12] en Michigan, por aproximadamente 85,000 votos y un factor de aproximadamente 2.7 sobre el de la actualización con la siguiente actualización más grande, (5.679, 3.912 ) - lo cual, críticamente (y sorprendentemente, en
relación con lo que muestra esta distribución), fue a la
vezel segundo más grande en términos de margen Biden-Trump
y relación Biden: Trump [13]. También tuvo la mayor proporción Biden: Trump (aproximadamente 23.69: 1), en más de un factor de 2 sobre la de la actualización con la siguiente proporción Biden: Trump más grande. La discrepancia visual entre esa actualización y el patrón abrumador seguido por las otras actualizaciones es evidente, y en breve cuantificaremos cuán extremo es.
A continuación, considere el punto verde ligeramente hacia abajo ya la izquierda del valor atípico rojo. Esta es la actualización de la votación en Wisconsin que llegó a las 3:42 am CST el 4 de noviembre, que fue de 143,379 para Biden y 25,163 para Trump, para un margen de 118,215 [14]. Fue la actualización con el mayor margen Biden-Trump en Wisconsin por una gran distancia [15] y, en la relación Biden: Trump, fue la segunda más grande, solo superada por una actualización que fue 26 veces más pequeña y, sin embargo, solo un poco más extrema en su relación [16].
También vemos un punto rojo en (5.679, 3.912), que corresponde a la actualización de la votación que llegó a las 3:50 am EST el 4 de noviembre y fue de 54,497 para Biden a 4,718 para Trump, para un margen de 49,779 y una proporción de 11.55: 1. Vale la pena señalar que, aunque no es tan anómalo como la actualización de las 6:31 am EST, esta fue muy extrema en ambas dimensiones por derecho propio. Sin embargo, como veremos, acaba siendo el séptimo valor más extremo en cuanto a su no adherencia a la distribución en su conjunto.
Si bien ambos puntos serían inusuales por sí solos, es excepcionalmente poco probable que ambos provengan del mismo estado, crítico para la elección, con menos de tres horas de diferencia durante un proceso de conteo nocturno, un proceso sujeto a una gran controversia. y donde quedan, a casi tres semanas del día de las elecciones, muchas incógnitas. Juntas, estas dos actualizaciones de votos proporcionaron a Joe Biden los votos necesarios para llevarlo a la cabeza en el estado.
Cuantificando la extremidad
Habiendo demostrado visualmente cuán anómalas son las cuatro actualizaciones de votos clave, ahora podemos proceder a intentar cuantificar cuán inusual es que estos tres puntos existan a la vez y que dos de ellos sean del mismo estado.
El siguiente gráfico tiene dos propiedades visuales particularmente interesantes:
- El gráfico se presenta en dos dimensiones, pero en realidad es tridimensional. Es visiblemente mucho más denso en el centro, tiene lo que parecen ser algo así como dos distribuciones normales y, a medida que se aleja del origen a lo largo de una línea de pendiente positiva que pasa por el origen, menor es la densidad que puede esperar.
- Los "bordes" exteriores del gráfico, en los cuadrantes superior derecho e inferior izquierdo, se parecen mucho a la forma de la línea y = 1 / x.
De manera similar, esperamos que los puntos estén en los cuadrantes superior derecho e inferior izquierdo, y entre una línea exterior que tiene la forma de y = 1 / x y el origen. Dado que estos valores serán en su mayoría tanto negativos como positivos, podemos ver que multiplicar la coordenada x de cada punto por su coordenada y es una forma útil de evaluar hasta qué punto sigue este tipo de distribución. Dado que hay más puntos cerca del origen que en las "líneas de límite" visibles (es decir, las secuencias de puntos en los bordes exteriores en el primer y tercer cuadrantes que forman visiblemente estas líneas que parecen un gráfico, aunque quizás a escala, de y = 1 / x).
Por lo tanto, para cada par coordinado (nuevamente, ambos estandarizados por estado) de margen de Biden-Trump y la relación logarítmica de votos de Biden a Trump, podemos
multiplicar estos valores y examinar la distribución de los productos resultantes. Aquí, cuanto mayor es la magnitud de un valor, menos sigue a la no co-extremidad. Trazar estos productos nos da:
Fig. 11. Histograma de los productos de los valores xey para cada par de coordenadas en la Fig. 10
Como podemos ver, los valores están
abrumadoramente concentrados cerca de la mediana y el gráfico está profundamente sesgado a la derecha; de lo contrario, el eje x no necesitaría extenderse hasta 80. Todas menos 60 de las 8,954 actualizaciones únicas tienen valores menos de 10, y todas menos 10 tienen valores inferiores a 20. En otras palabras, una gran cantidad de actualizaciones parecen seguir esta regla bastante de cerca, pero una pequeña cantidad de actualizaciones son valores atípicos realmente extremos.
Una inmersión rápida en estos diez puntos revela datos que, en este punto del informe, serán muy familiares para el lector:
Como podemos ver, cuatro de las siete actualizaciones de votos más anómalas, es decir, actualizaciones en las que el margen y la proporción son co-extremos, se encuentran en estados críticos para las elecciones y ocurrieron durante el mismo período de cinco horas en el que las circunstancias del terreno fueron (y siguen siendo) controvertidos y altamente sospechosos.
Vale la pena señalar aquí que aproximadamente el 15% de las actualizaciones de votos en el conjunto de datos de 8,954 fueron de estos tres estados. Si asumiéramos que es igualmente probable que cualquier estado en particular termine en cualquiera de estos puntos extremos, habría aproximadamente un 1% de probabilidad de que estos tres ocupen tres de los cuatro primeros lugares, aproximadamente un 1,2% de probabilidad de que estos ocupen tres de los cuatro primeros lugares o cuatro de los siete primeros, y alrededor de un 0,00337% de probabilidad de que estos ocupen cinco de los 10 primeros lugares. Por tanto, es muy sorprendente ver que los estados en cuestión están representados de manera tan desproporcionada en el 0,11% superior de la distribución de co-extremidades [17].
Predecir resultados más típicos y evaluar sus implicaciones
Ahora procedemos a preguntar: ¿Cuán extremas debían ser estas actualizaciones de votos para que Biden ganara estos estados?
Para hacer esto, consideramos “conjuntos de niveles” [18] de los productos de los valores xey de las coordenadas que estamos graficando, y consideramos los percentiles de estos (con respecto a los valores graficados en la Fig. 10). Cada conjunto de niveles es un punto en esa distribución y tiene un percentil correspondiente. Por ejemplo, el percentil 99 de los productos es de aproximadamente 6,6, mucho más pequeño que los valores de 77,30, 46,45, 33,23 y 22,22 que vemos para estas cuatro actualizaciones. Ahora podemos determinar cómo se vería cada una de estas actualizaciones si solo estuvieran en el percentil 99 (u otro) de co-extremidad. Al decidir cómo hacer eso, debemos considerar: ¿qué tiene más sentido? ¿Mantener el margen constante y ver cómo se vería la proporción, o mantener la proporción constante y ver cómo se vería el margen? Esto último tiene mucho más sentido en este escenario, ya que el primero sugiere que se pudo haber retenido incorrectamente un número igual de boletas para ambos candidatos, mientras que el segundo probablemente sugiere que se produjo un número excesivo de boletas para el candidato ganador. Estamos interesados en probar el último escenario.
Dado que estamos usando razones para predecir márgenes, tiene sentido mostrar cómo se ve el gráfico de la figura 10 cuando los ejes están invertidos, de modo que se pueda ver cómo varían los márgenes con la razón.
Fig. 12. Esta es la misma gráfica que la Fig. 10, pero con los ejes invertidos. El eje X es la relación logarítmica de los votos de Biden a los votos de Trump en cada actualización, nuevamente estandarizada por la distribución de dichos valores en su estado. El eje Y es la diferencia entre el número de votos de Biden y el número de votos de Trump en cada actualización, estandarizado por la distribución de dichos valores de su estado.
Esto muestra los mismos datos que se muestran en la Fig. 10, pero es una presentación más natural para usar proporciones para predecir márgenes. El patrón se vuelve algo más claro cuando simplemente miramos los valores absolutos, ya que nuestros exámenes posteriores se basan en métricas que tratan simétricamente las actualizaciones de votos pro-Biden y pro-Trump.
También podemos considerar el “conjunto de niveles” de combinaciones (margen, razón) que forman un percentil particular de co-extremidad. Aquí, mostramos los valores absolutos del margen y la relación logarítmica (estandarizados), con anotaciones de conjunto de niveles para los percentiles 95, 99 y 99,5:
Fig. 13. Ésta es la misma gráfica que la Fig. 12, pero donde se toma primero el valor absoluto de las coordenadas de ambos puntos, para presentar una vista consolidada. El eje x es el valor absoluto de la relación logarítmica (estandarizada) de Biden: Trump vota en cada actualización, y el eje y es el valor absoluto del margen (estandarizado) de Biden-Trump en cada actualización.
Esto nos permite ver claramente cuán extremas son las actualizaciones de votos, con respecto a la propiedad generalmente observada de que están delimitadas por una curva inversa [19]. La línea negra continua representa el percentil 95, es decir, el 95% de las actualizaciones de votos se encuentran dentro de esta curva (es decir, tienen menos márgenes y proporciones co-extremos). La línea negra del medio, con guiones y puntos, representa el percentil 99, es decir, el 99% de las 8,954 actualizaciones de votos son menos co-extremas que cualquiera de los puntos de esta línea. Y la línea más alta (punteada en oscuro) representa el percentil 99.5, es decir, el 99.5% de las 8,954 actualizaciones de votos son menos co-extremas que cualquiera de los puntos en esta línea. Como podemos ver, las cuatro actualizaciones de votación en cuestión (los dos puntos gente de izquierdas, los puntos verdes muy por encima de esta línea y el punto amarillo más arriba) están muy por encima incluso de esta línea. En efecto,
Esto plantea la pregunta obvia: ¿cómo se verían estas actualizaciones de votos si fueran menos extremas?
Gráficamente, esto implicaría moverlos hacia abajo (representando un margen más bajo) y hacia la izquierda (representando una proporción más baja). En teoría, simplemente calcularíamos la distancia más corta a cualquier curva de conjunto de niveles de percentiles en particular y elegiríamos esa combinación particular (margen, relación). Sin embargo, hacerlo ignoraría un aspecto crucial de la naturaleza de los datos. En particular, disminuir la proporción en cualquier margen dado implica que el número total de votos en la actualización
aumentaría . En particular, dada la escala de las anomalías aquí, esto implicaría un escenario en el que una gran cantidad de votos, posiblemente cientos de miles, para
amboslos candidatos de alguna manera fueron retenidos. Si bien es posible que este sea el caso, es casi seguro que representaría un error de ingreso de datos en la escala de cientos de miles de votos que afectaron a ambos candidatos por igual o casi por igual. Dado que el margen es la métrica que importa para el resultado, si hubo juego sucio, es mucho más probable que se resten votos de uno de los candidatos y que también se sumen para otro.
Ya que no traemos
a priorisuposición sobre lo que deberían gustar estas actualizaciones, vale la pena considerar cómo se verían si estas proporciones fueran precisas y simplemente representaran el percentil 99 de co-extremidad. Gráficamente, esto representa tomar los cuatro puntos en cuestión y “arrastrarlos” hacia el centro de las tres líneas negras trazadas. Si se hiciera esto, estas actualizaciones de votos tendrían márgenes asombrosamente más pequeños, pero aún serían más co-extremos que el 99% de las 8,954 actualizaciones de votos estudiadas. No tenemos ninguna razón afirmativa para creer que este fue precisamente el caso. De hecho, no podemos, con los datos disponibles para nosotros, defender afirmativamente un resultado en particular. Es simplemente útil considerar cómo se verían las actualizaciones con estas proporciones si fueran más co-extremas que solo el 99% de las 8,954 actualizaciones de votos estudiadas, en comparación con el 99,92%.