Wybory samorządowe 2014 w poszukiwaniu anomalii statystycznych Na podstawie pracy o tym samym tytule autorstwa: Piotr Gawron, Łukasz Pawela, Zbigniew Puchała, Jacek Szklarski, Karol Życzkowski, która ukazała się w czasopiśmie Studia Wyborcze, tom 19, 2015. Piotr Gawron Instytut Informatyki Teoretycznej i Stosowanej PAN Sympozjum Wiarygodność wyborów samorządowych 2014: Analiza ilościowa Kraków, 16 czerwca 2015
Motywacja Perspektywa informatyka: są dane do przetworzenia, to trzeba je przetworzyć. Perspektywa obywatelska: analiza danych wyborczych, które są powszechnie dostępne jest obowiązkiem obywatelskim osoby, która jest w stanie to zrobić.
Pozyskanie danych Pozyskanie danych wyborczych, w postaci wygodnej do przetworzenia, nie zawsze jest łatwe. Szczególnie w omawianych wyborach, w których doszło do afery informatycznej. Wniosek o udostępnienie informacji publicznej złożyłem 23.11.2014, dane uzyskałem 05.03.2015.
Wybory samorządowe 2014 podstawowe statystyki Do analizy wyników wyborów posłużyliśmy się wynikami z poszczególnych obwodowych komisji wyborczych. W wyborach do sejmików wojewódzkich w roku 2014 głosowanie odbyło się w 27 435 obwodowych komisjach wyborczych. Uprawnionych do głosowania było 30 613 691 osób, komisje wydały 14 466 824 kart do głosowania, oddano 11 928 736 głosów ważnych oraz 2 525 210 głosów nieważnych. Frekwencja wyborcza, liczona jako stosunek liczby wydanych kart do głosowania do liczby wyborców, wynosiła ok. 47,3%. Odsetek głosów nieważnych, liczony jako stosunek liczby głosów nieważnych do głosów wyjętych z urn, wynosił 17,5%.
Korelacje Ze względu na dużą liczbę głosów nieważnych, interesuje nas związek pomiędzy frekwencją wyborczą a odsetkiem głosów nieważnych lub poparcia dla danego komitetu wyborczego w poszczególnych komisjach wyborczych. W tym celu wykonaliśmy test istotności współczynnika korelacji r-pearsona oraz test istotności współczynnika korelacji rang Spearmana. Oba testy badają istotność zależności monotonicznej, jednakże pierwszy mierzy zależność liniową i wymaga spełnienia założeń o normalności, które w przypadku naszych danych nie zawsze są spełnione. Biorąc pod uwagę powyższy fakt, przy badaniu istotności korelacji większą wagę przywiązujemy do wyniku testu drugiego.
Frekwencja vs. odsetek głosów nieważnych G osów niewa nych 40% 35% 30% 25% 20% 15% 10% 5% 0% 0% 20% 40% 60% 80% 100% Frekwencja 64 56 48 40 32 24 16 8 Rysunek : Istnieje słaba dodatnia istotna statystycznie korelacja pomiędzy frekwencją wyborczą a procentem głosów nieważnych.
Analiza wyborów do Dumy Federacji Rosyjskiej z roku 2011 Figure 1: Summary of results by United Russia and Vladimir Putin. (A showing a certain turnout and result of United Russia (in 1% 1% bin the cluster in the upper right corner is heavily saturated to enable othe depicts an overall result for each turnout bin. White lines show linear fi 2 Źródło: Kobak, Dmitry, Sergey Shpilkin, and Maxim S. Pshenichnikov. Statistical anomalies in 2011-2012 Russian elections revealed by 2D correlation analysis. arxiv:1205.0741 (2012).
Analiza wyborów do Prezydenckich w Federacji Rosyjskiej z roku 2012 ssia and Vladimir Putin. (A) Ballots obtained at polling stations ed Russia (in 1% 1% bins). Number of ballots is colour-coded; Źródło: Kobak, Dmitry, Sergey Shpilkin, and Maxim S. Pshenichnikov. Statistical anomalies in 2011-2012 Russian elections revealed by 2D correlation analysis. arxiv:1205.0741 (2012).
Frekwnecja vs. poparcie 100% PSL PiS 80% 60 45 Poparcie 60% 40% 45 30 30 20% 15 15 0% 100% PO 40 SLD LR 80% 100 Poparcie 60% 40% 30 20 75 50 20% 10 25 0% 0% 20% 40% 60% 80% 100% Frekwencja 0% 20% 40% 60% 80% 100% Frekwencja Rysunek : Korelacje są istotne statystycznie z wyjątkiem PiS.
Histogram poparcia 1200 1000 Komitet Wyborczy Polskie Stronnictwo Ludowe Komitet Wyborczy Prawo i Sprawiedliwo Komitet Wyborczy Platforma Obywatelska RP Koalicyjny Komitet Wyborczy SLD Lewica Razem 800 Liczba komisji 600 400 200 0 0% 20% 40% 60% 80% 100% Procent poparcia Rysunek : Nie obserwujemy tzw. rezonansów Putina. Rozkład dla PSL jest nietypowy.
Procent głosów nieważnych vs. poparcie 100% PSL PiS 80% 120 45 Poparcie 60% 40% 90 60 30 20% 30 15 0% 100% PO SLD LR 80% 45 120 Poparcie 60% 40% 30 80 20% 15 40 0% 0% 20% 40% 60% 80% 100% 0% 20% 40% 60% 80% 100% G osów niewa nych G osów niewa nych Rysunek : Wszytkie korelacje są istotne statystycznie.
Prawo Benforda Prawo Benforda opisuje rozkład częstości występowania cyfr na poszczególnych miejscach w liczbie w danych empirycznych. Przykładowo, w tym rozkładzie cyfra 1 występuje około 30% na pierwszym miejscu w liczbie. Dokładniej prawdopodobieństwo wystąpienia cyfry d na pierwszym miejscu dane jest wzorem: ( P(d) = log 10 1 + 1 ) (1) d Prawdopodobieństwo, że cyfra d znajduje się na miejscu dane jest wzorem: 10 n 1 1 ( ) 1 P(d; n) = log 10 1 +. (2) 10k + d k=10 n 2 Prawo Benforda jest spełnione przez dane służące opisaniu wielu rodzajów zjawisk empirycznych, jak na przykład kwoty na rachunkach za energię, numery domów, ceny akcji, populacje krajów, długości rzek.
Rozkłady pierwszych cyfr Rozk ad Benforda (pierwsza cyfra) w skali kraju 0.40 0.35 SLD LR PO G osy wa ne 0.30 Procent wyst pie 0.25 0.20 0.15 0.10 0.05 0.00 0.40 0.35 1 2 3 4 5 6 7 8 9 PSL 1 2 3 4 5 6 7 8 9 PiS 1 2 3 4 5 6 7 8 9 G osy niewa ne 0.30 Procent wyst pie 0.25 0.20 0.15 0.10 0.05 0.00 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 Rozk ad teoretyczny Rozk ad empiryczny Rysunek : Test χ 2 na poziomie istotności α = 0.01 rozkładu pierwszej cyfry wykazuje, że dane nie pochodzą z rozkładu Benforda.
Rozkłady drugich cyfr Rozk ad Benforda (druga cyfra) w skali kraju 0.14 SLD LR PO G osy wa ne 0.13 Procent wyst pie 0.12 0.11 0.10 0.09 0.08 0.07 0.14 0 1 2 3 4 5 6 7 8 9 PSL 0 1 2 3 4 5 6 7 8 9 PiS 0 1 2 3 4 5 6 7 8 9 G osy niewa ne 0.13 Procent wyst pie 0.12 0.11 0.10 0.09 0.08 0.07 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 Rozk ad teoretyczny Rozk ad empiryczny Rysunek : Test χ 2 na poziomie istotności α = 0.01 rozkładu drugiej cyfry wykazuje, że liczby głosów oddanych na PO, PSL oraz SLD LR pochodzą z rozkładu Benforda. Pozostałe natomiast nie pochodzą z tego rozkładu.
Podsumowanie Na podstawie analiz statystycznych nie można stwierdzić, że podczas wyborów do sejmików samorządowych w roku 2014 doszło do nieprawidłowości. Dane wyborcze powinny się pojawiać na portalu https://danepubliczne.gov.pl/ prowadzonym przez Ministerstwo Administracji i Cyfryzacji. Tego rodzaju analizy powinny być prowadzone na bieżąco przy każdych wyborach. Zatem trzeba zastanowić się nad stworzeniem repozytorium danych, algorytmów oraz wyników i omówień analiz.
Dziękuję za uwagę!