Graficzna prezentacja danych statystycznych

Szkolenie dla pracowników Urzędu Statystycznego nt. Wybrane metody statystyczne w analizach makroekonomicznych Katowice, 12 i 26 czerwca 2014 r.

Dopasowanie narzędzia do typu zmiennej Dobór narzędzia do analizy Zarówno dobór miar statystycznych jak i sposób prezentacji danych zależą od typu zmiennej (cechy), którą badamy. Cecha to pewna własność obiektów należących do pewnej zbiorowości, wspólna dla wszystkich i przyjmująca wartości z określonego zbioru Ze względu na sposób wyrażania wartości cechy można je podzielić na: metryczne (ilościowe, mierzalne), niemetryczne (jakościowe, niemierzalne, opisowe)

Zmienne ilościowe i jakościowe Cecha ilościowa Wartościami cech ilościowych są liczby, uzyskane w wyniku pomiaru (np. wielkość PKB danego kraju, wielkość zatrudnienia w firmie, liczba dzieci w rodzinie) Cecha jakościowa Wartościami cech jakościowych (choć dla odróżnienia częściej mówi się o wariantach cechy jakościowej a nie jej wartościach) są kategorie, uzyskane w wyniku pomiaru (kategorie czyli różnego typu symbole, słowa) (np. płeć, imię, kolor) Kontrowersje Podział cech na ilościowe i jakościowe jest nieprecyzyjny i wywołuje spory. Aby tego uniknąć, cechy dzielimy ze względu na skale pomiaru [wyróżniamy 4 skale pomiaru]

Skale pomiaru wg Stevensa Pomiar to porównanie cech ze wzorcem wyposażonym w odpowiednią skalę Skala nominalna (skala nazw) gdy między wartościami cechy X dla dwóch obiektów zachodzi jedna z relacji: x A = x B lub x A x B (np. zmienna płeć o wariantach: kobieta, mężczyzna) Skala porządkowa gdy można określić znak różnicy pomiędzy wartościami cechy X, tj. zachodzi jedna z relacji: x A > x B lub x A < x B lub x A = x B lub x A x B (np. zmienna wykształcenie o wariantach: podstawowe, zawodowe, średnie, wyższe)

Skale pomiaru wg Stevensa (2) Skala przedziałowa gdy można określić wielkość różnicy pomiędzy wartościami cechy X (o ile jednostek), tj. na wartościach cechy dopuszczalne są operacje: >, <, =, +, (np. zmienna temperatura o wartościach na skali Celsjusza lub poziom inteligencji mierzony liczbą punktów z testu IQ) Skala ilorazowa gdy można określić krotność różnicy pomiędzy wartościami cechy X (ile razy), tj. na wartościach cechy dopuszczalne są operacje: >, <, =, +,,, (np. zmienna temperatura o wartościach na skali Kelvina lub wzrost lub wiek) Skala nominalna i porządkowa to tzw. skale słabe, a skala przedziałowa i ilorazowa to tzw. skale mocne

Dodatkowy podział zmiennych ilościowych Zmienna skokowa (dyskretna) przyjmujące wartości z pewnego skończonego lub przeliczalnego zbioru; wyróżnia ją brak wartości pośrednich dla bliskich sobie wartości (np. zmienna dzietność kobiet o wartościach ze zbioru: {0, 1, 2, 3, 4...}; nie jest możliwe uzyskanie dzietności równej np. π) Zmienna ciągła przyjmujące wartości z pewnego nieskończonego, a dokładniej nieprzeliczalnego zbioru; wyróżnia ją to, że dla dowolnych dwóch wartości zawsze możliwe jest uzyskanie wartości pośredniej (np. zmienna wzrost; wprawdzie mówimy, że ktoś miał 112 cm a potem, że urósł i ma 113 cm, ale tak naprawdę)jakąkolwiek liczbę między 112 a 113 pomyślimy, to każdy z nas musiał kiedyś mieć taki wzrost

Dopasowanie mierników do skali pomiaru zmiennej Miary Miary Miary położenia rozproszenia korelacji Nominalna Dominanta Entropia Statystyka χ 2 Porządkowa Mediana Odchylenie Współczynnik ćwiartkowe korelacji τ Kendalla Przedziałowa Średnia Odchylenie Współczynnik arytmetyczna standardowe korelacji Pearsona Ilorazowa Średnia Współczynnik Stosunek geometryczna zmienności korelacyjny i harmoniczna

Dopasowanie typu wykresu do skali pomiaru zmiennej dla zmiennych skokowych diagramy dla zmiennych ciągłych histogramy Złote reguły tworzenia histogramu 1 wszystkie obserwacje ze zbioru danych muszą być uwzględnione na wykresie 2 sąsiednie przedziały na histogramie musza się sklejać (nie może być dziur między przedziałami) 3 przedziały na histogramie nie mogą mieć części wspólnej (przedziały muszą być otwarto domknięte)

Linki do dobrych przykładów Przekształcanie zmiennych na potrzeby wykresów Linki do dobrych i złych przykładów wizualizacji danych http://www.gapminder.org/ http://www.ted.com/talks/hans rosling shows the best stats you ve ever seen http://smarterpoland.pl/index.php/category/zly-wykres/ http://prezi.com/xs3u0qcd6jph/jak-pokazywac-dane-i-jak-tego-nie-robic-torun-2013/ http://smarterpoland.pl/index.php/2014/01/lektury-szkolne/

Linki do dobrych przykładów Przekształcanie zmiennych na potrzeby wykresów Sprowadzanie wartości zmiennych do porównywalności Zmienne można doprowadzić do porównywalności poprzez ujednolicenie rzędów wielkości oraz pozbawienie różnych mian. W tym celu stosuje się transformacje normalizacyjne: standaryzacja (średnia = 0, wariancja = 1): z i = x i x s normalizacja (zachowanie zróżnicowania i proporcji): z i = x i max { x i }

Linki do dobrych przykładów Przekształcanie zmiennych na potrzeby wykresów Przekształcenia dla zmiennych o asymetrii prawostronnej Dla zmiennych, które charakteryzują się silną asymetrią prawostronną (duża koncentracja wartości poniżej średniej) można zastosować przekształcenie skali do skali logarytmicznej lub spierwiastkować. W ten sposób obserwacje ekstremalne nie są aż tak oddalone na wykresie a obserwacje w części poniżej średniej są rozciągnięte, przez co lepiej widać ich wewnętrzne zróżnicowanie: logarytmowanie skali: pierwiastkowanie skali : x i = ln x i x i = x i

Linki do dobrych przykładów Przekształcanie zmiennych na potrzeby wykresów Szkolenie dla pracowników Urzędu Statystycznego nt. Wybrane metody statystyczne w analizach makroekonomicznych Katowice, 12 i 26 czerwca 2014 r.