Prezentacja materiału statystycznego Szeroko rozumiane modelowanie i prognozowanie jest zwykle kluczowym celem analizy danych. Aby zbudować model wyjaśniający relacje pomiędzy różnymi aspektami rozważanego zjawiska posługujemy się zwykle zaawansowanymi metodami statystycznymi. Zastosowanie tych złożonych narzędzi analitycznych winno zostać poprzedzone wnikliwym opisem zebranego materiału, dokonanym za pomocą odpowiednich metod statystyki opisowej i analizy graficznej.
Kryteria doboru metod opisu danych Dobór metod statystycznych zależy od (dotyczy to nie tylko prezentacji danych): postawionych problemów badawczych; typu zbioru danych; liczebności zbioru danych; specyfiki rozważanych cech statystycznych.
Typy danych statystycznych Ze względu na charakter jednostek statystycznych podlegających badaniu wyodrębniamy trzy podstawowe typy zbiorów danych: dane ankietowe (kwestionariuszowe) - charakteryzują się losowym doborem próby z większej populacji, jednostki podlegające badaniu są nierozróżnialne i mogą to być: osoby, przedmioty, firmy etc.; dane przekrojowe - zwykle są efektem przeprowadzenia badania pełnego, jednostki podlegające badaniu są rozróżnialne i mogą to być: państwa, regiony, miasta itp.; dane czasowe - jednostki są tutaj kolejnymi momentami (okresami) czasu, w których dokonywano pomiaru - mogą to być sesje giełdowe, dni, tygodnie, lata. Oczywiście są one rozróżnialne, co więcej istotna jest ich kolejność.
Dobór metody statystycznej zależy także od charakteru cech podlegających analizie. Podstawowy podział cech statystyczny ma charakter dychotomiczny i prowadzi do wyodrębnienia cech mierzalnych (liczbowych) i nominalnych (jakościowych). wzrost, waga, płaca, wiek,... Typy cech statystycznych Cechy mierzalne to: miesięczne wydatki na żywność, liczba osób w rodzinie,... stopa bezrobocia, inflacja, gęstość zaludnienia,... kurs dolara, temperatura, liczba wypadków samochodowych,... Cechy jakościowe (nominalne) to: płeć, wykształcenie, miejsce zamieszkania, poglądy polityczne,... typ gospodarstwa domowego, posiadane dobra materialne,... ustrój polityczny, przynależność do organizacji międzynarodowych,...
Prezentacja danych w programie Statistica Wybór grupy analiz: Wybór analizy:
Pojedyncze cechy: grupowanie danych (TABELE LICZNOŚCI) Sposób grupowania danych zależy od charakteru cechy statystycznej: dla cech jakościowych i cech mierzalnych o małej liczbie możliwych wartości w tabeli wyodrębnia się wszystkie kategorie zaś dla cech mierzalnych o większym zakresie wartości tworzy się tzw. szeregi przedziałowe. Tabele liczności dla cech jakościowych powinny zawierać listę wartości danej cechy, liczbę odpowiadających im jednostek statystycznych oraz strukturę procentową. W przypadku cech liczbowych możliwe jest wyznaczenie dodatkowo liczności i procentów skumulowanych.
Pojedyncze cechy: grupowanie danych (TABELE LICZNOŚCI)
Pojedyncze cechy: charakterystyki liczbowe (STATYSTYKI OPISOWE) Sposób prezentacji danych tylko dla cech liczbowych Miary klasyczne (średnia, odchylenie standardowe i inne) są wyznaczane na podstawie wszystkich obserwacji - są w związku z tym nieodporne na obserwacje odstające. Miary pozycyjne (minimum, maksimum, mediana, kwartyle, percentyle) są wyznaczane na podstawie pozycji zajmowanej przez odpowiednie obserwacje i w związku z tym nie są zależne od ewentualnych obserwacji ekstremalnych.
Pojedyncze cechy: charakterystyki liczbowe (STATYSTYKI OPISOWE) średnia arytmetyczna; minimum i maksimum; mediana (wartość środkowa - połowa obserwacji nie przekracza, połowa jest większa od wartości mediany); kwartyl dolny i kwartyl górny (1/4 obserwacji nie przekracza dolnego kwartyla, 1/4 nie jest mniejsza od kwartyla górnego); percentyle (rzędu p: p-ta część obserwacji nie przekracza percentyla rzędu p); modalna (wartość najczęstsza); odchylenie standardowe (najpopularniejsza miara rozproszenia danych); rozstęp (zakres wartości - różnica pomiędzy maksimum i minimum); rozstęp kwartylowy (połowa różnicy pomiędzy górnym i dolnym kwartylem); skośność (współczynnik asymetrii: równa 0 to rozkład symetryczny, wartości dodatnie świadczą o przewadze obserwacji niskich i średnich, przy stosunkowo nielicznych, lecz wyraźnie większych pomiarach - tzw. asymetrią prawostronną charakteryzuje się na przykład rozkład płac).
Prezentacja zależności pomiędzy dwiema cechami Dla dwóch cech jakościowych: TABELE WIELODZIELCZE Analiza powinna obejmować stworzenie dwuwymiarowej tabeli liczebności, w której dodatkowo zostałyby wyznaczone struktury procentowe wg wierszy i/lub kolumn. Porównanie tych struktur pozwala na wyciągnięcie wniosków o istnieniu lub braku zależności pomiędzy obiema cechami. Prezentacja graficzna w postaci skategoryzowanego wykresu kołowego, histogramu lub histogramu trójwymiarowego.
Prezentacja zależności pomiędzy dwiema cechami Dla dwóch cech liczbowych: ANALIZA KORELACJI Analiza polega na wyznaczeniu współczynnika korelacji liniowej (r) i interpretacji siły oraz kierunku zależności. Prezentacja graficzna w postaci wykresu rozrzutu.
Prezentacja zależności pomiędzy dwiema cechami Dla cechy jakościowej i liczbowej: ANALIZA PRZEKROJÓW Idea analizy sprowadza się do wyznaczenia statystyk opisowych dla cechy liczbowej (zwanej też zależną) w kategoriach wyznaczonych przez wartości cechy jakościowej (niezależnej, grupującej). Porównanie wartości średnich (a także innych miar) pozwala wyciągnąć wnioski o tym, czy pomiędzy obiema cechami występuje jakiś związek. Ilustracja graficzna za pomocą skategoryzowanego wykresu średnich lub wykresu ramkowego.
Wnioskowanie statystyczne Celem analizy statystycznej nie jest zwykle tylko opisanie (prezentacja) posiadanych danych, czyli tzw. próby statystycznej. Najczęściej informacje z próby powinny pozwolić wyciągnąć wnioski o całej populacji, która nie mogła (z różnych względów) być poddana badaniu w całości. Zdefiniowane w poprzednim zdaniu cele tzw. wnioskowania statystycznego są możliwe do realizacji poprzez użycie odpowiednich narzędzi analitycznych - testów statystycznych.
Wnioskowanie statystyczne Idea większości testów statystycznych jest następująca (poszczególne etapy przedstawiono w dużym uproszczeniu): stawiamy pewną hipotezę (tzw. hipotezę zerową); określamy miarę nieprawdziwości hipotezy zerowej (tzw. statystyka testowa); na podstawie twierdzeń statystyki matematycznej wyznaczany jest rozkład wartości statystyki testowej przy losowym doborze próby przy założeniu prawdziwości hipotezy zerowej; wyznaczamy empiryczną wartość statystyki testowej na podstawie posiadanych danych i określamy prawdopodobieństwo uzyskania takiej wartości (tzw. prawdopodobieństwo testowe p); jeżeli wartość p jest bliska zera odrzucamy hipotezę zerową, w przeciwnym razie stwierdzamy, iż nie ma podstaw do jej odrzucenia.
Podział wykresów ze względu na sposób ich tworzenia Biorąc pod uwagę sposób przetwarzania danych podczas tworzenie wykresu możemy dokonać nieformalnego podziału na wykresy prezentacyjne i wykresy statystyczne. Wykresy prezentacyjne wiernie odzwierciedlają dane źródłowe, podczas ich tworzenia nie odbywają się żadne dodatkowe przekształcenia wyjściowych danych. Liczba elementów wykresu odpowiada liczności zbioru danych. Wykresy statystyczne stanowią wizualizację przeprowadzonych uprzednio analiz statystycznych (na przykład grupowania danych czy też statystyk opisowych). Do grupy wykresów prezentacyjnych można zaliczyć m.in. wykresy: słupkowe, liniowe, warstwowe, rozrzutu, obrazkowe. Do grupy wykresów statystycznych można zaliczyć m.in. wykresy: histogramy, kołowe, ramkowe.
Wykres słupkowy a histogram (różnica między wykresami statystycznymi i prezentacyjnymi) Tworząc wykres słupkowy wiernie odzwierciedlamy wszystkie wartości na wykresie Tworząc histogram dokonujemy najpierw zliczenia liczby wystąpień każdej wartości cechy
Wykresy słupkowe Celem analizy będzie prezentacja danych o stopie bezrobocia (ogółem) w państwach UE w roku 2008. Przed sporządzeniem wykresu dane sortujemy według analizowanej zmiennej (polecenia DANE / SORTUJ) a następnie wywołujemy polecenie WYKRESY / WYKRESY 2W / WYKRESY SŁUPKOWO-KOLUMNOWE. Ustalamy zakres skali i jej częstość Aktywizując oś w zakładce tytuł dokonujemy jej opisu. Włączamy wszystkie etykiety przypadków Usuwamy roboczy tytuł i nadajemy własny Aby wyróżnić jeden słupek innym kolorem stosujemy pewien trick w oknie edytora danych wykresu dodajemy drugi wykres słupkowy i przenosimy tam dane dla Polski W arkuszu danych wyróżniamy etykietę Polski, co znajduje odzwierciedlenie na wykresie
Wykres dla wybranych przypadków Dynamika poziomu bezrobocia w wybranych krajach w latach 1998-2009 Aby wykonać poniższy wykres dokonujemy najpierw pewnych operacji na arkuszu danych. Za pomocą opcji DANE / PODZBIÓR tworzymy nowy arkusz zawierający tylko dane o całkowitej stopie bezrobocia w Polsce i krajach ościennych z UE (w latach 1998-2009). Następnie dokonujemy zamiany znaczenia kolumn i przypadków wykorzystując polecenie DANE / TRANSPONUJ / PLIK. Następnie wykorzystujemy poznany już wcześniej WYKRES LINIOWY (ZMIENNYCH).
Wykres rozrzutu z wyróżnionymi przypadkami Porównanie poziomu bezrobocia wśród kobiet i mężczyzn z roku 2009 Za pomocą narzędzia wyróżniania etykietujemy punkty odpowiadające ciekawym państwom W celu porównania poziomu bezrobocia wśród kobiet i mężczyzn za pomocą opcji funkcja użytkownika dodajemy prostą o równaniu y = x, która określa położenia państw o tej samej stopie bezrobocia wśród obu płci Ustalamy taki wspólny zakres skali na obu osiach, by nie pominąć żadnej obserwacji W arkuszu danych, przed sporządzeniem wykresu, wyróżniamy przypadek odpowiadający Polsce