Przekształcenia zmiennych (cd) Testowanie hipotez część I Przekształcenia zmiennych cd. Mówiliśmy już o przekształceniach zmiennych polegających na takich zmianach niesionych przez nie informacji, żeby po przekształceniu lepiej pasowały do odpowiedzi na pytania badawcze. Przekształcenia zmiennych, o których teraz powiemy wynikają z przesłanek natury statystycznej: formalne wymogi testów statystycznych, możliwość porównywania zmiennych, itp. Wśród różnych charakterystyk danych ilościowych, za najbardziej pożyteczne przy analizie statystycznej często uznaje się: symetrię rozkładu, addytywność cech, stałość rozstępu i wariancji i inne. Normalizacja Normalizacja wartości zmiennej to ogólne określenie technik (zwykle polegających na przekształceniach algebraicznych) za pomocą których tak przekształcamy wartości zmiennej, że posiadają one własność, której wyjściowa zmienne nie miała (np. rozkład wynikowej zmiennej jest symetryczny, podczas kiedy rozkład zmiennej wyjściowej był skośny). W ramach normalizacji wyróżnić można: rangowanie wartości (zastępowanie wartości cechy ich pozycjami na liście ), standaryzacja wartości, unitaryzacja wartości i inne. Ogólny przypadek normalizacji (który nie uwzględnia rangowania wartości) można zapisać jako: p xi A zi = B, gdzie z i to znormalizowane wartości zmiennej x i, zaś A, B i p są parametrami normalizacji. W zależności od przyjętych parametrów normalizacji, wartości zmiennej normalizuje się według innej zasady. Może to być np. unityzacja (powodująca, że z i ma stały obszar zmienności od 0 do 1). Standaryzacja My zajmiemy się znaną już standaryzacją wartości zmiennej. Standaryzacja to normalizacja wartości zmiennej o parametrach: A = x B = S( x), gdzie S(x) jest odchyleniem standardowym zmiennej x. p = 1,2,... czyli dla często przyjmowanego p=1 mamy formułę standaryzacyjną postaci: xi x zi = S( x) Co daje standaryzacja? 1. Znane parametry struktury: z = 0, S( z) = 1. 2. Można pokazać, że niezależnie od wyjściowych wartości zmiennej (wartości zmiennej x), 99.73% znormalizowanych wartości leży w przedziale [-3 ; 3].
Po co standaryzujemy zmienne? Wyobraźmy sobie sytuację: Jakaś szkoła chce wystawić jednego ze swoich uczniów do międzyszkolnego konkursu wiedzy ogólnej. Nauczyciele zdecydowali, że odpowiedni kandydat powinien charakteryzować się średnio najlepszymi wynikami z takich przedmiotów jak matematyka, geografia, biologia i WOS oraz (na wszelki wypadek ) mieć przy tym stosunkowo wysokie IQ. Wyselekcjonowano siódemkę dzieci, które napisały stosowne testy. Oto ich wyniki: Biologia (max. 52) WOS (max. 135) IQ Matematyka Geografia (max. 70) (max. 30) Konrad 70 25 44 120 137 Kamila 57 25 45 118 134 Radek 63 27 50 131 136 Michał 66 22 51 126 129 Iwona 67 24 48 133 141 Beata 59 29 52 135 130 Ania 61 28 50 135 135 Jak wybrać najlepszego reprezentanta szkoły? Dodawanie punktów uzyskanych w poszczególnych testach o tyle nie jest uprawnione, że po pierwsze punkty te inaczej ważą w każdym teście, po drugie nie mają jednego miana (IQ ma zupełnie inaczej rozumiane punkty niż wyniki testów "wiedzowych"). Dodatkowo mogłoby się zdarzyć, że wybranie ucznia mającego najwięcej punktów doprowadzi do sytuacji, kiedy będzie on wybitną jednostką w jednej dziedzinie i niespecjalnie wyróżniającą się w innej, co oczywiście nie będzie dla szkoły specjalnie korzystne w kontekście konkursu z wiedzy ogólnej. Z pomocą przychodzi właśnie standaryzacja (standaryzowane zmienne mają te same średnie i odchylenia standardowe mówią czy i jak bardzo jednostka odstawała od pozostałych w próbie oraz czy było to odchylenie in plus, czy in minus ): Biologia (max. 52) WOS (max. 135) IQ Matematyka Geografia stand. stand. stand. stand. stand. suma (max. 70) (max. 30) Matem. Geogr. Biol. WOS IQ stand. Konrad 70 25 44 120 137 1,45-0,29-1,50-1,17 0,59-0,93 Kamila 57 25 45 118 134-1,35-0,29-1,17-1,46-0,14-4,41 Radek 63 27 50 131 136-0,06 0,53 0,47 0,38 0,35 1,67 Michał 66 22 51 126 129 0,58-1,53 0,80-0,32-1,35-1,82 Iwona 67 24 48 133 141 0,80-0,71-0,19 0,67 1,56 2,14 Beata 59 29 52 135 130-0,92 1,35 1,13 0,95-1,11 1,39 Ania 61 28 50 135 135-0,49 0,94 0,47 0,95 0,10 1,97 Po wystandaryzowaniu zmiennych i obliczeniu ich sumy okazuje się, że najlepszą kandydatką jest Iwona, pomimo tego, że ma swoje słabe strony (geografia i biologia). Szkoła mogłaby również się zastanowić nad kandydaturą drugiej pod względem wyniku osoby Anią ustępuje ona Iwonie głównie pod względem IQ (135 vs. 141, co przy tych wartościach IQ może nie mieć specjalnego znaczenia w konkursie z wiedzy ogólnej), ale nadrabia inną wiedzą. Standaryzacja wartości zmiennych w SPSSie Otwórzmy w SPSSie zbiór szkola. Są to dokładnie te same zmienne, co prezentowane powyżej. Żeby wystandaryzować ich wartości wybieramy Analiza Opis statystyczny
Statystyki opisowe (Analyze Descriptive Statistics Descriptives). W pojawiającym się oknie wybieramy zmienne, które chcemy standaryzować oraz zaznaczamy ( Save standardized values as variables ): W efekcie dostajemy zmienne wystandaryzowane. Stworzenie zmiennej stanowiącej ich sumę pozostawiam Państwu. ZADANIE1 Otwórz zbiór diagnoza2005. Wykonaj histogram dochodu ( bp107 ). Czy rozkład dochodu jest symetryczny? Wystandaryzuj wartości tej zmiennej. Oblicz statystyki opisowe standaryzowanych wartości i sprawdź, czy są one zgodne z własnościami standaryzacji. Jak zmieniła się wartość skośności i kurtozy po standaryzacji? Narysuj histogram standaryzowanych wartości. Czy wzorzec (a)symetrii pozostał? Przekształcenie logarytmiczne Poprzednie zadanie pokazywało, że o ile standaryzacja potrafi ograniczyć znakomitą większość wartości zmiennej do przedziału [-3 ; 3] oraz ustalić jej średnią na 0, a odchylenie standardowe na 1, to nie wpływa na skośność (asymetrię) i kurtozę. Często natomiast (przy formalnych testach) wymaga się, żeby rozkład zmiennej był symetryczny. Symetrię zmiennej często uzyskuje się stosując przekształcenie logarytmiczne, czyli po prostu obliczając logarytmy wartości zmiennej wyjściowej: lnx = ln( x ) i i ZADANIE2 Korzystając ze znanego Ci już sposobu (Przekształcenia Oblicz wartości (Transform Compute Variable)), wygeneruj zmienną lnbp107, której wartości będą logarytmami naturalnymi wartości zmiennej bp107. Wyznacz statystyki opisowe obydwu zmiennych zwróć uwagę na skośność. Narysuj histogramy tych zmiennych.
Testowanie hipotez część I Najczęstszym przypadkiem, do którego wykorzystujemy narzędzia statystyki i z którym mamy do czynienia w praktyce jest częściowe badanie statystyczne. Od badania pełnego różni się ono tym, że nie wykorzystujemy w nim wszystkich elementów analizowanej populacji (zbiorowości generalnej), a jedynie ich próbę. Statystyczne metody wykorzystywane do badania pełnego to najczęściej metody opisowe. Przy badaniu częściowym zaś wykorzystujemy matematyczne metody pozwalające wnioskować o cechach zbiorowości, z których próba została wylosowana oraz określać wielkość popełnianych przy tym błędów. Z oczywistych przyczyn, badanie pełne jest często niemożliwe do przeprowadzenia. W przypadkach takich wykonuje się badania częściowe i przeprowadza wnioskowanie statystyczne. Metodologia weryfikowania hipotez jest ogólnie znana i nie jest przedmiotem tych zajęć powtarzanie jej. Odświeżymy sobie jedynie trochę terminologii: hipotezy przedstawiają analizowany problem badawczy; wyróżniamy hipotezę zerową, która standardowo zakłada jakąś równość (np. parametr rozkładu zmiennej równy jest jakiejś konkretnej wielkości; parametr rozkładu jednej zmiennej równy jest analogicznemu parametrowi rozkładu innej zmiennej; dystrybuanta empiryczna rozkładu zmiennej równa jest dystrybuancie teoretycznej) i zastanawiamy się, czy są przesłanki, żeby hipotezę tę odrzucić. Jeśli takie przesłanki są, to odrzucamy ją i przyjmujemy hipotezę alternatywną. statystyka testowa statystyka, która obliczana jest przy okazji każdego testu funkcja wartości zmiennej/wartości zmiennych; przy założeniu prawdziwości hipotezy zerowej posiada znany rozkład, co pozwala ustalić, czy są przesłanki, żeby tę hipotezę odrzucić, czy nie (jeśli jej wartość wpada do obszaru krytycznego (wyznaczonego przy znajomości rozkładu statystyki testowej przy założeniu prawdziwości hipotezy zerowej oraz przy przyjęciu pewnego poziomu istotności), to mamy podstawy, żeby hipotezę zerową odrzucić). α - poziom istotności intuicyjnie jest to akceptowany poziom ryzyka, że niesłusznie odrzucimy hipotezę zerową. Formalnie, jest to maksymalne akceptowalne prawdopodobieństwo popełnienia błędu I rodzaju, a więc błędu polegającego na niepoprawnym odrzuceniu hipotezy zerowej. Standardowo przyjmowane poziomy istotności to 1% (0,01), 5% (0,05) i 10% (0,1). * wartość p (p-value; (W SPSSie) istotność; często alternatywnie oznaczana α ) empiryczny (policzony) poziom istotności empiryczne prawdopodobieństwo popełnienia błędu I rodzaju (czyli związane z wartością statystyki testowej przy uwzględnieniu jej rozkładu przy hipotezie zerowej). Jeśli prawdopodobieństwo to jest odpowiednio małe (precyzyjniej: mniejsze niż poziom istotności, α ), to mamy podstawy, żeby hipotezę zerową odrzucić. W przeciwnym wypadku (wartość p większa od α ), nie ma podstaw do odrzucenia hipotezy zerowej.
Założenia testów Testy statystyczne mają swoje założenia, które należy również testować, aby upewnić się, czy użycie testu w konkretnym przypadku będzie uzasadnione. Rozkład normalny Początki rozkładu normalnego sięgają XIX wieku, kiedy spopularyzował go Karl Friedrich Gauss, a w szczególności zainteresowali się nim astronomowie. Zaobserwowano wtedy, że pomiar danej wielkości ma rozkład normalny wyniki takiego pomiaru stanowią rzeczywistą wielkość mierzonego zjawiska plus błąd. Znany jest dzwonowaty kształt funkcji gęstości tego rozkładu krzywa Gaussa który, przypomnijmy, wygląda tak: Źródło: Wikipedia, http://pl.wikipedia.org/wiki/rozk%c5%82ad_normalny Jeśli zmienna X ma rozkład normalny, X ~ N( m, σ ), to zmienna Z, taka że: X m Z = σ ma standardowy rozkład normalny, co zapisujemy Z ~ N (0,1). Wykres standardowego rozkładu normalnego jest (oczywiście) scentrowany w zerze:
Obszar (tzw. jednosigmowy) [-1; 1] stanowi 68.27% powierzchni pod krzywą Gaussa, obszar [-2; 2] (dwusigmowy) to 95.45% tej powierzchni, zaś obszar trzysigmowy ([-3; 3]) to 99.73% tej powierzchni. Założenie o rozkładzie normalnym Założenie, że zmienna ma rozkład normalny leży u podstaw bardzo wielu tzw. parametrycznych testów istotności różnic (o których będziemy mówić w dalszej części), jak również jest to założenie wielu innych narzędzi statystycznych przykładowo analizy wariancji. Istnieje wiele testów, które weryfikują, czy zmienna pochodzi z rozkładu normalnego, czy też nie. Często wykorzystywane tego typu testy to Kołmogorowa-Smirnowa oraz Sharpio-Wilka, z tymże ten drugi odpowiedni jest dla prób nie przekraczających 50 elementów (obserwacji). Hipotezami tych testów są: H0 : F( x) = FN ( x) H1 : F( x) FN ( x) czyli hipoteza zerowa mówi, że dystrybuanta empiryczna badanej zmiennej równa jest dystrybuancie rozkładu normalnego, a więc, że zmienna ta ma rozkład normalny. W SPSSie test normalności rozkładu przeprowadzany jest na dwa sposoby: 1. Jeśli testujemy, czy jakaś zmienna ma rozkład normalny, to wybieramy: Analiza Testy nieparametryczne K-S dla jednej próby (Analyze Nonparametric Tests 1-Sample K-S) i wypełniamy pojawiające się okno. W wyniku dostajemy statystykę testową test Kołmogorowa-Smirnowa oraz wartość p tej statystyki. Przypomnijmy: Często, wykorzystując obliczenia komputerowe, zamiast odszukiwać wartości * krytyczne w tablicach statystycznych, łatwiej jest obliczyć α, czyli tzw. policzony poziom istotności (empiryczny poziom istotności lub tzw. wartość p (p-value)), w * SPSSie często nazywana istotnością. α to empirycznie wyznaczone (przy założeniu odpowiedniego rozkładu statystyki testowej), prawdopodobieństwo popełnienia błędu I rodzaju. Przyjmując, że za poziom istotności (równoważny maksymalnemu akceptowanemu prawdopodobieństwu popełnienia błędu I rodzaju, a więc prawdopodobieństwu odrzucenia prawdziwej hipotezy zerowej) przyjmujemy α, możliwe są następujące dwie sytuacje: * (i). α α * (ii). α > α Oczywiście w sytuacji (i) odrzucimy hipotezę zerową na rzecz alternatywnej, zaś w sytuacji (ii) nie będziemy mieli do tego podstaw. Proszę otworzyć dane PGSS_2002_pr. Spróbujmy przetestować, czy dodatkowe dochody miesięczne (zmienna q39d ) mają rozkład normalny. Wybieramy Analiza Testy nieparametryczne K-S dla jednej próby (Analyze Nonparametric Tests 1-Sample K-S), wypełniamy odpowiednio wyskakujące okno i otrzymujemy wynik:
Wartość p (istotność asymptotyczna) jest dla nas nieodróżnialna od 0, prawdopodobieństwo popełnienia błędu I rodzaju jest na tyle małe (mniejsze od każdego standardowego poziomu istotności (1%, 5% lub 10%)), że możemy odrzucić hipotezę zerową o normalności rozkładu zmiennej q39d. Możemy się zastanowić nad możliwością sprowadzenia zmiennej q39d do normalności. Rzućmy okiem na jej histogram: Histogram wskazuje na wyraźną asymetrię rozkładu. Wiemy już, że w takiej sytuacji może pomóc transformacja logarytmiczna. Stwórzmy zmienną lnq39
będącą logarytmem naturalnym zmiennej q39d (Przekształcenia Oblicz wartości (Transform Compute Variable)). Wykonajmy teraz test Kołmogorowa-Smirnowa dla lnq39 : Na poziomie istotności α = 0,05 zachodzi p = 0, 066 > α = 0, 05, a więc prawdopodobieństwo, że popełnimy błąd I rodzaju jest zbyt duże nie ma więc podstaw do odrzucenia H 0 o normalności rozkładu zmiennej lnq39. ZADANIE3 Proszę otworzyć dane zatrudnienie i sprawdzić, czy można powiedzieć, że zmienna prevexp ma rozkład normalny. Jeśli nie, to spróbować ją przekształcić, żeby rozkład normalny miała. 2. Jeśli testujemy, czy rozkłady jakiejś zmiennej są rozkładami normalnymi w podpróbkach wydzielonych przez kategorie innej zmiennej, to wybierzemy: Analiza Opis statystyczny Eksploracja (Analyze Descriptive Statistics Explore). W pole Zmienna zależna ( Dependent List ) wpisujemy zmienną, której normalność rozkładu chcemy sprawdzić, zaś w pole Lista czynników ( Factor List ) wpiszemy zmienną, której kategorie dzielą próbę na podgrupy. Otwórzmy zbiór diag2 i spróbujmy przeprowadzić test normalności rozkładów zmiennej lnbp107 w podgrupach stanu cywilnego (zmiennej ac8 ). Wybieramy więc Analiza Opis statystyczny Eksploracja (Analyze Descriptive Statistics Explore), wypełniamy odpowiednio pojawiające się okno, a dodatkowo klikamy ( ) i zaznaczamy: ( )
W wyniku otrzymamy: Z tabelki wynika, że w podgrupie osób rozwiedzionych zmienna lnbp107 ma rozkład normalny (wynik nie potwierdzany przez test Sharpio-Wilka). Optymistyczne wyniki co do normalności rozkładu zmiennej lnbp107 w grupie osób będących w separacji (takich osób było jedynie 21) mogą wynikać z tego, że testy na normalność rozkładu ogólnie są z reguły skłonne znajdować normalność rozkładu w małych próbkach oraz są bardzo wrażliwe na najdrobniejsze odejścia od rozkładu normalnego w próbkach dużych. Jednorodność (równość) wariancji Częstym założeniem testów jest jednorodność wariancji. Przykładowo, analizując statystyczną istotność różnic dochodowych w różnych grupach wykształcenia, formalnym wymogiem zastosowania jednoczynnikowej analizy wariancji jest jednorodność (równość) wariancji dochodu w każdej z grup dochodowych. Jednorodność wariancji często weryfikowana jest za pomocą testu Levene a. Test ten bada równość wariancji w k podgrupach. Hipotezy tego testu są następujące: 2 2 2 H0 : σ1 = σ 2 =... = σ k H1 : nie wszystkie wariancje są sobie równe W SPSSie do testu Levene a mamy często dostęp przy korzystaniu z narzędzi, których użycie wymaga spełnienia założenia o równości wariancji (przykładowo wykonując analizę wariancji, dodatkowo możemy wykonać test Levene a). Żeby test Levene a wykonać rozłącznie ze wszystkimi innymi analizami, wybrać możemy: Analiza Opis statystyczny Eksploracja (Analyze Descriptive Statistics Explore) i ustalić wariancje której zmiennej chcemy porównywać ( Zmienna zależna ( Dependent List )) i w jakich podgrupach ( Lista czynników ( Factor List )). Dalej wybieramy ( ) i w pojawiającym się oknie zaznaczamy: Przykład (dane diagnoza_2005 lub diag2 ). Powiedzmy, że chcemy sprawdzić, czy kobiety i mężczyźni ( ac7 ) charakteryzują się tym samym zróżnicowaniem w określeniu dochodu dającego satysfakcjonujące życie ( ae6 ) (innymi
słowy, chcemy przeprowadzić test Levene a na jednorodność wariancji zmiennej ae6 w grupie kobiet i mężczyzn). [Powodem przeprowadzenia tego testu może być formalny wymóg spełnienia postulatu równości wariancji w innym teście]. Wybierzemy więc Analiza Opis statystyczny Eksploracja (Analyze Descriptive Statistics Explore) i wypełnimy je: Potem, zgodnie z tym, czego dowiedzieliśmy się wcześniej, klikniemy ( ) i w pojawiającym się oknie wybierzemy ( ). W wyniku dostajemy: Interpretacja tego wyniku (jak też wyników WSZYSTKICH innych przeprowadzanych w SPSSie testów, sprowadza się do zinterpretowania wartości p). Wartości p mamy podawane dla różnych odmian tego samego testu Levene a, nas z reguły interesowała będzie pierwsza z nich, czyli u nas p = 0,304. Ponieważ (dla 5%-go poziomu istotności) zachodzi p = 0,304 > α = 0, 05, to nie ma podstaw do odrzucenia hipotezy zerowej i przyjmujemy, że wariancje zmiennej ae6 wśród kobiet i mężczyzn są równe. Swoją drogą, statystyka testowa testu Levene a przy założeniu prawdziwości hipotezy zerowej ma rozkład F( k 1, n k), gdzie k-ilość porównywanych wariancji w hipotezie zerowej, n-ilość obserwacji. ZADANIE4 (dane diagnoza2005 ) Sprawdź, czy można twierdzić, że wariancja zmiennej ae6 jest jednorodna w grupach osób inaczej wykształconych ( ac9 )
Weryfikacja hipotez parametrycznych o równości średnich Hipotezy parametryczne, to hipotezy pozwalające wnioskować o tym, czy parametr w populacji (/parametry w populacjach) jest równy jakiejś konkretnej wartości (/są sobie równe), czyli przykładowo czy można powiedzieć, że kobiety zarabiają średnio 2200PLN (/kobiety zarabiają średnio tyle, co mężczyźni (grupy niezależne) lub czy ludzie przed wypiciem określonej ilości alkoholu tak samo oceniają odległość do danego przedmiotu, jak po jej wypiciu (grupy zależne)). Testami weryfikującymi równość średnich (dla zmiennych ilościowych oraz dla odsetków) są testy, których statystyki testowe mają rozkład t-studenta. Z tego powodu nazywają się często testami t. Testów tych nie powinno się stosować do zmiennych innych niż ilościowe. Test dla jednej próby (test jednej średniej) Test ten weryfikuje hipotezę, że średnia wartość zmiennej różni się w sposób istotny statystycznie od danej wartości. W ogólnym przypadku, możemy zapisać zestaw hipotez jako: H : m = m H : m m 0 0 1 0 gdzie m średnia zmiennej w populacji, a m 0 - testowana wartość. Statystyka testowa obliczana jest ze wzoru: t X m 0 = S( X ) ~ t( n 1) n UWAGA! Możliwość zastosowania tego testu dla małych prób ( n 30 ) ograniczone jest do przypadku gdy zmienna ma w populacji rozkład normalny. Z reguły nie będziemy znali tego rozkładu, o jego normalności trzeba się będzie upewniać przeprowadzając jeden z odpowiednich testów. W razie braku normalności rozkładu, nie jest poprawne korzystanie z omawianego testu. Przykładowo (otwórzmy zbiór PGSS_2002_pr) i zobaczmy, czy można przyjąć, że średnia ilość osób w gospodarstwie domowym (hompop) równa jest 3. W SPSSie test ten realizowany będzie przez wybranie: Analiza Porównywanie średnich Test t dla jednej próby (Analyze Compare Means One Sample T-Test): Wśród Zmiennych testowanych jest zmienna hompop, zaś testowana wartość wyszczególniona jest w stosownym polu.
W wyniku dostajemy: W pierwszym panelu mamy statystyki opisowe zmiennej hompop, które potrzebne są do wyznaczenia statystyki opisowej. Drugi panel zawiera wyniki testu. Kolejne pola tego panelu to: nazwa zmiennej, wartość statystyki testowej, ilość stopni swobody (n-1), wartość p oraz inne, mniej ważne z punktu widzenia wyniku testu. Bazując na tym panelu możemy zapisać: t = 9,351 ~ t(2472); p < 0, 05 Zgodnie z zasadami podejmowania decyzji przy weryfikacji hipotez, prawdopodobieństwo, że popełnimy błąd jak odrzucimy hipotezę zerową jest na tyle małe (u nas: nieodróżnialne od zera), że możemy to zrobić. Wnioskujemy więc, że średnia ilość osób w gospodarstwie domowym jest w populacji różna od 3. ZADANIE5 Czy można przyjąć, że średnie dochody w populacji wynoszą 1200PLN?