Przekształcenia zmiennych (cd) Testowanie hipotez część I

Podobne dokumenty
Przekształcenia zmiennych (cd) Testowanie hipotez część I

Statystyka matematyczna dla leśników

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Zadania ze statystyki, cz.6

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Wydział Matematyki. Testy zgodności. Wykład 03

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Weryfikacja hipotez statystycznych

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

166 Wstęp do statystyki matematycznej

Testowanie hipotez statystycznych

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Testowanie hipotez statystycznych.

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Testy t-studenta są testami różnic pomiędzy średnimi czyli służą do porównania ze sobą dwóch średnich

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Zadania ze statystyki cz.8. Zadanie 1.

Testowanie hipotez statystycznych

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Testowanie hipotez statystycznych

Zawartość. Zawartość

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Analiza wariancji. dr Janusz Górczyński

Testy nieparametryczne

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Hipotezy statystyczne

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Testowanie hipotez statystycznych cd.

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Wprowadzenie do analizy korelacji i regresji

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Wykład 9 Wnioskowanie o średnich

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Jednoczynnikowa analiza wariancji

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

STATYSTYKA MATEMATYCZNA

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

WNIOSKOWANIE STATYSTYCZNE

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka matematyczna i ekonometria

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Z poprzedniego wykładu

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Testowanie hipotez statystycznych.

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Wykład 9 Testy rangowe w problemie dwóch prób

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Żródło:

Statystyka matematyczna i ekonometria

Testowanie hipotez statystycznych

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Weryfikacja hipotez statystycznych testy t Studenta

Spis treści 3 SPIS TREŚCI

Statystyka matematyczna i ekonometria

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Transkrypt:

Przekształcenia zmiennych (cd) Testowanie hipotez część I Przekształcenia zmiennych cd. Mówiliśmy już o przekształceniach zmiennych polegających na takich zmianach niesionych przez nie informacji, żeby po przekształceniu lepiej pasowały do odpowiedzi na pytania badawcze. Przekształcenia zmiennych, o których teraz powiemy wynikają z przesłanek natury statystycznej: formalne wymogi testów statystycznych, możliwość porównywania zmiennych, itp. Wśród różnych charakterystyk danych ilościowych, za najbardziej pożyteczne przy analizie statystycznej często uznaje się: symetrię rozkładu, addytywność cech, stałość rozstępu i wariancji i inne. Normalizacja Normalizacja wartości zmiennej to ogólne określenie technik (zwykle polegających na przekształceniach algebraicznych) za pomocą których tak przekształcamy wartości zmiennej, że posiadają one własność, której wyjściowa zmienne nie miała (np. rozkład wynikowej zmiennej jest symetryczny, podczas kiedy rozkład zmiennej wyjściowej był skośny). W ramach normalizacji wyróżnić można: rangowanie wartości (zastępowanie wartości cechy ich pozycjami na liście ), standaryzacja wartości, unitaryzacja wartości i inne. Ogólny przypadek normalizacji (który nie uwzględnia rangowania wartości) można zapisać jako: p xi A zi = B, gdzie z i to znormalizowane wartości zmiennej x i, zaś A, B i p są parametrami normalizacji. W zależności od przyjętych parametrów normalizacji, wartości zmiennej normalizuje się według innej zasady. Może to być np. unityzacja (powodująca, że z i ma stały obszar zmienności od 0 do 1). Standaryzacja My zajmiemy się znaną już standaryzacją wartości zmiennej. Standaryzacja to normalizacja wartości zmiennej o parametrach: A = x B = S( x), gdzie S(x) jest odchyleniem standardowym zmiennej x. p = 1,2,... czyli dla często przyjmowanego p=1 mamy formułę standaryzacyjną postaci: xi x zi = S( x) Co daje standaryzacja? 1. Znane parametry struktury: z = 0, S( z) = 1. 2. Można pokazać, że niezależnie od wyjściowych wartości zmiennej (wartości zmiennej x), 99.73% znormalizowanych wartości leży w przedziale [-3 ; 3].

Po co standaryzujemy zmienne? Wyobraźmy sobie sytuację: Jakaś szkoła chce wystawić jednego ze swoich uczniów do międzyszkolnego konkursu wiedzy ogólnej. Nauczyciele zdecydowali, że odpowiedni kandydat powinien charakteryzować się średnio najlepszymi wynikami z takich przedmiotów jak matematyka, geografia, biologia i WOS oraz (na wszelki wypadek ) mieć przy tym stosunkowo wysokie IQ. Wyselekcjonowano siódemkę dzieci, które napisały stosowne testy. Oto ich wyniki: Biologia (max. 52) WOS (max. 135) IQ Matematyka Geografia (max. 70) (max. 30) Konrad 70 25 44 120 137 Kamila 57 25 45 118 134 Radek 63 27 50 131 136 Michał 66 22 51 126 129 Iwona 67 24 48 133 141 Beata 59 29 52 135 130 Ania 61 28 50 135 135 Jak wybrać najlepszego reprezentanta szkoły? Dodawanie punktów uzyskanych w poszczególnych testach o tyle nie jest uprawnione, że po pierwsze punkty te inaczej ważą w każdym teście, po drugie nie mają jednego miana (IQ ma zupełnie inaczej rozumiane punkty niż wyniki testów "wiedzowych"). Dodatkowo mogłoby się zdarzyć, że wybranie ucznia mającego najwięcej punktów doprowadzi do sytuacji, kiedy będzie on wybitną jednostką w jednej dziedzinie i niespecjalnie wyróżniającą się w innej, co oczywiście nie będzie dla szkoły specjalnie korzystne w kontekście konkursu z wiedzy ogólnej. Z pomocą przychodzi właśnie standaryzacja (standaryzowane zmienne mają te same średnie i odchylenia standardowe mówią czy i jak bardzo jednostka odstawała od pozostałych w próbie oraz czy było to odchylenie in plus, czy in minus ): Biologia (max. 52) WOS (max. 135) IQ Matematyka Geografia stand. stand. stand. stand. stand. suma (max. 70) (max. 30) Matem. Geogr. Biol. WOS IQ stand. Konrad 70 25 44 120 137 1,45-0,29-1,50-1,17 0,59-0,93 Kamila 57 25 45 118 134-1,35-0,29-1,17-1,46-0,14-4,41 Radek 63 27 50 131 136-0,06 0,53 0,47 0,38 0,35 1,67 Michał 66 22 51 126 129 0,58-1,53 0,80-0,32-1,35-1,82 Iwona 67 24 48 133 141 0,80-0,71-0,19 0,67 1,56 2,14 Beata 59 29 52 135 130-0,92 1,35 1,13 0,95-1,11 1,39 Ania 61 28 50 135 135-0,49 0,94 0,47 0,95 0,10 1,97 Po wystandaryzowaniu zmiennych i obliczeniu ich sumy okazuje się, że najlepszą kandydatką jest Iwona, pomimo tego, że ma swoje słabe strony (geografia i biologia). Szkoła mogłaby również się zastanowić nad kandydaturą drugiej pod względem wyniku osoby Anią ustępuje ona Iwonie głównie pod względem IQ (135 vs. 141, co przy tych wartościach IQ może nie mieć specjalnego znaczenia w konkursie z wiedzy ogólnej), ale nadrabia inną wiedzą. Standaryzacja wartości zmiennych w SPSSie Otwórzmy w SPSSie zbiór szkola. Są to dokładnie te same zmienne, co prezentowane powyżej. Żeby wystandaryzować ich wartości wybieramy Analiza Opis statystyczny

Statystyki opisowe. W pojawiającym się oknie wybieramy zmienne, które chcemy standaryzować oraz zaznaczamy: W efekcie dostajemy zmienne wystandaryzowane. Stworzenie zmiennej stanowiącej ich sumę pozostawiam Państwu. ZADANIE1 Otwórz zbiór diagnoza2005. Wykonaj histogram dochodu ( bp107 ). Czy rozkład dochodu jest symetryczny? Wystandaryzuj wartości tej zmiennej. Oblicz statystyki opisowe standaryzowanych wartości i sprawdź, czy są one zgodne z własnościami standaryzacji. Jak zmieniła się wartość skośności i kurtozy po standaryzacji? Narysuj histogram standaryzowanych wartości. Czy wzorzec symetrii pozostał? Przekształcenie logarytmiczne Poprzednie zadanie pokazywało, że o ile standaryzacja potrafi ograniczyć znakomitą większość wartości zmiennej do przedziału [-3 ; 3] oraz ustalić jej średnią na 0, a odchylenie standardowe na 1, to nie wpływa na skośność (asymetrię) i kurtozę. Często natomiast (przy formalnych testach) wymaga się, żeby rozkład zmiennej był symetryczny. Symetrię zmiennej często uzyskuje się stosując przekształcenie logarytmiczne, czyli po prostu obliczając logarytmy wartości zmiennej wyjściowej: lnx = ln( x ) i i ZADANIE2 Korzystając ze znanego Ci już sposobu (Przekształcenia Oblicz wartości), wygeneruj zmienną lnbp107, której wartości będą logarytmami naturalnymi wartości zmiennej bp107. Wyznacz statystyki opisowe obydwu zmiennych zwróć uwagę na skośność. Narysuj histogramy tych zmiennych.

Testowanie hipotez część I Najczęstszym przypadkiem, do którego wykorzystujemy narzędzia statystyki i z którym mamy do czynienia w praktyce jest częściowe badanie statystyczne. Od badania pełnego różni się ono tym, że nie wykorzystujemy w nim wszystkich elementów analizowanej populacji (zbiorowości generalnej), a jedynie ich próbę. Statystyczne metody wykorzystywane do badania pełnego to najczęściej metody opisowe. Przy badaniu częściowym zaś wykorzystujemy matematyczne metody pozwalające wnioskować o cechach zbiorowości, z których próba została wylosowana oraz określać wielkość popełnianych przy tym błędów. Z oczywistych przyczyn, badanie pełne jest często niemożliwe do przeprowadzenia. W przypadkach takich wykonuje się badania częściowe i przeprowadza wnioskowanie statystyczne. Metodologia weryfikowania hipotez jest ogólnie znana i nie jest przedmiotem tych zajęć powtarzanie jej. Odświeżymy sobie jedynie trochę terminologii: hipotezy przedstawiają analizowany problem badawczy; wyróżniamy hipotezę zerową, która standardowo zakłada jakąś równość (np. parametr rozkładu zmiennej równy jest jakiejś konkretnej wielkości; parametr rozkładu jednej zmiennej równy jest analogicznemu parametrowi rozkładu innej zmiennej; dystrybuanta empiryczna rozkładu zmiennej równa jest dystrybuancie teoretycznej) i zastanawiamy się, czy są przesłanki, żeby hipotezę tę odrzucić. Jeśli takie przesłanki są, to odrzucamy ją i przyjmujemy hipotezę alternatywną. statystyka testowa statystyka, która obliczana jest przy okazji każdego testu funkcja wartości zmiennej/wartości zmiennych; przy założeniu prawdziwości hipotezy zerowej posiada znany rozkład, co pozwala ustalić, czy są przesłanki, żeby tę hipotezę odrzucić, czy nie (jeśli jej wartość wpada do obszaru krytycznego (wyznaczonego przy znajomości rozkładu statystyki testowej przy założeniu prawdziwości hipotezy zerowej oraz przy przyjęciu pewnego poziomu istotności), to mamy podstawy, żeby hipotezę zerową odrzucić). α - poziom istotności intuicyjnie jest to akceptowany poziom ryzyka, że niesłusznie odrzucimy hipotezę zerową. Standardowo przyjmowane poziomy istotności to 1% (0,01), 5% (0,05) i 10% (0,1). wartość p empiryczny poziom istotności prawdopodobieństwo popełnienia błędu I rodzaju (polegającego na odrzuceniu poprawnej hipotezy zerowej). Jeśli prawdopodobieństwo to jest odpowiednio małe (precyzyjniej: mniejsze niż poziom istotności, α ), to mamy podstawy, żeby hipotezę zerową odrzucić. W przeciwnym wypadku (wartość p większa od α ), nie ma podstaw do odrzucenia hipotezy zerowej. Założenia testów Testy statystyczne mają swoje założenia, które należy również testować, aby upewnić się, czy użycie testu w konkretnym przypadku będzie uzasadnione. Rozkład normalny Początki rozkładu normalnego sięgają XIX wieku, kiedy spopularyzował go Karl Friedrich Gauss, a w szczególności zainteresowali się nim astronomowie. Zaobserwowano wtedy, że

pomiar jakiejś wielkości ma rozkład normalny wyniki takiego pomiaru stanowią rzeczywistą wielkość mierzonego zjawiska plus błąd. Znany jest dzwonowaty kształt funkcji gęstości tego rozkładu krzywa Gaussa który, przypomnijmy, wygląda tak: Źródło: Wikipedia, http://pl.wikipedia.org/wiki/rozk%c5%82ad_normalny Jeśli zmienna X ma rozkład normalny, X ~ N( m, σ ), to zmienna Z, taka że: X m Z = σ ma standardowy rozkład normalny, co zapisujemy Z ~ N (0,1). Wykres standardowego rozkładu normalnego jest (oczywiście) scentrowany w zerze: Obszar (tzw. jednosigmowy) [-1; 1] stanowi 68.27% powierzchni pod krzywą Gaussa, obszar [-2; 2] (dwusigmowy) to 95.45% tej powierzchni, zaś obszar trzysigmowy ([-3; 3]) to 99.73% tej powierzchni.

Założenie o rozkładzie normalnym Założenie, że zmienna ma rozkład normalny leży u podstaw bardzo wielu tzw. parametrycznych testów istotności różnic (o których będziemy mówić w dalszej części), jak również jest to założenie wielu innych narzędzi statystycznych przykładowo analizy wariancji. Istnieje wiele testów, które weryfikują, czy zmienna pochodzi z rozkładu normalnego, czy też nie. Często wykorzystywane tego typu testy to Kołmogorowa-Smirnowa oraz Sharpio-Wilka, z tymże ten drugi odpowiedni jest dla prób nie przekraczających 50 elementów (obserwacji). Hipotezami tych testów są: H0 : F( x) = FN ( x) H1 : F( x) FN ( x) czyli hipoteza zerowa mówi, że zmienna ma rozkład normalny. W SPSSie test normalności rozkładu przeprowadzany jest na dwa sposoby: 1. Jeśli testujemy, czy jakaś zmienna ma rozkład normalny, to wybieramy: Analiza Testy nieparametryczne K-S dla jednej próby i wypełniamy pojawiające się okno. W wyniku dostajemy statystykę testową test Kołmogorowa-Smirnowa oraz wartość p tej statystyki. Przypomnijmy: Często, wykorzystując obliczenia komputerowe, zamiast odszukiwać wartości * krytyczne w tablicach statystycznych, łatwiej jest obliczyć α, czyli tzw. policzony poziom istotności (empiryczny poziom istotności lub tzw. wartość p (pvalue)), w SPSSie często nazywana istotnością. α to empirycznie wyznaczone * (przy założeniu odpowiedniego rozkładu statystyki testowej), prawdopodobieństwo popełnienia błędu I rodzaju. Przyjmując, że za poziom istotności (równoważny akceptowanemu prawdopodobieństwu popełnienia błędu I rodzaju, a więc prawdopodobieństwu odrzucenia prawdziwej hipotezy zerowej) przyjmujemy α, możliwe są następujące dwie sytuacje: * (i). α α * (ii). α > α Oczywiście w sytuacji (i) odrzucimy hipotezę zerową na rzecz alternatywnej, zaś w sytuacji (ii) nie będziemy mieli podstaw do odrzucenia hipotezy zerowej. Proszę otworzyć dane PGSS_2002_pr. Spróbujmy przetestować, czy dodatkowe dochody miesięczne (zmienna q39d ) mają rozkład normalny. Wybieramy Analiza Testy nieparametryczne K-S dla jednej próby, wypełniamy odpowiednio wyskakujące okno i otrzymujemy wynik:

Wartość p (istotność asymptotyczna) jest dla nas nieodróżnialna od 0, prawdopodobieństwo popełnienia błędu I rodzaju jest na tyle małe (mniejsze od standardowo przyjmowanego poziomu istotności wynoszącego najczęściej 5%, ale również czasami 1% i 10%), że możemy je podjąć i odrzucamy hipotezę zerową o normalności rozkładu zmiennej q39d. Możemy się zastanowić nad możliwością sprowadzenia zmiennej q39d do normalności. Rzućmy okiem na jej histogram:

Histogram wskazuje na wyraźną asymetrię rozkładu. Wiemy już, że w takiej sytuacji może pomóc transformacja logarytmiczna. Stwórzmy zmienną lnq39 będącą logarytmem naturalnym zmiennej q39d (Przekształcenia Oblicz wartości). Wykonajmy teraz test Kołmogorowa-Smirnowa dla lnq39 :

Na poziomie istotności α = 0,05 zachodzi p = 0, 066 > α = 0, 05, a więc prawdopodobieństwo, że popełnimy błąd I rodzaju jest zbyt duże nie ma więc podstaw do odrzucenia H 0 o normalności rozkładu zmiennej lnq39. ZADANIE3 Proszę otworzyć dane zatrudnienie i sprawdzić, czy można powiedzieć, że zmienna prevexp ma rozkład normalny. Jeśli nie, to spróbować ją przekształcić, żeby rozkład normalny miała. 2. Jeśli testujemy, czy rozkłady jakiejś zmiennej są rozkładami normalnymi w podpróbkach wydzielonych przez kategorie innej zmiennej, to wybierzemy: Analiza Opis statystyczny Eksploracja. W pole Zmienna zależna wpisujemy zmienną, której normalność rozkładu chcemy sprawdzić, zaś w pole Lista czynników wpiszemy zmienną, której kategorie dzielą próbę na podgrupy. Otwórzmy zbiór diag2 i spróbujmy przeprowadzić test normalności rozkładów zmiennej lnbp107 w podgrupach stanu cywilnego (zmiennej ac8 ). Wybieramy więc Analiza Opis statystyczny Eksploracja, wypełniamy odpowiednio pojawiające się okno, a dodatkowo klikamy zaznaczamy: i W wyniku otrzymamy: Z tabelki wynika, że w podgrupie osób rozwiedzionych zmienna lnbp107 ma rozkład normalny (wynik nie potwierdzany przez test Sharpio-Wilka). Optymistyczne wyniki co do normalności rozkładu zmiennej lnbp107 w grupie osób będących w separacji (takich osób było jedynie 27) mogą wynikać z tego, że testy na normalność rozkładu ogólnie są z reguły skłonne znajdować normalność rozkładu w małych próbkach oraz są bardzo wrażliwe na najdrobniejsze odejścia od rozkładu normalnego w próbkach dużych.

Jednorodność (równość) wariancji Częstym założeniem testów jest jednorodność wariancji. Przykładowo, analizując statystyczną istotność różnic dochodowych w różnych grupach wykształcenia, formalnym wymogiem zastosowania analizy wariancji jest jednorodność (równość) wariancji dochodu w każdej z grup dochodowych. Jednorodność wariancji często weryfikowana jest za pomocą testu Levene a. Test ten bada równość wariancji w k podgrupach. Hipotezy tego testu są następujące: 2 2 2 H0 : σ1 = σ 2 =... = σ k H1 : nie wszystkie wariancje są sobie równe W SPSSie do testu Levene a mamy często dostęp przy korzystaniu z narzędzi, których użycie wymaga spełnienia założenia o równości wariancji (przykładowo wykonując analizę wariancji, dodatkowo możemy wykonać test Levene a). Żeby test Levene a wykonać rozłącznie ze wszystkimi innymi analizami, wybrać możemy: Analiza Opis statystyczny Eksploracja i ustalić wariancje której zmiennej chcemy porównywać ( Zmienna zależna ) i w jakich podgrupach ( Lista czynników ). Dalej wybieramy i w pojawiającym się oknie zaznaczamy: Przykład (dane diagnoza_2005 lub diag2 ). Powiedzmy, że chcemy sprawdzić, czy kobiety i mężczyźni ( ac7 ) charakteryzują się tym samym zróżnicowaniem w określeniu dochodu dającego satysfakcjonujące życie ( ae6 ) (innymi słowy, chcemy przeprowadzić test Levene a na jednorodność wariancji zmiennej ae6 w grupie kobiet i mężczyzn). [Powodem przeprowadzenia tego testu może być formalny wymóg spełnienia postulatu równości wariancji w innym teście]. Wybierzemy więc Analiza Opis statystyczny Eksploracja i wypełnimy je:

Potem, zgodnie z tym, czego dowiedzieliśmy się wcześniej, klikniemy pojawiającym się oknie wybierzemy. i w W wyniku dostajemy: Interpretacja tego wyniku (jak też wyników WSZYSTKICH innych przeprowadzanych w SPSSie testów, sprowadza się do zinterpretowania wartości p). Wartości p mamy podawane dla różnych odmian tego samego testu Levene a, nas z reguły interesowała będzie pierwsza z nich, czyli u nas p = 0,304. Ponieważ (dla 5%-go poziomu istotności) zachodzi p = 0,304 > α = 0, 05, to nie ma podstaw do odrzucenia hipotezy zerowej i przyjmujemy, że wariancje zmiennej ae6 wśród kobiet i mężczyzn są równe. ZADANIE4 (dane diagnoza2005 ) Sprawdź, czy można twierdzić, że wariancja zmiennej ae6 jest jednorodna w grupach osób inaczej wykształconych ( ac9 ) Weryfikacja hipotez parametrycznych o równości średnich Hipotezy parametryczne, to hipotezy pozwalające wnioskować o tym, czy parametr w populacji (/parametry w populacjach) jest równy jakiejś konkretnej wartości (/są sobie równe), czyli przykładowo czy można powiedzieć, że kobiety zarabiają średnio 2200PLN (/kobiety zarabiają średnio tyle, co mężczyźni (grupy niezależne) lub czy ludzie przed wypiciem lampki wina tak samo oceniają odległość, jak po jej wypiciu (grupy zależne)). Testami weryfikującymi równość średnich (dla zmiennych ilościowych oraz dla odsetków) są testy, których statystyki testowe mają rozkład t-studenta. Z tego powodu nazywają się często testami t. Testów tych nie powinno się stosować do zmiennych innych niż ilościowe (wyjątkiem jest, w odpowiedni sposób przeprowadzana, weryfikacja hipotez o odsetkach). Test dla jednej próby (test jednej średniej) Test ten weryfikuje hipotezę, że średnia wartość zmiennej różni się w sposób istotny statystycznie od danej wartości. W ogólnym przypadku, możemy zapisać zestaw hipotez jako: H0 : m = m0 gdzie m średnia zmiennej w populacji, a m 0 - testowana wartość. H1 : m m0 Statystyka testowa obliczana jest ze wzoru: t X m 0 = S( X ) ~ t( n 1) n

UWAGA! Możliwość zastosowania tego testu dla małych prób ( n 30 ) ograniczone jest do przypadku gdy zmienna ma w populacji rozkład normalny. Z reguły nie będziemy znali tego rozkładu, o jego normalności trzeba się będzie upewniać przeprowadzając jeden z odpowiednich testów. W razie braku normalności rozkładu, nie jest poprawne korzystanie z omawianego testu. Przykładowo (otwórzmy zbiór PGSS_2002_pr) i zobaczmy, czy można przyjąć, że średnia ilość osób w gospodarstwie domowym (hompop) równa jest 3. W SPSSie test ten realizowany będzie przez wybranie: Analiza Prrównywanie średnich Test t dla jednej próby: Wśród Zmiennych testowanych jest zmienna hompop, zaś testowana wartość wyszczególniona jest w stosownym polu. W wyniku dostajemy: W pierwszym panelu mamy statystyki opisowe zmiennej hompop, które potrzebne są do wyznaczenia statystyki opisowej. Drugi panel zawiera wyniki testu. Kolejne pola tego panelu to: nazwa zmiennej, wartość statystyki testowej, ilość stopni swobody (n-1), wartość p oraz inne, mniej ważne z punktu widzenia wyniku testu. Bazując na tym panelu możemy zapisać: t = 9,351 ~ t(2472); p < 0, 05

Zgodnie z zasadami podejmowania decyzji przy weryfikacji hipotez, prawdopodobieństwo, że odrzucimy prawdziwą hipotezę zerową jest na tyle małe (u nas: nieodróżnialne od zera), że możemy to zrobić. Wnioskujemy więc, że średnia ilość osób w gospodarstwie domowym jest w populacji różna od 3. ZADANIE5 Czy można przyjąć, że średnie dochody w populacji wynoszą 1200PLN? Test jednej średniej dla wskaźnika struktury Jeśli zmienną dyskretną o dwóch kategoriach jest zmienna zerojedynkowa, to oprócz automatycznego dzielenia przez nią próby na dwie rozłączne części (przykładowo zmienna płeć zakodowana jako: 1-kobiety, 0-mężczyźni dzieli próbę ze względu na płeć), jej średnia równa jest odsetkowi osób, na które wskazuje kategoria 1 tej zmiennej (średnia dla zmiennej płeć to odsetek kobiet w próbie). W tym sensie, test jednej średniej dla zmiennej zerojedynkowej, to testowanie, czy wskaźnik struktury (odsetek) związany z kategorią 1 danej zmiennej, równy jest danej wartości. Oznaczając odsetek z próby przez p, a testowaną wartość przez p 0, mamy zestaw hipotez: H : p = p H : p p 0 0 1 0 Statystyka testowa dana jest wzorem: k p0 Z = n ~ t( n 1), gdzie k to ilość wystąpień kategorii 1 w próbie, zaś n to k k 1 n n n liczność próby. W SPSSie test dla frakcji (wskaźnika struktury; odsetka) przeprowadzamy w sposób analogiczny do testu t dla jednej próby. Należy się jednak upewnić, że zmienna, która dzieli próbę na dwie części jest zmienną zerojedynkową (przyjmuje kategorie 0 i 1 ). Jeśli taką zmienną nie jest, to należy ją zrekodować do żądanej postaci. Przykładowo, chcemy odpowiedzieć na pytanie: czy analizując naszą próbkę (cały czas PGSS_2002_pr ), możemy wysnuć wniosek, że mężczyźni stanowią 45% populacji. Zmienna odpowiedzialna za płeć q8 nie jest zmienną zerojedynkową, trzeba więc stworzyć nową zmienną (nazwijmy ją plec ), która taką będzie. Co więcej, nowostworzona zmienna powinna przyjmować kategorię 1 dla mężczyzn, gdyż to oni (dokładnie frakcja, którą stanowią) są przedmiotem badania. Dalej postępujemy analogicznie jak przy teście dla jednej średniej: Analiza Porównywanie średnich Test t dla jednej próby. Testowana wartość to,oczywiście, 0,45.

W wyniku dostajemy: Wynik testu to: t = 2, 638 ~ t(2472); p = 0, 008 < 0, 05, a więc odrzucamy hipotezę zerową, mówiącą o tym, że mężczyźni stanowią 45% populacji. ZADANIE6 Sprawdź, czy wśród osób, które odpowiadają Za usunięciem lub Przeciw usunięciu na pytanie o potrzebę usunięcia antyreligijnej książki z biblioteki (zmienna q52b ), jedna czwarta osób jest za usunięciem. Podpowiedź: stwórz odpowiednią zmienną zerojedynkową.