1 Laboratorium III: Testy statystyczne Spis treści Laboratorium III: Testy statystyczne... 1 Wiadomości ogólne... 2 1. Krótkie przypomnienie wiadomości na temat testów statystycznych... 2 1.1. Weryfikacja hipotez statystycznych... 2 2. Przeprowadzanie testów statystycznych w STATISTICE... 2 2.1 Prawdopodobieństwo p... 2 2.2 Kalkulator prawdopodobieństwa... 3 2.3 Testy t-studenta... 3 2.4 Testy normalności rozkładu... 5 2.5 Dopasowywanie rozkładów... 6 Ćwiczenie... 8 Część I... 8 Część II... 9 Część III... 9
2 Wiadomości ogólne 1. Krótkie przypomnienie wiadomości na temat testów statystycznych Hipotezy badawcze mogą dotyczyć: Wartości badanych zmiennych, np. średni wiek osób chorych na pewną chorobę wynosi 55 lat; Różnicy między cechami opisującymi badaną grupę (populację), np. lek A skuteczniej obniża ciśnienie krwi w porównaniu do leku B; Zależności między badanymi zmiennymi, np. istnieje silna korelacja między ilością wypalanych dziennie papierosów a ryzykiem wystąpienia nowotworu płuc; Rodzaju zależności badanych zmiennych, np. istnieje zależność liniowa pomiędzy wzrostem a wagą; Oceny charakteru rozkładów zmiennych, np. rozkład prędkości chodu osób zdrowych jest rozkładem normalnym. 1.1. Weryfikacja hipotez statystycznych Poniżej przedstawiono kroki, jakie należy wykonać przy przeprowadzaniu testów statystycznych. 1. Sformułowanie hipotezy zerowej oraz hipotezy alternatywnej ; 2. Przyjęcie wartości poziomu istotności ; 3. Dobranie testu, obliczenie jego wartości w oparciu o dane z próby; 4. Wyznaczenie obszarów krytycznych przy ustalonym poziomie istotności; 5. Podjęcie decyzji o odrzuceniu lub nie odrzuceniu hipotezy zerowej; 2. Przeprowadzanie testów statystycznych w STATISTICE 2.1 Prawdopodobieństwo p Poziom prawdopodobieństwa p to nowe pojęcie, które pojawia się przy okazji weryfikacji hipotez statystycznych w programach do obliczeń statystycznych. Jest bardzo często mylone z poziomem istotności. Parametr ten jest najmniejszym poziomem istotności, przy którym wyliczona wartość testującej statystyki powoduje odrzucenie hipotezy zerowej. Nazywany jest poziomem prawdopodobieństwa p lub p-wartością. Aby wyraźnie rozróżnić p-wartość i poziom istotności: Poziom istotności α to wartość stała, ustalona przed przeprowadzeniem testu; Poziom prawdopodobieństwa p to zmienna losowa, funkcja zaobserwowanej testującej statystyki, przyjmuje różne wartości w zależności od próby i testu. Jeśli α > p, to na poziomie istotności α należy odrzucić hipotezę zerową. W przeciwnym wypadku, czyli gdy α < p, na poziomie istotności α nie ma podstaw do odrzucenie hipotezy zerowej. Porównanie tych dwóch parametrów jest bardzo wygodną metodą przy podejmowaniu decyzji na temat odrzucenia hipotezy zerowej. Wartość p wyświetla się zawsze w tabelce z podsumowaniem wyniku przeprowadzonego testu.
3 2.2 Kalkulator prawdopodobieństwa Jest dostępny z menu Statystyka/Kalkulator prawdopodobieństwa/rozkłady. Kalkulator widoczny jest na Rys.1: Rys.1 kalkulator prawdopodobieństwa. Kalkulator pozwala wyliczyć wartość wartość statystyski dla zadanego poziomu prawdopodobieństwa p i dla danej liczby stopni swobody df. W przypadku przedstawiony na Rys.1 po wprowadzeniu odpowiedniej wartości p (tutaj równej poziomowi istotności) oraz odpowiedniej liczby stopni swobody, kalkulator wylicza wartość t, czyli wartość graniczna statystyki. Zastępuje to odczytywanie wartości statystyki z tablic. W zależności od hipotezy alternatywnej należy zaznaczyć czy chodzi nam o obustronny obszar krytyczny, czy nie. Zaznaczenia pola Utwórz wykres powoduje stworzenie wykresu z zaznaczonymi wartościami krytycznymi dla wybranego rozkładu. 2.3 Testy t-studenta Testy t-studenta służą do porównywania średnich. Hipotezę zerową można przedstawić jako: : = na rzecz alternatywnej : : > : < Do testów t-studenta można się dostać wybierając z menu głównego Statystyka/Statystyki podstawowe i tabele. Wyświetla się znajome okno:
4 Rys.2 Okno Statystyki podstawowe i tabele. Testy t. W zależności od tego, dla jakich prób chcemy przeprowadzić test t, należy wybrać odpowiednią opcję: Test t dla prób niezależnych (wzgl. zmn.) porównujemy pomiary znajdujące się w arkuszu danych w dwóch zmiennych, próby są niezależne; Test t dla prób niezależnych (wzgl. grup) próby są niezależne, porównujemy pomiary znajdujące się w arkuszu danych w jednej zmiennej, takiej, której przypadki można pogrupować wg zmiennej grupującej. Zmienna grupująca można kategoryzować przypadki np. względem płci (kody grup: K, M), względem stanu zdrowia (kody grup: zdrowy, chory) itd. Przykład wyboru zmiennych przedstawiono na Rys.3. Test t dla prób zależnych próby zależne, w arkuszu danych znajdują się w osobnych zmiennych, jest to test porównujący pomiary dla grupy tych samych przypadków, ale przed i po wykonaniu na nich jakiegoś eksperymentu, np. pomiar wartości ciśnienia przed i po podaniu leku na obniżenie ciśnienia. Test t dla pojedynczej próby wykonujemy wtedy, gdy chcemy zbadać, czy wartość oczekiwana dla danej próby jest równa jakiejś stałej, określonej liczbie.
5 Rys.3 Przykład wyboru zmiennych dla hipotezy zerowej zakładającej różność prędkości chodu kobiet i mężczyzn. Dla ułatwienia interpretacji wyników testu, w oknie odpowiadającym któremukolwiek z powyższych testów w zakładce Opcje, można ustalić poziom podświetlania rezultatu testu. Jeśli poziom podświetlania ustawi się równy wartości poziomu istotności, to w przypadku, gdy w wyniku przeprowadzenia testu należy odrzucić hipotezę zerową, rezultaty testu zostają podświetlone na czerwono (Rys.4). Wynik testu dobrze jest zilustrować wykresem ramka-wąsy (przycisk dostępny w oknie z Rys.3). Rys.4 Widok skoroszytu po wykonaniu testu t dla zmiennych niezależnych, dla poziomu ufności α=0,05. Poziom podświetlenia równy poziomowi ufności. A brak podświetlenia wyników, brak podstaw do odrzucenia hipotezy zerowej; B - podświetlenie wyników, odrzucenie hipotezy zerowej na poziomie ufności 0,05. 2.4 Testy normalności rozkładu Hipotezy dla testów normalności: : rozkład badanej cechy w populacji jest rozkładem normalnym, : rozkład badanej cechy w populacji jest różny od rozkładu normalnego.
6 W oknie Statystyki opisowe, dostępnym po wyborze w menu głównym Statystyka/Statystyki podstawowe i tabele/statystyki opisowe, w zakładce Normalność można przeprowadzić test normalności rozkładu. Rys.5 Okno Statystyki opisowe, zakładka Normalność. W oknie dostępne są dwa testy: test Kołmogorowa-Smirnowa i Lilleforsa oraz test W Shapiro Wilka. Test Kołmogorowa-Smirnowa służy do weryfikacji hipotezy o nieistotności różnicy badanego rozkładu zmiennej (rozkładu empirycznego) z rozkładem normalnym (rozkładem teoretycznym). Stosujemy go w sytuacji, gdy znana jest wartość średnia (μ) i odchylenie standardowe (σ) dla populacji z której pochodzi próba. Test Lillieforsa jest poprawką testu K-S, gdy nie znana jest wartość średnia (μ) i odchylenie standardowe (σ) dla populacji z której pochodzi próba. Test Shapiro-Wilka jest najbardziej polecany. Jednak można go stosować dla prób o liczebności nie większej niż 2 tys. Wyniki testu uzyskuje się klikając w przycisk Tabele liczności lub Histogramy. Wynik testu pojawia się w nagłówku tabelki liczności lub histogramu. Wyznaczoną na podstawie statystyki testowej wartość p porównujemy z ustalonym poziomem istotności α: jeżeli odrzucamy przyjmując, jeżeli > nie ma podstaw odrzucić. 2.5 Dopasowywanie rozkładów Hipotezy dla dopasowywania rozkładów: : rozkład badanej cechy w populacji jest rozkładem A, : rozkład badanej cechy w populacji jest różny od rozkładu A.
7 Gdzie A to dowolny rozkład, jaki chcemy dopasować w danym momencie. Panel Dopasowywania rozkładów przywołujemy z menu Statystyka. W otwartym w ten sposób oknie znajduje się tylko jedna karta: Podstawowe, na której należy wybrać rozkład, jakie chcemy dopasować do naszej próby. Po wyborze rozkładu program przechodzi do kolejnego okna: Rys.5 Okno Dopasowanie rozkładu ciągłego, zakładka Opcje. W zakładce Podstawowe znajdują się tylko 2 przyciski: Podsum.: rozkład obserwowany i oczekiwany w wyniku wciśnięcia pojawia się arkusz dopasowania rozkładów dla wybranej zmiennej. Wykres rozkładu obserw. i oczekiwanego w wyniku wciśnięcia wyświetla się histogram wybranej zmiennej oraz dopasowywany rozkład. W zakładce Opcje można wybrać test, przy pomocy którego odbędzie się dopasowywanie rozkładu: do wyboru jest test χ 2 albo test Kołmogorowa-Smirnowa. Test χ 2 stosuje się dla prób o dużej liczebności, n>50, dla mniejszych wykorzystuje się test Kołmogorowa-Smirnowa. Każdy z tych testów sprawdza, czy rozkład w populacji dla pewnej zmiennej losowej, różni się od założonego rozkładu teoretycznego, gdy znana jest jedynie pewna skończona liczba obserwacji tej zmiennej (próba). Wyznaczoną na podstawie statystyki testowej wartość p porównujemy z ustalonym poziomem istotności α: jeżeli odrzucamy przyjmując, jeżeli > nie ma podstaw odrzucić.
8 Ćwiczenie Część I 1. Badając ciśnienie (w mmhg) dla losowej próby 12 pacjentów uzyskano następujące wyniki: 145, 130, 140, 125, 155, 150, 135, 120, 160, 140, 145, 128 Utwórz nowy arkusz w STATISTICE zawierający 1 zmienną i 12 przypadków. Wpisz do zmiennej powyższe wartości ciśnienia. Przeprowadź test istotności dla średniej, przyjmując hipotezę zerową : = 150 na rzecz alternatywnej : 150. Przyjmij poziom istotności = 0,05. Postępuj wg następujących kroków: a) Wyznacz w STATISTICE: średnią, 95% przedział ufności dla średniej, minimum, maksimum i odchylenie standardowe dla nowej zmiennej; b) Sprawdź normalność w STATISTICE wykorzystując test Shapiro-Wilka (rozdz. 2.4 w instrukcji) ; w zależności od wyniku tego testu wybierz z poniższej listy odpowiedni test istotności dla średniej: Założenia testu Test I Populacja generalna ma rozkład normalny (, ) Nieznana wartość oczekiwana µ Znane odchylenie standardowe σ Test II Populacja generalna ma rozkład normalny (, ) Nieznana wartość oczekiwana µ Nieznane odchylenie standardowe σ Mała liczebność próby n < 30 Test III Populacja generalna ma dowolny rozkład Nieznana wartość oczekiwana µ Nieznane odchylenie standardowe σ Duża liczebność próby n > 30 Statystyka testowa Statystyka o rozkładzie N(0,1) = średnia z próby, liczebność próby, hipotetyczna wartość. Statystyka o rozkładzie t-studenta o (n-1) stopniach swobody =, średnia, odchylenie z próby, liczebność próby, hipotetyczna wartość. Statystyka o rozkładzie N(0,1) =, średnia, odchylenie z próby, liczebność próby, hipotetyczna wartość. c) Wylicz na kartce statystykę testową na podstawie danych z próby; d) Wykorzystując Kalkulator prawdopodobieństwa w STATISTICE, wyznacz wartość krytyczną dla testu. Utwórz wykres z zaznaczonym obszarem krytycznym. e) Porównaj wartość krytyczną z wartością statystyki wyliczoną w podpunkcie c). f) Podejmij decyzję o odrzuceniu lub nie hipotezy zerowej.
9 Część II Aby przeprowadzić testy dla średnich, korzystaj z testów t opisanych w podrozdziale 2.3. Otwórz arkusz danych dane3.sta. Dane są Ci znane, jest to arkusz będący wynikiem scalania i poprawiania danych na ostatnim laboratorium. Zawiera prędkości chodu dla osób zdrowych i chorych na chorobę Parkinsona. 2. Sprawdź normalność prędkości chodu osobno dla osób chorych, osobno dla osób zdrowych. Zapisz hipotezę zerową i alternatywną. Wykorzystaj test Shapiro-Wilka. Przyjmij poziom istotności = 0,05. Wskazówka: przeczytaj rozdział Testy normalności oraz o p-wartości. Wartość prawdopodobieństwa p jest zapisywana w tabeli, albo nad wykresem będącym wynikiem testu. 3. Zweryfikuj hipotezę zerową: :!" = #$ na rzecz hipotezy alternatywnej :!" #$ przyjmując poziom istotności = 0,01. Wynik testu zilustruj wykresem ramka-wąsy (przycisk dostępny z okna testu t). Wskazówka: przed wyborem odpowiedniego testu t zastanów się, czy próby są zależne, czy niezależne? Jak zorganizowane są dane (w zmiennych czy w grupach)? 4. Wykorzystując to samo okno, w którym został przeprowadzony test równości średnich w punkcie 3, narysuj skategoryzowany wykres normalności (przycisk dostępny w zakładce Więcej). Porównaj wykres z wynikami testów normalności otrzymanymi w punkcie 2. 5. Na poziomie istotności = 0,05, zweryfikuj hipotezy zerowe: :!" = 1,25 & na rzecz ' :!" 1,25 & ' : #$ = 0,75 & na rzecz ' : #$ 0,75 & ' Ile wynosi najmniejszym poziom istotności, przy którym wyliczona wartość testującej statystyki powoduje odrzucenie hipotezy zerowej? 6. Do pliku z danymi na temat prędkości chodu dodano 2 nowe zmienne: Lek i Prędkość_po. Części osób cierpiących na chorobę Parkinsona podano lek, który miał ograniczyć drżenie ich mięśni, a tym samym wpłynąć na większą łatwość chodu. Wartość 1 w zmiennej Lek oznacza, że dana osoba przyjęła lek, wartość 0 nie przyjęła. Prędkość_po zawiera pomiary prędkości chodu wykonane po kuracji z wykorzystaniem leku. Wykonaj test t dla zmiennych zależnych sformułuj hipotezę zerową, przyjmij poziom istotności = 0,01. Część III 7. Otwórz plik rozklady.sta. Plik zawiera 3 zmienne: A, B, C. Każda z nich zawiera losowe wartości pochodzące z innego rozkładu. Korzystając z Dopasowywania rozkładów, dopasuj do każdej z tych zmiennych odpowiedni rozkład. Sporządź histogramy z wrysowanymi krzywymi odpowiadającymi dopasowanym rozkładom. Przyjmij poziom istotności = 0,05. Wskazówka: do narysowania histogramów skorzystaj z przycisku Wykres rozkładu obserwowanego i oczekiwanego w zakładce Podstawowe w oknie Dopasowywanie rozkładów.