Doświadczalnictwo leśne Wydział Leśny SGGW Studia II stopnia
Metody nieparametryczne Do tej pory omawialiśmy metody odpowiednie do opracowywania danych ilościowych, mierzalnych W kaŝdym przypadku zakładaliśmy m.in. normalność rozkładów zmiennej Nie zawsze jednak rzeczywistość jest taka łaskawa
Metody nieparametryczne Co zrobić, jeŝeli: mamy do czynienia z danymi niemierzalnymi, jakościowymi? analizowany zbiór danych jest niejednorodny i cecha nie ma rozkładu normalnego? próba jest mała i nie moŝna zweryfikować załoŝenia o rozkładzie? Zastosować metody (testy) nieparametryczne
Skale pomiarowe Zmienne jakościowe Nominalna (nazwa, relacja róŝności) Porządkowa (rangowa; relacja porządku) Zmienne ilościowe Przedziałowa (interwałowa; stała jednostka, umowne zero, nie dzielić) Ilorazowa (stosunkowa; zero absolutne, wartości moŝna dzielić)
Metody nieparametryczne Stosować wtedy, gdy nie moŝemy posłuŝyć się metodą parametryczną / testem parametrycznym Co prawda gdy załoŝenia testów parametrycznych (zwłaszcza o normalności rozkładu) nie są spełnione, będą one dalej działać, ale w wielu wypadkach wyniki nie będą wiarygodne
Testy nieparametryczne Niedotrzymanie załoŝenia o normalności cechy = zmniejszenie błędu I rodzaju (alfa), ale..... wówczas siła (moc) testów nieparametrycznych jest mniejsza, niŝ parametrycznych moc testu = zdolność do unikania błędu II rodzaju
Testy nieparametryczne Testy nieparametryczne nie wymagają załoŝenia o normalności rozkładu cech(y) (ang. ditribution free tests) Mimo mniejszej mocy (ogółem) dają lepsze wyniki (większą moc) gdy rozkład cechy jest silnie asymetryczny
Testy nieparametryczne Testy te nazywają się nieparametrycznymi gdyŝ w zasadzie nie badają hipotez dotyczących parametrów (mimo, Ŝe na pierwszy rzut oka tak się nam wydaje)
Zalety Testy nieparametryczne moŝna stosować do róŝnych populacji łatwiejsze do zastosowania Wady mniejsza moc bardziej chaotyczne trudniejsze do zastosowania do bardziej skomplikowanych hipotez / modeli
Testy nieparametryczne Najłatwiej będzie prześledzić podstawowe testy nieparametryczne przez ich porównanie do metod parametrycznych w róŝnych sytuacjach
Pojedyncza próba
Pojedyncza próba Test serii Walda-Wolfowitza Stosowany do badania losowości zjawisk Test bierze pod uwagę zarówno róŝnice od średniej, jak i rozkład próby
Pojedyncza próba Np. testujemy termin kiełkowania nasion dwóch podgatunków modrzewia (E i P) Notujemy czas kiełkowania kaŝdego nasienia W efekcie uzyskać moŝemy następujące przykładowe rozkłady terminu kiełkowania
Pojedyncza próba E P E P E P E P E P E P E P E P E P E P E E E E E E E E E E P P P P P P P P P P E E E E E E P E E P E E P P P P P P P P E E P P E P E P P E E E P P E P E E P P E E E E E P P P P P P P P P P E E E E E
Próby niezaleŝne
Próby niezaleŝne Zastosowanie mediany
Miary połoŝenia
Miary połoŝenia
MiąŜszości [m3]: 0.45, 0.39, 0.35, 0.51, 0.41, 0.38, 0.42, 0.4, 0.3, 0.6 Średnia miąŝszość [m3]: 0.421 MiąŜszości [m3]: 0.45, 0.39, 0.35, 0.51, 0.41, 0.38, 0.42, 0.4, 0.3, 7.1 Średnia miąŝszość [m3]: 1.07 Mediana [m3]: 0.3, 0.35, 0.38, 0.39, 0.4, 0.41, 0.42, 0.45, 0.51, 7.1
Próby niezaleŝne Zastosowanie mediany Test median Ho: mediany w badanych populacjach są takie same H1: mediany w badanych populacjach są róŝne
Próby niezaleŝne Np. badamy dwie metody ścinki pod kątem uszkodzeń drzew
Próby niezaleŝne Np. badamy dwie metody ścinki pod kątem uszkodzeń drzew
Próby niezaleŝne Np. badamy dwie metody ścinki pod kątem uszkodzeń drzew Czy metoda A jest lepsza?
Próby niezaleŝne Np. badamy dwie metody ścinki pod kątem uszkodzeń drzew Czy metoda A jest lepsza? Liczymy ogólną medianę (Me=16)
Próby niezaleŝne Metoda A: 5 wartości < mediany, czyli PA=5/12 Metoda B: 5 wartości < mediany, czyli PB=5/9 Ho: nie ma róŝnicy między PA i PB (PA- PB=0) Obliczamy
Próby niezaleŝne Test sumy rang Manna-Whitneya Stosowany zamiast testu t w sytuacji, gdy rozkłady cechy nie są normalne
Próby niezaleŝne Test sumy rang Manna-Whitneya Stosowany zamiast testu t w sytuacji, gdy rozkłady cechy nie są normalne Łączymy próby ze sobą, sortujemy i przydzielamy rangi (gdy wartości takie same uŝywamy rang wiązanych)
Próby niezaleŝne Obliczamy sumę rang dla kaŝdej z prób przed połączeniem JeŜeli populacje mają takie same rozkłady badanej cechy, sumy rang powinny być takie same (lub przynajmniej do siebie zbliŝone)
Próby niezaleŝne Np. analizujemy termin kiełkowania nasion dwóch podgatunków modrzewia (E i P)
Próby niezaleŝne Np. analizujemy termin kiełkowania nasion dwóch podgatunków modrzewia (E i P)
Próby niezaleŝne Np. analizujemy termin kiełkowania nasion dwóch podgatunków modrzewia (E i P) Czy jest róŝnica w terminach kiełkowania tych podgatunków?
Próby niezaleŝne Analizujemy rangi dla E i P E: 2, 7, 8, 9, 11 (suma = 37) P: 1, 3, 4, 5, 6, 10 (suma = 29)
Próby niezaleŝne Analizujemy rangi dla E i P E: 2, 7, 8, 9, 11 (suma = 37) P: 1, 3, 4, 5, 6, 10 (suma = 29) Testujemy hipotezy Ho: nie ma róŝnicy w terminie kiełkowania nasion E i P H1: jest róŝnica w terminie kiełkowania nasion E i P
Próby zaleŝne
Próby zaleŝne Podobnie, jak w przypadku testów parametrycznych, test dotyczy nie wartości cechy w populacjach, ale róŝnicy cech dla par spostrzeŝeń Ho: mediana róŝnic między wartościami sparowanymi = 0 Statystyka testowa: liczba róŝnic + JeŜeli Ho jest prawdziwa, liczba róŝnic na + i powinna być równa
Próby zaleŝne Test znaków dla prób zaleŝnych Np. Badamy liczbę nasion w strąkach robinii. Interesuje nas, czy liczba zdrowych nasion w strąkach z górnej części korony jest inna, niŝ w dolnej części korony. Badaniu podlegają straki pobrane z 10 drzew
Próby zaleŝne Na podstawie tych danych obliczamy statystykę testu (z) i porównujemy ją z wartością krytyczną dla rozkładu normalnego
Test Wilcoxona Próby zaleŝne Testowi równieŝ podlega mediana róŝnic między parami obserwacji Ale do testu wykorzystuje się rangi okreslone na podstawie wartości absolutnych róŝnic między parami obserwacji
Próby zaleŝne Suma R+ = 47 Suma R- = 8 Statystyka testu = min(r+, R-) = 8 Porównanie z wartością krytyczną i decyzja (tu 8 < 10)
Próby zaleŝne Test Wilcoxona jest podobny do testu znaków dla prób zaleŝnych MoŜna je stosować w tych samych sytuacjach Test Wilcoxona uwzględnia więcej informacji (znak i wielkość róŝnic), dlatego jest lepszy
Rozkłady
Rozkłady W tej grupie testów omówimy test chi-kwadrat test Kołmogorowa test Kołmogorowa-Smirnova test Shapiro-Wilka
Rozkłady 1 próba Testowana jest zgodność rozkładu empirycznego z rozkładem teoretycznym test chi-kwadrat test Kołmogorowa test Shapiro-Wilka
Rozkłady 1 próba Test chi-kwadrat testuje róŝnice między częstościami klas w rozkładzie teoretycznym i empirycznym Czuły na liczbę i liczebność klas Przeznaczony do testowania hipotez dotyczących rozkładów zmiennych skokowych (dla zmiennych ciągłych statystyka daje tylko przybliŝenie)
Rozkłady 1 próba Test Kołmogorowa testuje róŝnice między skumulowanymi liczebnościami klas (dystrybuantami) rozkładu teoretycznego i empirycznego Przeznaczony do testowania hipotez dotyczących rozkładów zmiennych ciągłych Modyfikacja: normalizacja statystyki wielkością próby
Rozkłady 1 próba Test Shapiro-Wilka testuje hipotezę, Ŝe rozkład empirycznyc jest zgodny z rozkładem normalnym
Rozkłady 2 próby Test Kołmogorowa-Smirnova testuje hipotezę, Ŝe dwie próby zostały pobrane z tej samej populacji lub z populacji o takich samych rozkładach Wykorzystuje (standaryzowaną) róŝnicę między skumulowanymi liczebnościami (dystrybuantami) rozkładów
ANOVA
ANOVA? Ze względu na załoŝenia nie zawsze moŝemy wykonać analizę wariancji Nieparametryczny odpowiednik ANOVA - test Kruskala-Wallisa Zamiast średnich testowane są mediany Rozwinięcie testu Wilcoxona dla prób niezaleŝnych (wykorzystuje rangi)
Test Kruskala-Wallisa KaŜdej obserwacji przypisuje się rangę (dla całości doświadczenia) Warianty doświadczenia / poziomy czynnika Oblicza się statystykę testową
Test Kruskala-Wallisa Np. Czy branŝa, w której absolwent wyŝszej uczelni znajduje pierwszą pracę, decyduje o wielkości wynagrodzenia?
Test Kruskala-Wallisa Ho: początkowe wynagrodzenia w poszczególnych branŝach są takie same
Test Kruskala-Wallisa Hobl = 4,13 Krytyczna wartość chi2 = 7,81 Brak podstaw do odrzucenia Ho o równości wynagrodzeń
Siła związku
Siła związku Współczynnik korelacji rang Spearmana (1904) Wykorzystuje rangi do badania siły związku między cechami MoŜna równieŝ wykorzystać do testowania hipotezy, Ŝe nie ma związku między badanymi populacjami
Dziekuje za uwagę!