STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Podobne dokumenty
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Testy nieparametryczne

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Przykład 1. (A. Łomnicki)

STATYSTYKA MATEMATYCZNA

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Wykład 11 Testowanie jednorodności

1 Estymacja przedziałowa

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Statystyka matematyczna dla leśników

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie...

Wykład 9 Testy rangowe w problemie dwóch prób

Statystyka w zarządzaniu : pełny wykład / Amir D. Aczel. wyd. 1, dodr. 5. Warszawa; Spis treści

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Test t-studenta dla jednej średniej

Metodologia badań psychologicznych. Wykład 12. Korelacje

Wykład 10 Testy jednorodności rozkładów

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Wydział Matematyki. Testy zgodności. Wykład 03

Analizy wariancji ANOVA (analysis of variance)

Jednoczynnikowa analiza wariancji

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

STATYSTYKA MATEMATYCZNA

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

KORELACJE I REGRESJA LINIOWA

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

JEDNOCZYNNIKOWA ANOVA

Test U Manna-Whitneya : Test H Kruskala-Wallisa Test Wilcoxona

Spis treści 3 SPIS TREŚCI

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Hipotezy statystyczne

Rozkłady statystyk z próby

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Badania eksperymentalne

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

WNIOSKOWANIE STATYSTYCZNE

Analiza regresji - weryfikacja założeń

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Wykład 3 Hipotezy statystyczne

Zadania ze statystyki cz.8. Zadanie 1.

Hipotezy statystyczne

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

R-PEARSONA Zależność liniowa

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną. laboratoria 30 zaliczenie z oceną

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

Testowanie hipotez statystycznych.

Statystyka i Analiza Danych

PDF created with FinePrint pdffactory Pro trial version

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Analiza wariancji i kowariancji

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Testy nieparametryczne

Testy post-hoc. Wrocław, 6 czerwca 2016

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Elementarne metody statystyczne 9

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych. Laboratorium VI: Testy nieparametryczne

Efekt główny Efekt interakcyjny efekt jednego czynnika zależy od poziomu drugiego czynnika Efekt prosty

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

Weryfikacja hipotez statystycznych

Wykład 5 Teoria eksperymentu

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Wykład dla studiów doktoranckich IMDiK PAN. Biostatystyka I. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Transkrypt:

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności rozkładu z rozkładem normalnym testy: - Chi-kwadrat - Shapiro-Wilksa -Kołmogorowa-Smirnova

Metody sprawdzania założeń w analizie wariancji (c.d.): Niezależność obserwacji: obserwacje powinny być wzajemnie nieskorelowane, czyli nie powinna występować autokorelacja -Sprawdzanie niezależności obserwacji Test Durbina-Watsona (obserwacje powinny być ułożone w właściwym porządku, np. jeśli obserwacje pozyskiwane były przez pewien czas, wskazane jest ich ułożenie w kolejności takiej, w jakiej były pozyskiwane)

Metody sprawdzania założeń w analizie wariancji (c.d.): -Analiza graficzna reszt 0,5 Wykr.odch. od norm.: Wartości Efekt: Kody (Wykres reszt w obrębie podklasy) Ogół grup 2,5 Wykr.norm.: Wartości Efekt: Kody (Wykres reszt w obrębie podklasy) Ogół grup 0,4 2,0 0,3 1,5 Oczekiwana normalna 0,2 0,1 0,0-0,1-0,2 Oczekiwana normalna 1,0 0,5 0,0-0,5-1,0-0,3-1,5-0,4-2,0-0,5-0,5-0,4-0,3-0,2-0,1 0,0 0,1 0,2 0,3 0,4 0,5 Wartość obserwowana -2,5-0,5-0,4-0,3-0,2-0,1 0,0 0,1 0,2 0,3 0,4 0,5 Wartość obserwowana

Co robić, gdy założenia nie są spełnione? -Zastosowanie testów nieparametrycznych Test U Manna-Whitneya tylko do porównania dwóch populacji Test Kruskala-Wallisa jednoczynnikowa ANOVA nieparametryczna Test Friedmana jednoczynnikowa ANOVA nieparametryczna dla powtarzanych pomiarów -Zastosowanie uogólnionych modeli liniowych (GLM) Transformacja danych: -Przekształcenie danych mających rozkład inny niż normalny do rozkładu normalnego Często stosowane przekształcenia (transformacje): - Arc sin x -Transformacja Boxa-Coxa - logarytmowanie, potęgowanie, pierwiastkowanie itp. x λ λ 1

-Zastosowanie transformacji x Arc sin (tzw. transformacja Blissa) Stosujemy zazwyczaj dla danych mających rozkład dwumianowy wyrażonych w procentach, przyjmujących najczęściej wartości w przedziale (0-20% lub 80-100%) Transformacja Boxa-Coxa Jest to często stosowana transformacja, w przypadku rozkładów asymetrycznych (lewostronnie lub prawostronnie skośnych lub też uciętych rozkładów normalnych) Logarytmowanie x λ λ 1 Stosujemy zazwyczaj w przypadku, gdy wraz ze wzrostem wartości średniej zwiększa się wariancja (a tym samym odchylenie standardowe), czyli występuje korelacja między średnią a wariancją. Stosowanie transformacji log(x) może nie być możliwe, np. w takim przypadku jeśli zmienna przyjmuje wartość 0, wtedy można zastosować transformację log(x+1) Pierwiastkowanie Stosujemy w przypadku rozkładów zbliżonych do rozkładu Poissona, tzn. w rozkładach prawostronnie skośnych, w których wartość średnia jest zbliżona do wariancji. Podobnie jak w przypadku transformacji log(x) może występować problem, jeśli zmienna przyjmuje wartość 0 (lub wartości ujemne). Można zastosować wtedy transformację gdzie a jest określoną wartością np. a=0,5 x + a

Przykład zastosowania transformacji log 10 X 11 Histogram: liczba bakterii Oczekiwana normalna 10 liczba bakterii log10(liczba bakterii) 9 8 2500 3,40 3100 3,49 6300 3,80 150 2,18 Dane surowe Liczba obs. 7 6 5 4 3 8000 3,90 2 4500 3,65 5900 3,77 2300 3,36 7200 3,86 1 0 8 0 5000 10000 15000 20000 25000 30000 35000 X <= Granica klasy Histogram: log10(liczba bakterii) Oczekiwana normalna 800 2,90 1500 3,18 2900 3,46 15000 4,18 10500 4,02 Dane transformowane Liczba obs. 7 6 5 4 8900 3,95 3 600 2,78 2 1500 3,18 1 35000 4,54 0 2,0 2,5 3,0 3,5 4,0 4,5 5,0 X <= Granica klasy

Problemy związane z transformacją 1) Brak możliwości transformowania niektórych rozkładów do rozkładu normalnego, np. nie da się przekształcić zmiennej skokowej do zmiennej ciągłej, tak więc w przypadku jeśli zmienna jest zmienną skokową (dyskretną), która przyjmuje niewielką liczbę wartości (np. 1, 2, 3, 4 i 5) to niemożliwe jest zastosowanie transformacji, tak aby rozkład tej zmiennej był rozkładem normalnym 2) Trudności w interpretacji wyników. Ze względu na to, że po transformacji wartości parametrów (np. wartość średnia) ulegają zmianie, to nie można wnioskować np.. O procentowej różnicy między średnimi na podstawie parametrów obliczonych na zmiennej transformowanej. Jeśli pomimo stosowania różnych transformacji założenia analizy wariancji nadal nie są spełnione, to można zamiast ANOVY zastosować testy nieparametryczne. Jedną z wad testów nieparametrycznych jest mniejsza ich moc, tzn. odrzucenie hipotezy zerowej jest zazwyczaj trudniejsze, tak więc powinniśmy je stosować tylko wtedy, gdy testy parametryczne (np.. ANOVA) nie mogą być stosowane

test U Manna-Whitneya - porównanie 2 populacji o dowolnych rozkładach Test U Manna-Whitneya (inna nazwa: test rang Wilcoxona) służy do porównania zgodności dwóch rozkładów. Statystyką testową jest wartość U Wartość U jest tym większa im jest większa różnica między rangami dla badanych grup Rangi poszczególnym wartościom obserwacji są nadawane w ten sposób, że po uporządkowaniu w kolejności rosnącej wartości z obydwu badanych prób (populacji) przyporządkowujemy im wartości kolejnych liczb naturalnych (w przypadku powtarzania się tej samej wartości wiele razy stosuje się uśrednioną wartość rangi dla tych wartości)

test Kruskala-Wallisa - porównanie wielu populacji o dowolnych rozkładach Statystyką testową jest wartość K (oznaczana również jako H) Wartość K jest tym większa im jest większa różnica między rangami dla badanych grup Podobnie jak w przypadku testu U Manna-Whitneya rangi poszczególnym wartościom obserwacji są nadawane po uporządkowaniu w kolejności rosnącej wartości z wszystkich badanych prób. Jeśli odrzucimy hipotezę zerową w teście Kruskalla-Wallisa (czyli jeśli p dla testu będzie mniejsze od wartości α) to stwierdzamy, że co najmniej dwie populacje różnią się pod względem rozkładów badanej cechy. Zazwyczaj interesuje nas które populacje różnią się istotnie statystycznie. Aby odpowiedzieć na to pytanie wykonujemy porównania wielokrotne wszystkich możliwych par badanych populacji.

Procedura porównań wielokrotnych w teście Kruskalla-Wallisa Obliczamy wartości średnie rang dla badanej populacji wg wzoru: R = i R n i i gdzie R i jest sumą rang dla danej grupy (populacji), a n i jest liczebnością obserwacji w tej grupie Wartość krytyczną, która jest odpowiednikiem NIR obliczamy wg wzoru: Gdzie χ 2 jest wartością krytyczną dla testu chi-kwadrat, k- liczba porównywanych grup, n- całkowita liczebność obserwacji, n i, n j liczebność porównywanych grup Jeżeli wartość bezwzględna różnicy rang D = R i R j Jest większa od D* to stwierdzamy, że porównywane grupy różnią się istotnie statystycznie między sobą

test Friedmana - porównanie wielu populacji zależnych (np. powtarzanych pomiarów na tych samych obiektach: roślinach wieloletnich, ludziach itp.) o dowolnych rozkładach Test ten może być alternatywą dla jednoczynnikowej analizy wariancji w układzie losowanych bloków, przy niespełnieniu założeń. Przykład zastosowania: Porównanie stopnia porażenia przez choroby kilku odmian jabłoni (stopień porażenia wyrażony w skali kilkustopniowej np. od 1-5). Porażenie oceniamy w kilku terminach na tych samych drzewach, które traktujemy jako powtarzane pomiary (bloki).