ANALIZA WARIANCJI - PRZYPOMNIENIE

Podobne dokumenty
ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Jednoczynnikowa analiza wariancji

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

MODELE LINIOWE. Dr Wioleta Drobik

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Analiza wariancji - ANOVA

Elementy statystyki STA - Wykład 5

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

PDF created with FinePrint pdffactory Pro trial version

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Analiza wariancji - ANOVA

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testy post-hoc. Wrocław, 6 czerwca 2016

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Analiza wariancji. dr Janusz Górczyński

Elementy statystyki wielowymiarowej

Analiza wariancji i kowariancji

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Zmienne zależne i niezależne

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Przykład 1. (A. Łomnicki)

Statystyka i Analiza Danych

Analizy wariancji ANOVA (analysis of variance)

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

METODY STATYSTYCZNE W BIOLOGII

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Dwuczynnikowa ANOVA dla prób niezależnych w schemacie 2x2

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

STATYSTYKA MATEMATYCZNA

Regresja liniowa wprowadzenie

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Rozdział 8. Regresja. Definiowanie modelu

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Metody Ilościowe w Socjologii

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Ocena wartości hodowlanej. Dr Agnieszka Suchecka

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

ANALIZA WARIANCJI - KLASYFIKACJA WIELOCZYNNIKOWA

Zadania ze statystyki cz.8. Zadanie 1.

Własności statystyczne regresji liniowej. Wykład 4

JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

KORELACJE I REGRESJA LINIOWA

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Matematyka i statystyka matematyczna dla rolników w SGGW

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Wydział Matematyki. Testy zgodności. Wykład 03

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie...

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Wykład 3 Hipotezy statystyczne

Pobieranie prób i rozkład z próby

Efekt główny Efekt interakcyjny efekt jednego czynnika zależy od poziomu drugiego czynnika Efekt prosty

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Testowanie hipotez statystycznych

Analiza wariancji, część 2

JEDNOCZYNNIKOWA ANOVA

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

WNIOSKOWANIE STATYSTYCZNE

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Wojciech Skwirz

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

5. WNIOSKOWANIE PSYCHOMETRYCZNE

Transkrypt:

ANALIZA WARIANCJI - PRZYPOMNIENIE Dr Wioleta Drobik

ANALIZA WARIACJI Podział zaobserwowanej zmienności (wariancji) na zmienność między grupami i w obrębie grup Pozwala na ocenę istotności różnic wielu średnich, hipoteza zerowa: H 0 : µ 1 = µ 2 =... = µ t Założenia: Zmienne objaśniające są niezależne Cecha ma rozkład normalny dopuszczalne są niewielkie odstępstwa często badane są wyłącznie reszty (czynnik losowy) Wariancje są jednorodne (homogeniczność wariancji)

ANALIZA WARIACJI Rodzaje analizy wariancji: ANOVA - jednowymiarowa analiza wariancji : Jednoczynnikowa wpływ jednego czynnika na jedną zmienną zależną Wieloczynnikowa - wpływ kilku czynników na jedną zmienną zależną MANOVA - wielowymiarowa analiza wariancji wpływ kilku czynników na kilka zmiennych zależnych Model Y ~ X Y ~ X 1 + X 2 Y ~ X 1 * X 2 Y ~ X 1 + X 2 + X 1 : X 2 Znaczenie Jednoczynnikowa analiza wariancji Dwuczynnikowa analiza wariancji Dwuczynnikowa analiza wariancji z interakcją Dwuczynnikowa analiza wariancji z interakcją (inny zapis)

ANALIZA WARIACJI Model liniowy analizy wariancji: Gdzie: y ij j-ta obserwacja z i-tej grupy µ średnia wartość cechy w populacji i efekt i-tej grupy e ij błąd czyli efekt związany ze zmiennością osobniczą, przypadkową, niewyjaśnioną modelem, może być również błędem pomiaru

ANALIZA WARIACJI Tabela wariancji Źródło zmienności Lss SKO ŚKO = SKO/Lss Statystyka F Ogólna N-1 SKO - - Między grupami Wewnątrz grup k-1 SKO MG = ŚKO MG F=ŚKO MG /ŚKO WG N-k SKO WG = ŚKO WG - Gdzie: N liczba wszystkich obserwacji k liczba grup SKO suma kwadratów odchyleń ŚKO średni kwadrat odchyleń

ANALIZA WARIACJI Czy metoda wyznaczania struktury drugorzędowej białka ma wpływ na dokładność? Białko Metoda Dokładność Ubikwityna CF AVG 0.467 Ubikwityna GOR 0.645 Ubikwityna PHD 0.868 DeoxyHb CF AVG 0.472 DeoxyHb GOR 0.844 DeoxyHb PHD 0.879 Rab5c CF AVG 0.405 Rab5c GOR 0.604 Rab5c PHD 0.787 Prealbumina CF AVG 0.449 Prealbumina GOR 0.772 Prealbumina PHD 0.780 Przykład opisany szczegółowo w książce: Seefeld K.,Linder E. 2007. Statistics Using R with Biological Examples

ANOVA W R

ANALIZA WARIANCJI - ZAŁOŻENIA Testowanie jednorodności wariancji Test F test F-Snedecora dla dwóch prób Test Barletta dla wielu prób Test Leven a dla wielu prób Test Barletta ma wyższa moc niż test Leven a, jednak nie może być stosowany przy odstępstwach od normalności rozkładu Przy braku pewności co do normalności rozkładu wyniki testu Leven a będą bardziej wiarygodne, niż testu Barletta

ANALIZA WARIANCJI ROZKŁAD ZMIENNEJ ZALEŻNEJ

ANALIZA WARIANCJI ROZKŁAD RESZT

ANALIZA WARIANCJI - ZAŁOŻENIA Czy wariancje w grupach są jednorodne? Prawdopodobieństwo testowe jest wyższe niż 0,05 brak podstaw do odrzucenia hipotezy zerowej wariancje w grupach nie różnią się istotnie Przeciwny wynik

ANALIZA WARIANCJI Wyniki analizy Prawdopodobieństwo testowe jest mniejsze od 0,01, w związku z czym odrzucamy hipotezę zerową wysoko istotnie Dokładność oceny struktury drugorzędowej zależy od stosowanej metody Które metody różnią się dokładnością?

TEST POST - HOC Testy post-hoc wykonujemy, jeżeli różnice pomiędzy grupami są istotne. Najczęściej stosowane testy: Test Tukeya (inaczej UIR - test uczciwie istotnych różnic) Powinien być stosowany jedynie dla zrównoważonego układu doświadczenia podobna liczba obserwacji we wszystkich grupach LSD Fishera (inaczej NIR - najmniejsza istotna różnica) nie zakłada się równoliczności grup Polega na wykonaniu k(k-1)/2 testów t-studenta i zastosowaniu korekty na liczbę przeprowadzonych testów np. Holm, Bonferroni, fdr

ANALIZA WARIANCJI Które metody różnią się dokładnością? Test post-hoc Tukeya: Zestawienie grup Różnica 95% przedział ufności Prawdopodobieństwo testowe dla każdego zestawienia

ANOVA DWUCZYNNIKOWA Model: Gdzie: y ijk k-ta obserwacja z i-tej i j-tej grupy µ średnia wartość cechy w populacji i efekt i-tej grupy i efekt j-tej grupy e ijk błąd czyli efekt związany ze zmiennością osobniczą, jak i błąd pomiaru (αβ) ij efekt interakcji pomiędzy czynnikami

ANOVA DWUCZYNNIKOWA Interakcje Interakcją nazwiemy niejednakową reakcję jednego czynnika na zmianę poziomu drugiego czynnika Nieaddytywne działanie jednego czynnika z drugim W modelu zachowujemy jedynie istotne statystycznie interakcje, co zwiększa siłę działania czynników głównych Jeśli interakcja jest istotna nie ma możliwości porównywania średnich dla czynników głównych konieczne jest indywidualne porównanie poszczególnych podgrup

ANOVA DWUCZYNNIKOWA Różnice pomiędzy metodami są istotne, ale pomiędzy białkami już nie

ANOVA DWUCZYNNIKOWA Czu pomiędzy badanym białkiem a metodą zachodzi interakcja? Interakcja występuje, jeżeli linie będą się przecinać

ANOVA DWUCZYNNIKOWA Brak statystyki F i prawdopodobieństwa testowego wynika z braku podstaw do testowania istotności przy zbyt małej próbie Zbyt mało danych aby oszacować efekt interakcji

ANOVA DWUCZYNNIKOWA Czy istnieje zależność między statusem oraz płcią a grubością guza? Czy pomiędzy zmiennymi płeć i status istnieje interakcja? Czy powinna być uwzględniona w modelu?

JEDNOCZYNNIKOWA VS WIELOCZYNNIKOWA ANOVA Istnieje możliwość przeprowadzenia jednoczynnikowej analizy wariancji oddzielnie dla wszystkich zmiennych objaśniających Wady takiego postępowania: Utrata informacji o zależnościach między zmiennymi objaśniającymi Większa wariancja trudniej stwierdzić istotność niektórych zmiennych Zmiennych objaśniających nie powinno być zbyt dużo: Wraz ze wzrostem liczby zmiennych maleje dokładność oceny efektów modelu Idealna sytuacja: min 30 obserwacji na każdą kombinację czynników

ANALIZA REGRESJI WIELOKROTNEJ

REGRESJA WIELOKROTNA Wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y) Najczęściej stosowanym modelem jest regresja wielokrotna liniowa Model: Gdzie p jest liczbą zmiennych X i zbiór kolumn opisujących zmienną i i wektor współczynników odpowiadających zmiennej i

REGRESJA WIELOKROTNA

REGRESJA WIELOKROTNA Interpretacja współczynników jest jak w przypadku regresji prostej: Stała regresji jest to szacowana średnia wartość zmiennej objaśniającej Y, gdy wszystkie zmienne niezależne (X i ) są równe 0 Cząstkowe współczynniki regresji - szacowana średnia zmiana wartości zmiennej objaśniającej Y, gdy wartość zmiennej niezależnej (X i ) zwiększy się o jednostkę

REGRESJA WIELOKROTNA Problemy: Jak dobrać zmienne? Jak zinterpretować współczynniki regresji? Jak poradzić sobie z ewentualną współliniowością zmiennych objaśniających? Czy zmienne objaśniające są niezależne? Zbyt mała liczba obserwacji w stosunku do liczby zmiennych objaśniających

WSPÓŁLINIOWOŚĆ ZMIENNYCH VIF (ang. variance inflation factor) o ile wariancje współczynników są zawyżone z powodu zależności liniowych w badanym modelu regresji Funkcja vif(model) w R wyświetla wektor wartości współczynnika VIF dla każdej zmiennej objaśniającej Zmienne objaśniające są współliniowe, gdy są mocno skorelowane ze sobą Może to skutkować zawyżonym oszacowaniem współczynników i dużymi wartościami błędów standardowych

ZALEŻNOŚCI POMIĘDZY ZMIENNYMI

KRYTERIA OCENY MODELU GIC (ang. Generalized Information Criterion) oparte na funkcji wiarygodności i karze za liczbę elementów w modelu h pewien współczynnik, k - liczba parametrów w modelu M, logl(m y,x) funkcja wiarygodności dla modelu Specjalne przypadki: AIC (h=2), BIC (h=log(n)) Idealny model w jak najlepszy sposób wyjaśnia zmienność zbioru danych wykorzystując przy tym jak najmniej parametrów (k)

KRYTERIA OCENY MODELU R 2 współczynnik determinacji (omówiony na wykładzie o regresji liniowej) można stosować do porównywania modeli tylko wtedy, gdy nie różnią się one liczbą zmiennych objaśniających Poprawiony R 2 uwzględnia dodatkowo liczbę zmiennych w modelu im wyższa wartość tym lepszy model

KRYTERIA OCENY MODELU Kryterium Akaike (AIC ang. Akaike information criterion) Interpretacja: Im mniejsza wartość tym lepiej Nie unormowany tylko do porównań między modelami Wzór: Gdzie: k liczba parametrów modelu (złożoność modelu) L maksimum funkcji największej wiarygodności (precyzja modelu)

KRYTERIA OCENY MODELU Kryterium Schwartza (ang. BIC Bayesian information criterion) Interpretacja jak w przypadku AIC im mniejsza wartość tym lepiej Większa kara za złożoność modelu niż AIC Gdzie: k liczba parametrów modelu L maksimum funkcji największej wiarygodności n liczba obserwacji

MODEL Z KILKOMA ZMIENNYMI OBJAŚNIAJĄCYMI Doboru odpowiednich zmiennych możemy dokonać wykorzystując funkcję step step(nazwa_modelu, direction = c("both", "backward", "forward"), steps = 1000) Funkcja ta znajduje najlepiej dopasowany model do naszych danych metodą krokową Domyślnie kryterium wyboru jest AIC wybierając k=log(n) zmieniamy kryterium na kryterium Schwartza (BIC)

WYBÓR ZMIENNYCH OBJAŚNIAJĄCYCH Metoda budowy modelu jest określona w zależności od wyboru parametru direction : Backward (wtecz) - z modelu zawierającego wszystkie zmienne objaśniające usuwane są najmniej istotne zmienne, dopóki wszystkie zmienne w modelu będą istotne Forward (wprzód) - określa metodę dodawania najbardziej istotnych zmiennych do modelu zawierającego tylko wyraz wolny Both - oznacza metodę, którą do modelu dodajemy zmienną istotną posiadającą najmniejszą p-value, a następnie usuwamy zmienną nieistotną z największą p-value. Kroki te są powtarzane aż model przestaje ulegać zmianie

REGRESJA WIELOKROTNA PRZYKŁAD W R Baza alkohol: cirrhosis marskość wątroby oop ludność zamieszkująca w miastach liquor Spożycie wysokoprocentowego alkoholu na mieszkańca wine spożycie wina na mieszkańca lb liczba urodzeń przez kobiety w wieku 45-49 Źródło danych i tutorial: http://scg.sdsu.edu/mlr-r/

KORELACJE

MODEL

REGRESJA KROKOWA Metoda: wstecz z modelu zawierającego wszystkie zmienne usuwamy po jednej sprawdzamy wartość AIC

MODEL Model po usunięciu zmiennej liquor

ŹRÓDŁA Biecek P. 2013. Analiza danych z programem R. Wydawnictwo naukowe PWN. Warszawa Olech W., Wieczorek M. 2010. Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym. Wydawnictwo SGGW.