ANALIZA WARIANCJI (ANOVA) Spis treści

Podobne dokumenty
STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Weryfikacja hipotez dla wielu populacji

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Natalia Nehrebecka. Zajęcia 4

brak podstaw do odrzucenia hipotezy zerowej.

65120/ / / /200

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

Nieparametryczne Testy Istotności

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Egzamin ze statystyki/ Studia Licencjackie Stacjonarne/ Termin I /czerwiec 2010

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

Natalia Nehrebecka. Zajęcia 3

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Prawdopodobieństwo i statystyka r.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Proces narodzin i śmierci

TESTY NORMALNOŚCI. ( Cecha X populacji ma rozkład normalny). Hipoteza alternatywna H1( Cecha X populacji nie ma rozkładu normalnego).

Natalia Nehrebecka. Wykład 2

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Procedura normalizacji

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

Instrukcja do ćwiczeń laboratoryjnych z przedmiotu: Badania operacyjne. Temat ćwiczenia: Problemy rozkroju materiałowego, zagadnienia dualne

0 0,2 0, p 0,1 0,2 0,5 0, p 0,3 0,1 0,2 0,4

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Rozwiązania (lub wskazówki do rozwiązań) większości zadań ze skryptu STATYSTYKA: MATERIAŁY POMOCNICZE DO ZAJĘĆ oraz EGZAMINÓW Z LAT

Przykład 5.1. Kratownica dwukrotnie statycznie niewyznaczalna

BADANIA ZALEŻNOŚCI GRUBOŚCI POWIERZCHNIOWEJ WARSTWY KOMPOZYTOWEJ OD WIELKOŚCI ODLEWU I RODZAJU WKŁADKI KOMPOZYTUJĄCEJ


Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

STATYSTYCZNA ANALIZA WYNIKÓW POMIARÓW

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Statystyka Inżynierska

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Dobór zmiennych objaśniających

Minister Edukacji Narodowej Pani Katarzyna HALL Ministerstwo Edukacji Narodowej al. J. Ch. Szucha Warszawa Dnia 03 czerwca 2009 r.

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Podstawy teorii falek (Wavelets)

Sortowanie szybkie Quick Sort

Natalia Nehrebecka. Dariusz Szymański

± Δ. Podstawowe pojęcia procesu pomiarowego. x rzeczywiste. Określenie jakości poznania rzeczywistości

Analiza struktury zbiorowości statystycznej

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

STATYSTYKA. Zmienna losowa skokowa i jej rozkład

Problem plecakowy (KNAPSACK PROBLEM).

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

1.1. Uprość opis zdarzeń: 1.2. Uprościć opis zdarzeń: a) A B A Uprościć opis zdarzeń: 1.4. Uprościć opis zdarzeń:

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Hipotezy o istotności oszacowao parametrów zmiennych objaśniających ˆ ) ˆ

Metody predykcji analiza regresji

Testowanie hipotez statystycznych.

SZTUCZNA INTELIGENCJA

Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

Parametry zmiennej losowej

Wykład 1 Zagadnienie brzegowe liniowej teorii sprężystości. Metody rozwiązywania, metody wytrzymałości materiałów. Zestawienie wzorów i określeń.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

1. Komfort cieplny pomieszczeń

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

Zarządzanie ryzykiem w przedsiębiorstwie i jego wpływ na analizę opłacalności przedsięwzięć inwestycyjnych

PROGNOZOWANIE SPRZEDAŻY Z ZASTOSOWANIEM ROZKŁADU GAMMA Z KOREKCJĄ ZE WZGLĘDU NA WAHANIA SEZONOWE

Analiza regresji modele ekonometryczne

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Statystyka. Zmienne losowe

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

Wstęp. Obliczenia własne na podstawie: Budżety (2015), s. 116.

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna

STATYSTYKA: MATERIAŁY POMOCNICZE DO ZAJĘĆ

RÓWNOWAGA STACKELBERGA W GRACH SEKWENCYJNYCH

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

Portfele zawierające walor pozbawiony ryzyka. Elementy teorii rynku kapitałowego

Regresja liniowa i nieliniowa

Elementy statystyki STA - Wykład 5

Badanie współzaleŝności dwóch cech ilościowych X i Y. Analiza korelacji prostej. Badanie zaleŝności dwóch cech ilościowych. Analiza regresji prostej

PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

7.8. RUCH ZMIENNY USTALONY W KORYTACH PRYZMATYCZNYCH

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Egzamin poprawkowy z Analizy II 11 września 2013

Kształtowanie się firm informatycznych jako nowych elementów struktury przestrzennej przemysłu

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Rachunek prawdopodobieństwa i statystyka W 11: Analizy zależnościpomiędzy zmiennymi losowymi Model regresji wielokrotnej

Transkrypt:

ANALIZA WARIANCJI (ANOVA) Sps treśc. JEDNOCZYNNIKOWA ANALIZA WARIANCJI.... DWUCZYNNIKOWA ANALIZA WARIANCJI... 8 3. TESTY ZAŁOŻEŃ W ANALIZIE WARIANCJI... 3 3.. Test normalnośc... 4 3. Test Bartleta ednorodnośc waranc... 6 Zadana:... 8

. JEDNOCZYNNIKOWA ANALIZA WARIANCJI Wprowadzene Analza waranc (ANOVA) służy do testowana hpotezy o równośc średnch w różnych populacach (podgrupach). Ich lczba może być wększa nż dwa, mmo to test est wykonywany tylko raz. W ogólnym przypadku wymagane est spełnane przez dane dwóch założeń: badana zmenna ma rozkład normalny w każde z podgrup waranca te zmenne we wszystkch badanych podgrupach est ednakowa Ponadto wymaga sę aby z każde populac próby były losowane nezależne od sebe.

Analzę waranc można równeż potraktować ako test, którego wynk mów czy akaś akoścowa zmenna klasyfkuąca (X) ma wpływ na badaną zmenną loścową (Y). Przykładowo, można zastanawać sę czy na dochody gospodarstwa domowego ma wpływ kwartał, w którym te dochody są uzyskwane albo czy nadwyżka dochodu nad konsumpcą zależy od weku głowy gospodarstwa. Ogólna dea analzy waranc polega na porównanu zróżncowana średnch pomędzy grupam (SSB; stosue sę też oznaczena SSTR, a w polske lteraturze SKM) wewnątrz grup (SSE; w polske lteraturze także SKW). Jeżel zróżncowane mędzygrupowe est duże w porównanu ze zróżncowanem wewnątrzgrupowym, to uznaemy że zmenna klasyfkuąca ma wpływ na zmenną badaną. Przez duże zróżncowane należy rozumeć taką ego wartość, która sprawa, ze statystyka testowa znadze sę w obszarze odrzuceń. 3

Przykład (lustruący ogólną flozofę analzy waranc) Jeżel w Seme odbywa sę głosowane nad akmś proektem zróżncowane głosów pomędzy partam est duże, a wewnątrzpartyne małe, oznacza to, że przynależność partyna ma wpływ na to ak posłowe głosuą. Przykładu ne można traktować ako dosłowną lustracę analzy waranc, poneważ badana cecha est akoścowa. Przykład (możlwość zastosowana analzy waranc) Jeżel na średną ocenę studentów III roku SG ne wpływa mesce zameszkana (np.: akademk, wynaęte meszkane, wynaęty pokó, przy rodzne, nne), to zróżncowane średnch ocen w ramach ednego rodzau zameszkana pownno być duże w porównanu ze zróżncowanem pomędzy tym rodzaam. Śwadczy ono bowem o tym, że na średną ocenę stotneszy wpływ maą nne neuwzględnone czynnk, obawaące sę zróżncowanem wewnątrzgrupowym. Którą w przyblżenu można potraktować ako zmenną cągłą; normalność rozkładu pownna być testowana. 4

W modelu ANOVA wartość zmenne y (-ta wartość w -te grupe; =,...n ; =,...,r) można przedstawć następuąco: y m a e () gdze m oznacza średną w całe populac, a odchylene od m spowodowane dzałanem zmenne klasyfkuące (X) zaś e odchylene losowe o zerowe wartośc oczekwane. potezy można zapsać na dwa sposoby. :, k m :, k m m m k k (, k =,...,r) lub : a : a ( =,...,r) Oba zapsy oznaczaą, że wszystke średne w r grupach są ednakowe że zróżncowane est spowodowane edyne nnym nż cecha klasyfkuąca czynnkam, o charakterze losowym. 5

ANOVA wykorzystue równość warancyną, zgodne z którą łączne zróżncowane zmenne badane Y (SST) est sumą zróżncowana mędzygrupowego (SSB) spowodowanego zmenną klasyfkuącą oraz wewnątrzgrupowego (SSE) spowodowanego czynnkam losowym. Statystyka testowa ma postać następuącego lorazu waranc: F SSB/( r ) () SSE/( n r) gdze n oznacza łączną lczebność próby zaś r lczbę klas dla zmenne X. Powyższa statystyka ma rozkład F z (r-/n-r) stopnam swobody przymue tym wększą wartość m wększe est SSB w porównanu z SSE. Zatem eżel przekroczy ona wartość krytyczną właścwą dla rozkładu Fr / nr, to należy odrzucć hpotezę zerową na korzyść hpotezy alternatywne. Można wtedy stwerdzć (z odpowednm ryzykem błędu I rodzau), że przynamne dwe średne w grupach różną sę od sebe, co z kole oznacza wpływ zmenne klasyfkuące X na zmenną badaną Y. 6

Do przemyślena: Proszę podać przykład rozkładu w którym zmenne są zależne ale średne warunkowe są równe (lczebność lczba kategor dowolna) Proszę zapsać problem ANOVA ako model regres. Wynk testu w analze waranc ne pozwala odpowedzeć na pytane, które średne różną sę od sebe, pozwala edyne stwerdzć, że akaś różnca stnee. Aby odpowedzeć na perwsze pytane trzeba wykonać wele porównań poszczególnych par (w szczególnośc test Bonferronego), co est ne tylko pracochłonne, eżel ne dysponuemy odpowednm oprogramowanem, ale także zwększa prawdopodobeństwo błędu perwszego rodzau, ze względu na welokrotne testowane hpotez. 7

. DWUCZYNNIKOWA ANALIZA WARIANCJI Analza waranc pozwala także przeprowadzć test wpływu węce nż edne cechy klasyfkuące na zmenną badaną. Z uwag na kłopotlwość oblczeń w praktycznych zastosowanach welowymarowa ANOVA naczęśce ograncza sę do przypadku z klasyfkaca podwóną. Bada sę wtedy ednocześne wpływ dwóch czynnków oraz nterakc pomędzy nm, co sprawa, że należy wykonać trzy testy. Podobne ak w przypadku analzy waranc z klasyfkacą poedynczą, zasada konstrukc testu sprowadza sę do porównana zróżncowana pomędzy grupam spowodowanego nterakcą ze zróżncowanem spowodowanym czynnkam losowym. Uwaga: W podręcznku Statystyka od Podstaw autorzy zakładaą, że lczebność próby dla każde kombnac czynnka perwszego drugego est ednakowa. Założene to ne est koneczne lecz odeśce od nego wymaga modyfkac podanych tam algorytmów. 8

Analogczne do wzoru () k-tą wartość zmenne Y w grupe () można przedstawć ako sumę średne w całe populac (m) oraz odchyleń spowodowanych dzałanem dwóch cech klasyfkuących (a b ), nterakc pomędzy nm (c ) oraz losowych odchyleń (e k ) o zerowe wartośc oczekwane. y k m a b ( ab) e (3) k Czynnk, których dzałane na zmenną Y badamy są reprezentowane przez dwe zmenne akoścowe: X Z. Zgodne z dwuczynnkową równoścą warancyna łączne zróżncowane zmenne badane Y (SST) est sumą zróżncowana wynkaącego z dzałana czynnka X (SSX), zróżncowana wynkaącego z dzałana czynnka Z (SSZ), zróżncowana wynkaącego z nterakc obu czynnków (SSXZ) oraz spowodowanego czynnkam losowym (SSE). 9

W dwuczynnkowe analze waranc testowane są ednocześne trzy hpotezy a : a : b : b : (ab), : (ab), :

Odpowadaą m, odpowedno, następuące statystyk testowe F X F Z SSX /( r ) SSE/[ rs( n )] SSZ /( s ) SSE/[ rs( n )] F XZ SSXZ /[( r )( s )] SSE/[ rs( n )] gdze r s oznaczaą lczbę klas dla obu zmennych klasyfkuących zaś n est lczebnoścą podpróby dla dowolne kombnac cech (zakłada sę, że lczebnośc te są ednakowe). Powyższe statystyk maą rozkład F, lczba stopn swobody est łatwa do odgadnęca (pytane: czyl aka?)

Przykład dzałana nterakc Tak ak w podanym wcześne przykładze, sprawdzamy czy na dochody gospodarstwa domowego ma wpływ kwartał, w którym te dochody są uzyskwane. Dodaemy tym razem drugą zmenną klasyfkuącą, którą est główne źródło utrzymana gospodarstwa. Wyróżnone zostały trzy grupy gospodarstw: pracownków, rolnków emerytów. Może sę zdarzyć, że średne dochody w poszczególnych kwartałach są w populac ednakowe dla wszystkch gospodarstw, ednak osobne zbadane wszystkch trzech typów gospodarstw wykazue, że edyne dochody emerytów ne zależą od kwartału. W pozostałych typach gospodarstw taką zależność zaobserwowano: wśród pracownków dochody w I IV kwartale są wyższe od średne, wśród rolnków w II III. Odchylena te w całe badane grupe znoszą sę nawzaem, natomast mędzykwartalne zróżncowane dochodów dla w. w. grup est przykładem nterakc mędzy dwoma badanym czynnkam. Przykład est fkcyny, w rzeczywstośc w Polsce zawsko take ne ma mesca.

3. TESTY ZAŁOŻEŃ W ANALIZIE WARIANCJI Zarówno w ednoczynnkowe ak dwuczynnkowe analze waranc przymue sę dwa podstawowe założena odnośne danych: badana zmenna ma w każde z podgrup rozkład normalny waranca te zmenne we wszystkch badanych podgrupach est ednakowa Założene normalnośc rozkładu badane zmenne est mne stotne gdy próba est duża. Nektórzy statystycy uważaą też, że założene ednorodnośc waranc ne ma stotnego znaczena w ednoczynnkowe analze waranc gdy lczebnośc prób w poszczególnych podgrupach są ednakowe. W ogólnym przypadku ednak testowane obu założeń est koneczne. 3

3.. Testy normalnośc Istnee wele testów normalnośc. W podręcznkach Statystyka od Podstaw oraz Statystyka zostały omówone testy zgodnośc χ test Kołmogorowa ednak za naskuteczneszy (o nawyższe mocy) test tego typu dość powszechne uważa sę test Shapro-Wlka. Tak ak wszystke nne, opera sę on na porównanu statystyk emprycznych (uzyskanych na podstawe próby) oraz hpotetycznych, otrzymanych przy założenu normalnośc rozkładu. Duża rozbeżność mędzy nm skutkue odrzucenem hpotezy o normalnośc rozkładu zmenne. poteza zerowa mów, że próba została wylosowana z populac, w które zmenna ma rozkład normalny. Statystyka testowa testu Shapro-Wlka ma następuąca postać: W n n a ( x x ( ) X ) gdze x oraz x () ( =,,, n) są, odpowedno, elementam próby w porządku wylosowanym uporządkowanym nemaleąco, a oznaczaą stablcowane współczynnk testu. 4

Wartość krytyczną dla określone welkośc próby stotnośc testu wyznacza sę sę na podstawe specalnych tablc. Poneważ manownk ne może być mneszy od lcznka, to są to tablce o lewostronnym obszarze krytycznym (ponże ednośc). Jeżel welkość próby przekracza klkanaśce elementów, ręczne wyznaczene wartośc statystyk testowe est bardzo pracochłonne, dlatego edynym praktycznym rozwązanem est skorzystane z gotowych procedur wbudowanych w pakety statystyczno-ekonometryczne (w programe Stata est to komenda swlk). Jeżel próby lczy ponad elementów zalecana est modyfkaca w postac testu Shapro Franc (komenda sfranca). Jeżel założene normalnośc rozkładu ne est spełnone próba est mała, to można skorzystać z neparametrycznego odpowednka ednoczynnkowe analzy waranc w postac testu Kruskala-Wallsa. Jego stotą est porównywane rang zmennych zamast porównań ch wartośc. Jednym z celów tego zabegu est osłabene wpływu wartośc netypowych na wynk oraz unezależnene tego wynku od typu rozkładu badanych zmennych. 5

6 3. Test Bartleta ednorodnośc waranc Jeżel testuemy dentyczność dwóch waranc, to można posłużyć sę testem F, ednak w analze waranc naczęśce mamy do czynena z co namne trzema warancam korzystne est sprawdzć ch dentyczność za pomocą ednego testu. Takm testem est np. test Bartleta., :, :

7 Dla każde z podprób (których lczba wynos r) należy oblczyć neobcążoną warancę S. Statystyka testowa ma postać: r n n r M r ) 3( ln gdze n oznacza lczebność -te podpróby, n lczebność całe próby zaś )ln ( ) ( )ln ( r r S n S n r n r n M Statystyka λ ma rozkład χ z r- stopnam swobody.

Zadana:. Wykonano test ANOVA dla trzech średnch w różnych populacach. Został wykonany równeż test równośc dla dwóch spośród trzech średnch nakazał odrzucene hpotezy zerowe przy pozome stotnośc mnesze nż,. Czy: a/ test ANOVA nakaże odrzucene hpotezy zerowe przy pozome,5, b/ Jeżel statystyka F w teśce ANOVA nakaże odrzucć hpotezę zerową, to równeż test każde dowolne pary średnch nakaże odrzucć hpotezę zerową. c/ na podstawe wartośc edne z wykorzystanych statystyk testowych statystyk testowe można ocenć słę zależnośc medzy zmenna obaśnaną klasyfkuącą.. Rozkład zmenne Y w trzech grupach est następuący (w tabel podane są lczebnośc): Y A B C 4 6 4 8 3 4 8 4 4 6 Bez oblczana statystyk testowe należy podać wynk testu ANOVA. Jake założena testu mogą być naruszone? Jake rozwązane można zaproponować w take sytuac? 3. Urząd Antymonopolowy przeprowadzł badane odnośne ewentualne zmowy cenowe w meśce XY. Za przeawy take zmowy uważa sę ednoczesne występowane dwóch zawsk: średna cena w meśce est wyższa od cen w nnych mastach, podczas gdy zróżncowana cen w tym meśce est mnesze od występuącego w nnych mastach. Z XY 9 nnych mast podobne welkośc wylosowano po 5 przedsęborstw, przeprowadzaąc następne dwa testy: a/ test Bartleta, w którym statystyka przyęła wartość,4, b/ test ANOVA, uzyskuąc wartość statystyk,. Czy powyższe wynk wskazuą na występowane zmowy cenowe w XY? 4. Proszę podać własny przykład nterakc wpływu dwóch cech akoścowych na badaną zmenną cągłą. 8