ANALIZA WARIANCJI (ANOVA) Sps treśc. JEDNOCZYNNIKOWA ANALIZA WARIANCJI.... DWUCZYNNIKOWA ANALIZA WARIANCJI... 8 3. TESTY ZAŁOŻEŃ W ANALIZIE WARIANCJI... 3 3.. Test normalnośc... 4 3. Test Bartleta ednorodnośc waranc... 6 Zadana:... 8
. JEDNOCZYNNIKOWA ANALIZA WARIANCJI Wprowadzene Analza waranc (ANOVA) służy do testowana hpotezy o równośc średnch w różnych populacach (podgrupach). Ich lczba może być wększa nż dwa, mmo to test est wykonywany tylko raz. W ogólnym przypadku wymagane est spełnane przez dane dwóch założeń: badana zmenna ma rozkład normalny w każde z podgrup waranca te zmenne we wszystkch badanych podgrupach est ednakowa Ponadto wymaga sę aby z każde populac próby były losowane nezależne od sebe.
Analzę waranc można równeż potraktować ako test, którego wynk mów czy akaś akoścowa zmenna klasyfkuąca (X) ma wpływ na badaną zmenną loścową (Y). Przykładowo, można zastanawać sę czy na dochody gospodarstwa domowego ma wpływ kwartał, w którym te dochody są uzyskwane albo czy nadwyżka dochodu nad konsumpcą zależy od weku głowy gospodarstwa. Ogólna dea analzy waranc polega na porównanu zróżncowana średnch pomędzy grupam (SSB; stosue sę też oznaczena SSTR, a w polske lteraturze SKM) wewnątrz grup (SSE; w polske lteraturze także SKW). Jeżel zróżncowane mędzygrupowe est duże w porównanu ze zróżncowanem wewnątrzgrupowym, to uznaemy że zmenna klasyfkuąca ma wpływ na zmenną badaną. Przez duże zróżncowane należy rozumeć taką ego wartość, która sprawa, ze statystyka testowa znadze sę w obszarze odrzuceń. 3
Przykład (lustruący ogólną flozofę analzy waranc) Jeżel w Seme odbywa sę głosowane nad akmś proektem zróżncowane głosów pomędzy partam est duże, a wewnątrzpartyne małe, oznacza to, że przynależność partyna ma wpływ na to ak posłowe głosuą. Przykładu ne można traktować ako dosłowną lustracę analzy waranc, poneważ badana cecha est akoścowa. Przykład (możlwość zastosowana analzy waranc) Jeżel na średną ocenę studentów III roku SG ne wpływa mesce zameszkana (np.: akademk, wynaęte meszkane, wynaęty pokó, przy rodzne, nne), to zróżncowane średnch ocen w ramach ednego rodzau zameszkana pownno być duże w porównanu ze zróżncowanem pomędzy tym rodzaam. Śwadczy ono bowem o tym, że na średną ocenę stotneszy wpływ maą nne neuwzględnone czynnk, obawaące sę zróżncowanem wewnątrzgrupowym. Którą w przyblżenu można potraktować ako zmenną cągłą; normalność rozkładu pownna być testowana. 4
W modelu ANOVA wartość zmenne y (-ta wartość w -te grupe; =,...n ; =,...,r) można przedstawć następuąco: y m a e () gdze m oznacza średną w całe populac, a odchylene od m spowodowane dzałanem zmenne klasyfkuące (X) zaś e odchylene losowe o zerowe wartośc oczekwane. potezy można zapsać na dwa sposoby. :, k m :, k m m m k k (, k =,...,r) lub : a : a ( =,...,r) Oba zapsy oznaczaą, że wszystke średne w r grupach są ednakowe że zróżncowane est spowodowane edyne nnym nż cecha klasyfkuąca czynnkam, o charakterze losowym. 5
ANOVA wykorzystue równość warancyną, zgodne z którą łączne zróżncowane zmenne badane Y (SST) est sumą zróżncowana mędzygrupowego (SSB) spowodowanego zmenną klasyfkuącą oraz wewnątrzgrupowego (SSE) spowodowanego czynnkam losowym. Statystyka testowa ma postać następuącego lorazu waranc: F SSB/( r ) () SSE/( n r) gdze n oznacza łączną lczebność próby zaś r lczbę klas dla zmenne X. Powyższa statystyka ma rozkład F z (r-/n-r) stopnam swobody przymue tym wększą wartość m wększe est SSB w porównanu z SSE. Zatem eżel przekroczy ona wartość krytyczną właścwą dla rozkładu Fr / nr, to należy odrzucć hpotezę zerową na korzyść hpotezy alternatywne. Można wtedy stwerdzć (z odpowednm ryzykem błędu I rodzau), że przynamne dwe średne w grupach różną sę od sebe, co z kole oznacza wpływ zmenne klasyfkuące X na zmenną badaną Y. 6
Do przemyślena: Proszę podać przykład rozkładu w którym zmenne są zależne ale średne warunkowe są równe (lczebność lczba kategor dowolna) Proszę zapsać problem ANOVA ako model regres. Wynk testu w analze waranc ne pozwala odpowedzeć na pytane, które średne różną sę od sebe, pozwala edyne stwerdzć, że akaś różnca stnee. Aby odpowedzeć na perwsze pytane trzeba wykonać wele porównań poszczególnych par (w szczególnośc test Bonferronego), co est ne tylko pracochłonne, eżel ne dysponuemy odpowednm oprogramowanem, ale także zwększa prawdopodobeństwo błędu perwszego rodzau, ze względu na welokrotne testowane hpotez. 7
. DWUCZYNNIKOWA ANALIZA WARIANCJI Analza waranc pozwala także przeprowadzć test wpływu węce nż edne cechy klasyfkuące na zmenną badaną. Z uwag na kłopotlwość oblczeń w praktycznych zastosowanach welowymarowa ANOVA naczęśce ograncza sę do przypadku z klasyfkaca podwóną. Bada sę wtedy ednocześne wpływ dwóch czynnków oraz nterakc pomędzy nm, co sprawa, że należy wykonać trzy testy. Podobne ak w przypadku analzy waranc z klasyfkacą poedynczą, zasada konstrukc testu sprowadza sę do porównana zróżncowana pomędzy grupam spowodowanego nterakcą ze zróżncowanem spowodowanym czynnkam losowym. Uwaga: W podręcznku Statystyka od Podstaw autorzy zakładaą, że lczebność próby dla każde kombnac czynnka perwszego drugego est ednakowa. Założene to ne est koneczne lecz odeśce od nego wymaga modyfkac podanych tam algorytmów. 8
Analogczne do wzoru () k-tą wartość zmenne Y w grupe () można przedstawć ako sumę średne w całe populac (m) oraz odchyleń spowodowanych dzałanem dwóch cech klasyfkuących (a b ), nterakc pomędzy nm (c ) oraz losowych odchyleń (e k ) o zerowe wartośc oczekwane. y k m a b ( ab) e (3) k Czynnk, których dzałane na zmenną Y badamy są reprezentowane przez dwe zmenne akoścowe: X Z. Zgodne z dwuczynnkową równoścą warancyna łączne zróżncowane zmenne badane Y (SST) est sumą zróżncowana wynkaącego z dzałana czynnka X (SSX), zróżncowana wynkaącego z dzałana czynnka Z (SSZ), zróżncowana wynkaącego z nterakc obu czynnków (SSXZ) oraz spowodowanego czynnkam losowym (SSE). 9
W dwuczynnkowe analze waranc testowane są ednocześne trzy hpotezy a : a : b : b : (ab), : (ab), :
Odpowadaą m, odpowedno, następuące statystyk testowe F X F Z SSX /( r ) SSE/[ rs( n )] SSZ /( s ) SSE/[ rs( n )] F XZ SSXZ /[( r )( s )] SSE/[ rs( n )] gdze r s oznaczaą lczbę klas dla obu zmennych klasyfkuących zaś n est lczebnoścą podpróby dla dowolne kombnac cech (zakłada sę, że lczebnośc te są ednakowe). Powyższe statystyk maą rozkład F, lczba stopn swobody est łatwa do odgadnęca (pytane: czyl aka?)
Przykład dzałana nterakc Tak ak w podanym wcześne przykładze, sprawdzamy czy na dochody gospodarstwa domowego ma wpływ kwartał, w którym te dochody są uzyskwane. Dodaemy tym razem drugą zmenną klasyfkuącą, którą est główne źródło utrzymana gospodarstwa. Wyróżnone zostały trzy grupy gospodarstw: pracownków, rolnków emerytów. Może sę zdarzyć, że średne dochody w poszczególnych kwartałach są w populac ednakowe dla wszystkch gospodarstw, ednak osobne zbadane wszystkch trzech typów gospodarstw wykazue, że edyne dochody emerytów ne zależą od kwartału. W pozostałych typach gospodarstw taką zależność zaobserwowano: wśród pracownków dochody w I IV kwartale są wyższe od średne, wśród rolnków w II III. Odchylena te w całe badane grupe znoszą sę nawzaem, natomast mędzykwartalne zróżncowane dochodów dla w. w. grup est przykładem nterakc mędzy dwoma badanym czynnkam. Przykład est fkcyny, w rzeczywstośc w Polsce zawsko take ne ma mesca.
3. TESTY ZAŁOŻEŃ W ANALIZIE WARIANCJI Zarówno w ednoczynnkowe ak dwuczynnkowe analze waranc przymue sę dwa podstawowe założena odnośne danych: badana zmenna ma w każde z podgrup rozkład normalny waranca te zmenne we wszystkch badanych podgrupach est ednakowa Założene normalnośc rozkładu badane zmenne est mne stotne gdy próba est duża. Nektórzy statystycy uważaą też, że założene ednorodnośc waranc ne ma stotnego znaczena w ednoczynnkowe analze waranc gdy lczebnośc prób w poszczególnych podgrupach są ednakowe. W ogólnym przypadku ednak testowane obu założeń est koneczne. 3
3.. Testy normalnośc Istnee wele testów normalnośc. W podręcznkach Statystyka od Podstaw oraz Statystyka zostały omówone testy zgodnośc χ test Kołmogorowa ednak za naskuteczneszy (o nawyższe mocy) test tego typu dość powszechne uważa sę test Shapro-Wlka. Tak ak wszystke nne, opera sę on na porównanu statystyk emprycznych (uzyskanych na podstawe próby) oraz hpotetycznych, otrzymanych przy założenu normalnośc rozkładu. Duża rozbeżność mędzy nm skutkue odrzucenem hpotezy o normalnośc rozkładu zmenne. poteza zerowa mów, że próba została wylosowana z populac, w które zmenna ma rozkład normalny. Statystyka testowa testu Shapro-Wlka ma następuąca postać: W n n a ( x x ( ) X ) gdze x oraz x () ( =,,, n) są, odpowedno, elementam próby w porządku wylosowanym uporządkowanym nemaleąco, a oznaczaą stablcowane współczynnk testu. 4
Wartość krytyczną dla określone welkośc próby stotnośc testu wyznacza sę sę na podstawe specalnych tablc. Poneważ manownk ne może być mneszy od lcznka, to są to tablce o lewostronnym obszarze krytycznym (ponże ednośc). Jeżel welkość próby przekracza klkanaśce elementów, ręczne wyznaczene wartośc statystyk testowe est bardzo pracochłonne, dlatego edynym praktycznym rozwązanem est skorzystane z gotowych procedur wbudowanych w pakety statystyczno-ekonometryczne (w programe Stata est to komenda swlk). Jeżel próby lczy ponad elementów zalecana est modyfkaca w postac testu Shapro Franc (komenda sfranca). Jeżel założene normalnośc rozkładu ne est spełnone próba est mała, to można skorzystać z neparametrycznego odpowednka ednoczynnkowe analzy waranc w postac testu Kruskala-Wallsa. Jego stotą est porównywane rang zmennych zamast porównań ch wartośc. Jednym z celów tego zabegu est osłabene wpływu wartośc netypowych na wynk oraz unezależnene tego wynku od typu rozkładu badanych zmennych. 5
6 3. Test Bartleta ednorodnośc waranc Jeżel testuemy dentyczność dwóch waranc, to można posłużyć sę testem F, ednak w analze waranc naczęśce mamy do czynena z co namne trzema warancam korzystne est sprawdzć ch dentyczność za pomocą ednego testu. Takm testem est np. test Bartleta., :, :
7 Dla każde z podprób (których lczba wynos r) należy oblczyć neobcążoną warancę S. Statystyka testowa ma postać: r n n r M r ) 3( ln gdze n oznacza lczebność -te podpróby, n lczebność całe próby zaś )ln ( ) ( )ln ( r r S n S n r n r n M Statystyka λ ma rozkład χ z r- stopnam swobody.
Zadana:. Wykonano test ANOVA dla trzech średnch w różnych populacach. Został wykonany równeż test równośc dla dwóch spośród trzech średnch nakazał odrzucene hpotezy zerowe przy pozome stotnośc mnesze nż,. Czy: a/ test ANOVA nakaże odrzucene hpotezy zerowe przy pozome,5, b/ Jeżel statystyka F w teśce ANOVA nakaże odrzucć hpotezę zerową, to równeż test każde dowolne pary średnch nakaże odrzucć hpotezę zerową. c/ na podstawe wartośc edne z wykorzystanych statystyk testowych statystyk testowe można ocenć słę zależnośc medzy zmenna obaśnaną klasyfkuącą.. Rozkład zmenne Y w trzech grupach est następuący (w tabel podane są lczebnośc): Y A B C 4 6 4 8 3 4 8 4 4 6 Bez oblczana statystyk testowe należy podać wynk testu ANOVA. Jake założena testu mogą być naruszone? Jake rozwązane można zaproponować w take sytuac? 3. Urząd Antymonopolowy przeprowadzł badane odnośne ewentualne zmowy cenowe w meśce XY. Za przeawy take zmowy uważa sę ednoczesne występowane dwóch zawsk: średna cena w meśce est wyższa od cen w nnych mastach, podczas gdy zróżncowana cen w tym meśce est mnesze od występuącego w nnych mastach. Z XY 9 nnych mast podobne welkośc wylosowano po 5 przedsęborstw, przeprowadzaąc następne dwa testy: a/ test Bartleta, w którym statystyka przyęła wartość,4, b/ test ANOVA, uzyskuąc wartość statystyk,. Czy powyższe wynk wskazuą na występowane zmowy cenowe w XY? 4. Proszę podać własny przykład nterakc wpływu dwóch cech akoścowych na badaną zmenną cągłą. 8