Podstawowe testy statystycze i aaliza zależości zjawisk
PODSTAWOWE TESTY STATYSTYCZNE
Hipotezy statystycze Hipoteza statystycza dowole przypuszczeie dotyczące rozkładu lub jego parametrów Hipoteza parametrycza dotyczy parameterów rozkładu Hipoteza ieparametrycza dotyczy postaci rozkładu 3
Testowaie hipotez - kroki 1) Sformułowaie hipotezy zerowej i alteratywej ) Ustaleie poziomu istotości α (ajczęściej 5%) 3) Wybraie odpowiediej statystyki testowej i obszaru krytyczego 4) Wyliczeie statystyki a podstawie próby 5) Podjęcie decyzji 4
Test a rówość średich porówaie z ormą Założeia: Próba z rozkładu ormalego, σ iezaa Hipoteza zerowa : µ 1 = µ 0 Statystyka testowa T µ x = 0 ~ t( S 1) 5
Test a rówość średich - dwie populacje Założeia: Obie próby z rozkładu ormalego, zmiee są iezależe Wariacje w obydwu próbach są sobie rówe Hipoteza zerowa : µ 1 = µ Statystyka testowa x1 x, = ~ t( 1 + 1 ( 1 1) s1 + ( 1) s 1 1 ( + ) + T 1 1 ) 6
Test a rówość wariacji porówaie z ormą Założeia Próba z rozkładu ormalego Hipoteza zerowa: σ 1 = σ 0 Statystyka testowa χ = ( 1) S ~ χ ( σ 0 1) 7
Test a rówość wariacji dwie populacje Założeia Obie próby z rozkładu ormalego, zmiee są iezależe Hipoteza zerowa: σ 1 = σ Statystyka testowa F S = 1 ~ F( 1, 1) 1 S 8
Test a rówość proporcji porówaie z ormą Założeia: Próba z rozkładu dwupuktowego Hipoteza zerowa: p 1 =p 0 Statystyka testowa: ^ U = p p0 ~ N(0,1) gdy p0( 1 p ) 0 9
Test a rówość proporcji dwie populacje Założeia: Próby z rozkładów dwupuktowych 10 Hipoteza zerowa: p 1 =p Statystyka testowa: U (1 ^ ^ 1 1, = ~ N(0,1) gdy 1, * * 1 1 p p * x1 + x = 1 + p p p )( 1 + )
Test a zgodość z rozkładem Test zgodości Chi-kwadrat Test sumuje w kwadratach wszystkie różice między otrzymaymi w badaiach wyikami a oczekiwaymi wyikami zgodymi z przyjętym rozkładem hipotetyczym Hipoteza zerowa : zmiea x podlega daemu rozkładowi Ogóla postać statystyki: χ = ( wielkośi _ obserwowaa wielkośi _ oczekiwaa) wielkośi _ oczekiwaa 11 Test odrzuca H 0 jeśli χ χ ( k 1) gdzie k to liczba parametrów rozkładu oszacowaa a podstawie próby
1 Test a zgodość z rozkładem Test Kołmogorowa-Smirova Założeia: ciągła, ściśle rosąca dystrybuata Hipoteza zerowa: zmiea x podlega daemu rozkładowi Statystyka: gdzie F (t) to dystrybuata empirycza ) ( ) ( sup 0 t F t F D R t = ) ( 1 max max ), max( : 0 1,.., 1,.., i i i i i i x F z i z D z i D gdzie D D D = = = = = = + +
Test a ormalość rozkładu 13 Hipoteza zerowa w testach: ormalość rozkładu obserwacji Test Shapiro-Wilka szeregujemy wyiki w ciąg iemalejący a astępie budujemy statystykę: SW = [ / ] i= 1 a i: ( x ( 1 i) s + x i ) gdzie / [ / ] = ( 1) / oraz a i: to stablicowae współczyiki ieparzyst Test Jarque-Bera statystyka oparta a wyliczoych z próby współczyikach: skośości(sk) i kurtozie(ku) Sk ( Ku 3) D JB = N + χ () 6 4 Ie testy: Shapiro-Fracia, Adersoa-Darliga, Lillieforsa dla dla parzystych ych
14 ANALIZA ZALEŻNOŚCI ZJAWISK
Wykres rozproszeia Aalizę zależości między dwoma cechami warto rozpocząć od wykresu rozproszeia (scatterplot). Na wykresie zwykle łatwo możemy określić siłę i rodzaj zależości. -40-0 0 0 40 - -1 0 1 Korelacja liiowa dodatia - -1 0 1 Brak korelacji y -0 0 0 40-6 -4-0 Korelacja liiowa ujema - -1 0 1 Korelacja krzywoliiowa - -1 0 1 - -1 0 1 15
Współczyik korelacji Pearsoa Współczyik korelacji Pearsoa jest uormowaym współczyikiem kowariacji: cov( X, Y ) r = corr( X, Y ) = S, gdzie S x i S y ozaczają odchyleia X SY stadardowe. Współczyik te jest miarą siły związku liiowego między zmieymi mierzalymi. Zak współczyika korelacji iformuje as o kieruku zależości, atomiast jego bezwzględa wartość o sile związku. Wartość tego współczyika wyliczoa z próby jest ieobciążoym i zgodym estymatorem współczyika korelacji w całej populacji. Koiecza jest zatem ocea istotości statystyczej tak wyliczoego współczyika z próby. 16
Test istotości współczyika korelacji Pearsoa Założeia testu: Dyspoujemy -elemetową próbką z dwuwymiarowego rozkładu ormalego o iezaym współczyiku korelacji ρ Hipotezy: H 0 : ρ=0 wobec alteratywy H 1 : ρ 0 (lub H 1 : ρ>0 lub H 1 : ρ<0) Statystyka testowa: t r = 1 r Przy założeiu prawdziwości hipotezy zerowej, statystyka testowa ma rozkład t-studeta o (-) stopiach swobody. 17
Uwagi (1) 1. Współczyik korelacji Pearsoa służy do mierzeia liiowych zależości. rho = - 0.16-100 -99-98 -97-96 18 - -1 0 1
Uwagi (). Jest to miara wrażliwa a występowaie obserwacji odstających. rho = 0.86 rho = 0.3 y -3 - -1 0 1 y - 0 4 - -1 0 1 x - -1 0 1 x 19
Metody ieparametrycze Współczyik korelacji Pearsoa jest wrażliwy a pukty odstające, brak ormalości. Stosowae, gdy mamy do czyieia z daymi mierzoymi przyajmiej a skali porządkowej. Najczęściej stosowae ieparametrycze miary korelacji: - korelacja rag Spearmaa - korelacja Kedala tau-b - Gamma 0
Ragi (1) Aalizujemy zmiee mierzoe a skali porządkowej, więc możliwe jest uporządkowaie w ciąg rosący, a astępie przyporządkowaie kolejym obserwacjom umeru. Jest to uporządkowaie w kolejości rag. Takie postępowaie moża zastosować dla zmieych mierzalych ie mających rozkładu ormalego. Zamiaa kokretych wartości a odpowiadające ragi iweluje egatywy wpływ obserwacji odstających. Raga i-tej obserwacji: { } R = # j : X < X + i j i { j X j Xi} 1 + # : = 1
Ragi () Przykład Dae wyjściowe: Ragi: X 7 4 6 10 7 Y 0 - -1 3 R(X) 3,5 1 5 3,5 R(Y) 3 1 4 5
Współczyik korelacji rag Spearmaa r Współczyik korelacji rag jest miarą współzależości w której wartości zmieych X i Y zastąpioo ragami tych zmieych. Zamieiając we wzorze a współczyik korelacji Pearsoa kokrete wartości zmieych ich ragami, otrzymujemy współczyik korelacji rag Spearmaa: i= 1 i i S R 1 iq i= i ( R ) ( ) i 1 i R Q i 1 i Q = = ( R R)( Q Q) 1 3( + 1) = = ( 1) 1 3
Współczyik rag Kedala tau-b (1) W celu obliczeia tego współczyika, ależy zestawić obserwacje z próby we wszystkie możliwe pary, a astępie podzielić te pary a trzy możliwe kategorie: pary zgode porówywae zmiee w obrębie tych dwóch obserwacji zmieiają się w tę samą stroę, tz. albo w pierwszej obserwacji obydwie są większe iż w drugiej, albo obydwie miejsze. Liczba takich par w próbie będzie dalej ozaczaa przez P. pary iezgode zmiee zmieiają się w przeciwą stroę, to zaczy jeda z ich jest większa dla tej obserwacji w parze, dla której druga jest miejsza. Liczba takich par w próbie będzie ozaczaa przez Q. pary wiązae jeda ze zmieych ma rówe wartości w obydwu obserwacjach. 4
Współczyik rag Kedala tau-b () 5 ( sg( i j )sg( i j )) X X Y Y i< j P Q τ = = ( t)( s) ( t)( s) ( 1) ( 1) ( 1) ( 1) gdzie: t liczba par wiązaych dla zmieej X, s liczba par wiązaych dla zmieej Y, sg(z) zdefiiowae jest w astępujący sposób: 1 dla z > 0 sg( z) = 0 dla z = 0 1 dla z < 0
Współczyik rag Kedala tau-b (3) R(X) R(Y) 1 4 X 1-1 X 3,5-1 1 X 3,5 7 1 1 0 X 5 3-1 1 1-1 X 6 6 1 1 1-1 1 X 7 5 1 1 1-1 1-1 X Sumy 0 5 3-3 -1 6 6 6 τ = ( 1)( 0) 7(7 1) 7( 7 1) 0,9
Współczyik Gamma Współczyik te jest bardziej wskazay iż współczyik Spearmaa i Kedala, gdy dae zawierają wiele obserwacji wiązaych. Należy stosować gdy obie zmiee są mierzoe a skali porządkowej. Przyjmuje wartość z przedziału [-1; 1]. Wyraża się astępującym wzorem: Γ = P Q P+ Q 7
8 Tabela wielodzielicza
Aaliza zależości 9 Kolejy etap to próba weryfikacji hipotezy, że dwie jakościowe cechy w populacji są iezależe. Najczęściej stosowae arzędzie to test chi-kwadrat opracoway przez Karla Pearsoa w 1900 roku. Test polega a porówaiu częstości zaobserwowaych z częstościami oczekiwaymi przy założeiu prawdziwości hipotezy zerowej o braku zależości między zmieymi. Dwa zdarzeia, A i B, są iezależe, jeśli prawdopodobieństwo ich jedoczesego wystąpieia jest rówe iloczyowi ich prawdopodobieństw brzegowych: P( A B) = P( A) P( B)
Test iezależości chi-kwadrat (1) Hipoteza zerowa: zmiee są iezależe Hipoteza alteratywa: istieje związek między zmieymi Częstości oczekiwae: E= (suma wiersza)*(suma kolumy) / (suma całkowita) Statystyka testowa: E p k j= 1 ij i= 1 ij = k p i= 1 j= 1 ij ij ( E ) ( O E) k p ij ij χ = = i= 1 j= 1 E Eij 30 gdzie: E oczekiwaa częstość komórki O obserwowaa częstość komórki
Test iezależości chi-kwadrat () Przy założeiu prawdziwości hipotezy zerowej, statystyka ma asymptotyczy rozkład chi-kwadrat o (k-1)(p-1) stopiach swobody. Duże wartości statystyki testowej ozaczają dużą różicę pomiędzy częstościami obserwowaymi a oczekiwaymi i jest to potwierdzeie istieia zależości. Przeciwie małe wartości statystyki wskazują a brak powiązaia. Jeżeli χ χ krytycze to odrzucamy hipotezę zerową. Jeżeli χ < χ krytycze to brak podstaw do odrzuceia hipotezy zerowej. 31
Test iezależości chi-kwadrat (3) Płeć Czy pali papierosy? Tak Nie Suma Kobieta 1 (18) 8 () 40 Mężczyza 33 (7) 7 (33) 60 Suma 45 55 100 W awiasach podao liczebości oczekiwae. 3 Liczebości oczekiwae: E = 40 45 /100 = 18 E = 40 55 /100 = 11 1 E1 = 45 60 /100 = 7 E = 55 60 /100 = 33 Statystyka testowa: χ (1 18) (8 ) (33 7) (7 33) = + + + 18 7 33 6, 06
Ocea siły związku Statystyka chi-kwadrat sprawdza, czy dwie zmiee są ze sobą powiązae. Oprócz sprawdzeia, czy pomiędzy zmieymi zachodzi związek, iteresuje as jak sile jest to powiązaie. Wartości statystyki chi-kwadrat jako pomiaru siły związku ie możemy stosować, gdyż zależy oa od liczebości próby i rośie wraz z jej wzrostem. Jedakże a bazie tej statystyki zbudowao szereg miar siły związku. Do ajpopulariejszych zaliczay jest współczyik zbieżości V-Cramera. 33
Współczyik zbieżości V-Cramera Obliczamy według poiższego wzoru: V = χ mi( K 1, P 1) V = 0 V = 1 zmiee są iezależe brak korelacji zmiee są fukcyjie zależe 0 < V < 1 przedział możliwych wartości współczyika Cramera 34
Korelacja cząstkowa - motywacja Jeśli a pewą zmieą oddziałuje więcej iż jeda zmiea, a iteresuje as ścisły związek korelacyjy między dwoma zmieymi, przy wyłączeiu wpływu pozostałych zmieych, to powiiśmy posłużyć się współczyikiem korelacji cząstkowej. Jeżeli rozważamy współwystępowaie poziomu sprzedaży i dwóch czyików (p. akłady a reklamę, akłady a iowacje), to korelacja cząstkowa ustala siłę i kieruek skorelowaia pomiędzy sprzedażą i każdym z czyików oddzielie, wyłączając ewetuale oddziaływaie drugiego z ich. Przy większej liczbie cech wziętych pod uwagę, zależość jest określaa zawsze dla dwóch z ich, przy wyelimiowaiu ewetualego wpływu a ie wszystkich pozostałych. 35
Współczyik korelacji cząstkowej Korelacja cząstkowa to korelacja z wyelimiowaiem wpływu zmieych pośredich. Pokazuje korelację czystą jeżeli korelacja cząstkowa między zmieymi jest bardzo zbliżoa do korelacji zwykłej to możemy powiedzieć,że zmiee pośredie ie mają wpływu a zależość między badaymi zmieymi. Pokazuje korelację pozorą jeżeli korelacja cząstkowa między zmieymi zaczie różi się od korelacji zwykłej (lub jest w ekstremalym przypadku rówa 0) to zależość między badaymi zmieymi jest w dużym stopiu wyjaśiaa przez zmiee pośredie. 36
Współczyik korelacji cząstkowej trzy zmiee 37 Aalizujemy trzy zmiee X1, X oraz X3. Chcemy zdefiiować współczyik korelacji liiowej, mierzący siłę powiązaia między dwiema zmieymi przy wyłączeiu oddziaływaia trzeciej zmieej. W przypadku trzech zmieych współczyiki korelacji cząstkowej ozaczae są astępująco: r1.3, r13., r3.1. Symbol r 1.3 ozacza korelację między zmieymi X1 a X przy wyłączeiu działaia zmieej X3 i wyraża się astępującym wzorem: r1 r13 r3 r1.3 = 1 r 1 r r ij ( 13 )( 3 ) gdzie jest współczyikiem korelacji Pearsoa między i-tą a j-tą zmieą.