Statytyka. v.0.9 egz mgr inf nietacj Statytyczna analiza danych Statytyka opiowa Szereg zczegółowy proty monotoniczny ciąg danych i ) n uzykanych np. w trakcie pomiaru lub za pomocą ankiety. Przykłady (zeregowania danych) Dane:, ;, ;, ;, ;, 3;, 4;, 4. Szereg zczegółowy: i 3 4 5 6 7 x i,,,,,3,4,4 Szereg rozdzielczy punktowy: j 3 4 x j,,,3,4 f j 3 (grupujemy te ame wyniki podając ich liczebności f j ) Szereg rozdzielczy przedziałowy: l x l [,0;,5) [,5;,5) f l 4 3 (dzielimy wyniki wg zakreów podając liczebności f l w danym przedziale; część informacji utracona) Uwaga:. Dalej zakładamy, że dane i ) n ą w potaci zeregu zczegółowego (ciąg niemalejący).. Próba i ) n może być wybrana z populacji lub tanowić zetaw wyników oberwacji zjawika loowego. Statytyki z próby danych i ) n. średnia µ = x = x n i ; miara położenia. moda (= dominanta = wartość modalna) najczęściej pojawiająca ię wartość x i ; miara położenia 3. kwartyle: Q (dolny = pierwzy), Q (mediana = wartość środkowa = drugi), Q 3 (górny = trzeci); miary położenia { x(n+)/, n nieparzyte k opi Q = x n/ +x (n+)/, n parzyte 5% danych nie przekracza Q, 75% danych nie mniejza niż Q połowa danych nie przekracza Q, połowa danych nie mniejza niż Q 3 75% danych nie przekracza Q 3, 5% danych nie mniejza niż Q 3 4. roztęp R = max i x i min x i ; miara rozprozenia i 5. odchylenie ćwiartkowe (= roztęp ćwiartkowy) Q = (Q 3 Q ), gdzie Q, Q 3 kwartyle; miara rozprozenia 6. odchylenie przeciętne d = x n i x, gdzie x średnia; miara rozprozenia
Statytyka. v.0.9 egz mgr inf nietacj 7. wariancja σ = = m = n i x) ; miara rozprozenia 8. odchylenie tandardowe σ = = wariancja = n i x) ; miara rozprozenia x moda 9. wpółczynnik aymetrii ; miara aymetrii 0. kurtoza (= wpółczynnik koncentracji) K = m 4 4 ; miara koncentracji. moment centralny k-tego rzędu m k = n i x) k Uwaga:. Rozkład może mieć wiele dominant (tzw. rozkład wielomodalny).. Dyperja = rozprozenie. 3. Q < d <. Przykład (wyznaczania tatytyk z przeadnie małej próby) Dane: x =, ; x,3,4 =, ; x 5 =, 3; x 6,7 =, 4. położenie x = 8,8, 57 moda =, Q 7 =,, Q =,, Q 3 =, 35 rozprozenie R =, 4, = 0, 3 Q = 0, 075 d 0, 094 0, 05, 0, 0 aymetria/koncentracja wp.aym. 0, 54 K 6, 5 3 moda R Q = Q 3 Q...3.4 Hitogram Q Q Q 3,,,,,3,4,4 Szereg zczegółowy Rozkłady zmiennych loowych Zmienna loowa X funkcja X : Ω R przyjmująca wartość X(ω) w zależności od zdarzenia elementarnego ω Ω, przy czym ma en prawdopodobieńtwo F ) = Pr(X x), że zazło zdarzenie ω Ω, dla którego wartość zmiennej X(ω) nie przekracza wartości x: X(ω) x. Dytrybuanta F rozkładu prawdopodobieńtwa zmiennej loowej X: F ) = Pr(X x). Dytrybuanta opiuje w pełni rozkład prawdopodobieńtwa zmiennej loowej X:. Pr(X > x) = Pr(X x) = F ),. Pr(X < x) = lim F + h), h 0 + 3. Pr(a < X b) = F (b) F (a). Gętość f rozkładu prawdopodobieńtwa zmiennej X funkcja całkowalna f(z) 0 o całce f(z) dz = pełniająca F ) = x f(z) dz, gdzie F jet dytrybuantą rozkładu X. Ciągła zmienna loowa zmienna, której rozkład prawdopodobieńtwa poiada gętość.
Statytyka. v.0.9 egz mgr inf nietacj 3 Zależność między gętością f a dytrybuantą F : F ) = f) we wzytkich punktach ciągłości f. Inaczej: Pr < X x + h) f) = lim h 0 h p-two, że wynik leży w przedziale, x+h] gętość długość przedziału Zmienna dykretna X o rozkładzie Pr(X = x i ) = f i ) Zmienna ciągła X o gętości f) Wartość oczekiwana EX µ = i x i f i ) µ = x f) dx Wariancja D X = E(X EX) σ = i µ) f i ) σ = µ) f) dx = E(X ) (EX) i Nierówność Czebyzewa : Pr ( X EX ε) D (X) dla ε > 0. ε Przykład (rozkład normalny Gaua). N(µ, σ) rozkład o gętości f(z) = σ π e ( z µ ) σ ; X N(µ, σ) EX = µ, D X = σ Zaada trzech igm : Dla X N(µ, σ) zachodzi Pr( X µ > 3σ ) < 0, 003. 99, 7% µ 3σ µ µ + 3σ Słownie: Tylko 3% 0 wartości X leży poza przedziałem [µ 3σ, µ + 3σ]. Przykład (Tablice tatytyczne rozkładów χ i t-studenta) Wartości krytyczne rozkładów na poziomie itotności α = 0, 05 liczba topni wobody 6 0 4 8 6 30 t-studenta t α,447,8,45,0,074,056,04 rozkład χ h α,59 8,307 3,685 8,869 33,94 38,885 43,773 3 Etymacja parametrów rozkładu Dane: Zmienna loowa X o kończonej wartości oczekiwanej E X = µ i wariancji D X = σ.
4 Statytyka. v.0.9 egz mgr inf nietacj X może opiywać pewną cechę w populacji (np. waga, przeżywalność), pomiar (np. prędkości, temperatury) lub zjawiko fizyczne (np. rzut kotką, rozpad promieniotwórczy). Nie znamy faktycznego rozkładu prawdopodobieńtwa zmiennej X ani nawet wartości parametrów µ i σ. Zagadnienie: Jak na podtawie kończonej próby i ) n etymować (=zacować) wartości µ i σ? Etymacja punktowa wartości oczekiwanej µ Średnia z próby x = x n = x +x +...+x n n jet etymatorem wartości oczekiwanej µ: ε>0 Pr( x n µ ε ) ( ) σ n ε 0. n Słownie: ze wzrotem liczebności próby n prawdopodobieńtwo odchylenia o ε średniej x n od parametru µ maleje do zera. Uwaga:. I tak nie możemy wykluczyć dużych odchyleń, choć ą one mało prawdopodobne.. Zmienna X może mieć dowolny rozkład o kończonej wartości oczekiwanej i wariancji. 3. Nierówność ( ) to zczególny przypadek nierówności Czebyzewa. Etymacja punktowa wariancji σ Wariancja z próby = n i x n ) jet etymatorem wariancji σ. Etymacja przedziałowa wartości oczekiwanej µ Przedział ufności dla µ na poziomie ufności α ( ) x t α, x + t α, n n gdzie t α wartość krytyczna rozkładu t-studenta o n topniach wobody: Pr( t t α ) = α, t = x µ n ; por. Tet itotności dla wartości średniej i Schemat wniokowania. 4 Tetowanie hipotez Prawdziwa jet Przyjmujemy H 0 : Odrzucamy H 0 : H 0 hipoteza zerowa błąd I rodzaju; = przypuzczenie, α prawdopodobieńtwo decyzja prawidłowa które weryfikujemy popełnienia błędu H hipoteza alternatywna błąd II rodzaju; β prawdopodobieńtwo popełnienia błędu decyzja prawidłowa Decyzję podejmujemy na podtawie prawdzianu odpowiednio dobranej tatytyki z próby. Reguła trzech igm : Jeśli pobieramy próbę ze zmiennej loowej o rozkładzie normalnym, to możemy odrzucić dane poza przedziału [x 3, x + 3] jako mało prawdopodobne. Schemat wniokowania w teście itotności Niech v tatytyka z próby wybrana na potrzeby weryfikacji hipotezy H 0. Dla poziomu itotności α odzukujemy (np. w tablicach albo za pomocą programu) wartość krytyczną v α w taki poób, aby Pr( v v α ) α. Weryfikacja na poziomie itotności α:
Statytyka. v.0.9 egz mgr inf nietacj 5. Jeśli wartość v obliczona z próby leży w obzarze krytycznym ( v v α ), to H 0 odrzucamy i przyjmujemy H ; prawdopodobieńtwo, że popełniliśmy błąd wynoi α.. Jeśli wartość v z próby leży w obzarze dopuzczalnym ( v < v α ), to nie ma dotatecznych podtaw do odrzucenia H 0. Uwaga: W praktyce przyjmuje ię α = 0, 05 lub 0, 0. Tet itotności dla wartości średniej Hipoteza zerowa H 0 : wartość średnia µ wynoi µ 0 ; H : µ µ 0. H 0 weryfikujemy za pomocą tatytyki t = x µ 0 n, gdzie x średnia z próby, = odchylenie z próby. Zmienna t ma rozkład t-studenta o n topniach wobody. Dla dużych prób (n > 30) rozkład t-studenta można zatąpić zbliżonym rozkładem normalnym. Tet równości dwóch średnich H 0 : wartość średnia µ zmiennej X jet równa wartości średniej µ zmiennej X ; H : µ µ. H 0 weryfikujemy za pomocą tatytyki u = x x, gdzie x j średnia z próby, + n n j wariancja z próby, n j liczebność próby pobranej dla zmiennej X j, j =,. Jeśli H 0 jet prawdziwa, to tatytyka u ma rozkład bliki normalnemu N(0, ). Tet zgodności χ Pearona H 0 : zmienna X ma rozkład prawdopodobieńtwa zgodny z rozkładem zmiennej Y ; H : zmienne X i Y mają różne rozkłady. Możliwe wartości zmiennych X, Y dzielimy na k kla. Oznaczamy: p j = Pr(Y W j ) p-two, że wartość Y wpadła do j-tej klay (zadane rozkładem Y ), np j przybliżona liczebność jaka powinna wytąpić w próbie dla zmiennej Y, f j liczebność tych próbek x zmiennej X, które leżą w j-tej klaie: x W j. Klay wyznaczamy tak by wartości np j były wytarczająco duże: np j 5 dla dotępnych n danych. Jeśli X ma taki am rozkład co Y, to Pr(X W j ) = Pr(Y W j ) = p j. Statytyka h = k j= (f j np j ) np j ma rozkład p-twa bliki rozkładowi χ o k topniach wobody, gdzie k liczba kla, a liczba parametrów rozkładu teoretycznego Y, które należy wyznaczyć z próby; np. rozkład normalny N(µ, σ) ma = parametry µ i σ.
6 Statytyka. v.0.9 egz mgr inf nietacj Przykład (przeprowadzania tetu itotności wartości średniej). Dane: x =, ; x,3,4 =, ; x 5 =, 3; x 6,7 =, 4. Hipoteza zerowa H 0 : wartość średnia µ = = µ 0 =, 3 = µ 0 =, 4 3. Wybieramy poziom itotności α = 0, 05 4. Obliczamy tatytykę t = x µ 0 n,57,3 7, 003,57,4 7 3, 335 0,05 0,05 5. Porównujemy t z wartością krytyczną t α =, 447... rozkładu t-studenta o n = 6 topniach wobody: t, 003 < t α t 3, 335 > t α 6. Wnioek: nie możemy odrzucić H 0 : µ =, 3 5 Korelacja należy odrzucić H 0 : µ =, 4 (p-two błędu α = 5%) Wpółczynnik korelacji liniowej między oberwowanymi zmiennymi loowymi X i Y wyznaczamy z próby natępująco r(x, Y ) = cov(x, Y ) X Y, gdzie n liczebność próby loowej, z której pobieramy wartości i ) n zmiennej X i (y i ) n zmiennej Y ; x = x n i, y = y n i wartości średnie zmiennych z prób; X = n i x), Y = (y n i y) odchylenia zmiennych z próby; cov(x, Y ) = cov(y, X) = n i x) (y i y) kowariancja zmiennych z próby. { r(x, Y ) > 0, 7 znaczący związek Uwaga: W praktyce przyjmujemy, że gdy r(x, Y ) < 0, brak zależności liniowej Regreja liniowa Intereujemy ię, czy ma miejce zależność liniowa między zmienną X a zmienną Y potaci: Y = a + bx + cont, czyli Y (a + bx) = cont. Do wartości zmiennych X, Y z próby: i, y i ), i =,..., n, dopaowujemy protą regreji y = a + bx metodą najmniejzych kwadratów: b = r(x, Y ) Y X = (y i y) i x), a = y b x, i x) gdzie x, y średnie z próby. Tak dobrane a, b minimalizują umę kwadratów odchyleń [ y i (a + bx i ) ] min.
Statytyka. v.0.9 egz mgr inf nietacj 7 Źródła:. A.Zeliaś, Metody tatytyczne, PWE Warzawa 000. O.Zaigraev, Statytyka matematyczna, Toruń 00 3. J.Karłowka-Pik, Materiały dydaktyczne, www.mat.uni.torun.pl/ joanka 4. A.Płocki, Stochatyka, WSP Kraków 997 5. K.Szwarc, Tablice tatytyczne, www.kid.ae.poznan.pl/zwarc