STATYSTYKA to auka, której przedmiotem zaiteresowaia są metody pozyskiwaia i prezetacji, a przede wszystkim aalizy daych opisujących zjawiska masowe. Metody statystycze oparte są a rachuku prawdopodobieństwa. STATYSTYCZNA ANALIZA DANYCH: etap badaia statystyczego polegający a wykrywaiu - przy użyciu odpowiedich metod - prawidłowości kształtowaia się zjawisk statystyczych oraz związków i zależości miedzy imi, a także a iterpretacji wyików badań i formułowaiu wiosków ZDARZENIE ELEMENTARNE to możliwy wyik doświadczeia losowego. Wszystkie takie możliwe wyiki tworzą zbiór zdarzeń elemetarych. ZMIENNA LOSOWA, to fukcja, która zdarzeiom losowym przypisuje liczby. Na przykład, losując z pewej populacji jedego osobika przypisujemy mu jego wagę. Rodzaje zmieych losowych: ) skokowa (dyskreta) ) ciągła
PRAWDOPODOBIEŃSTWEM (wg Laplace) zajścia zdarzeia A azywamy iloraz liczby zdarzeń sprzyjających zdarzeiu A do liczby wszystkich możliwych przypadków, zakładając, że wszystkie przypadki wzajemie się wykluczają i są jedakowo możliwe. PRAWDOPODOBIEŃSTWO - defiicja częstościowa (Vo Mises) gdzie A to liczba rezultatów sprzyjających zdarzeiu A po próbach
AKSJOMATYCZNA DEFINICJA PRAWDOPODOBIEŃSTWA (KOŁMOGOROWA) ) Dla daego zbioru E zachodzi: Ozacza to, że prawdopodobieństwo zbioru zdarzeń E jest liczbą rzeczywistą większą lub rówą 0 i miejszą lub rówą ) prawdopodobieństwo, że wystąpi jakieś zdarzeie elemetare w przestrzei wyosi. Iymi słowy: ie ma zdarzeń elemetarych poza zbiorem Ω. 3) Każdy przeliczaly ciąg parami rozłączych zdarzeń elemetarych E, E,... spełia własość: To zaczy: prawdopodobieństwo zdarzeie, które jest sumą rozłączych zdarzeń, obliczamy jako sumę prawdopodobieństw tych zdarzeń. 3
Sumą (alteratywą) dwóch zdarzeń A i B azywamy zdarzeie zawierające wszystkie zdarzeia elemetare ależące do A lub B - zajdzie przyajmiej jedo ze zdarzeń. Iloczyem (koiukcją) dwóch zdarzeń A i B azywamy zdarzeie zawierające wszystkie zdarzeia elemetare ależące do A i do B - zajdą rówocześie zdarzeia A i B. Różicą dwóch zdarzeń A i B azywamy zdarzeie A - B, składające się ze zdarzeń elemetarych ależących do A i ie ależących do B - zajdzie zdarzeie A i ie zajdzie B. Zdarzeiem przeciwym do A azywamy zdarzeie zawierające wszystkie zdarzeia elemetare ieależącedo A, tz.. Przykład Rzucamy kostką do gry: E = {e,e,e 3,e 4,e 5,e 6 }. Zdarzeie A polega a wyrzuceiu ieparzystej liczby oczek: A = {e,e 3,e 5 }, a zdarzeie B - liczba oczek jest miejsza od 4: B = {e,e,e 3 }. 4
ROZKŁAD ZMIENNEJ LOSOWEJ zbiór wartości zmieej losowej oraz prawdopodobieństwa, z jakimi są te wartości przyjmowae. Przykład. Jedokroty rzut kostką. Zmiea losowa: ilość wyrzucoych oczek. Zbiór wartości: {,, 3, 4, 5, 6} DYSTRYBUANTA to fukcja F(x)=P(X x) Najważiejsze własości dystrybuaty. 0 F(x). F( ) = 0, F() = 3. dystrybuata jest fukcja iemalejącą 4. P{a < X b} = F(b) F(a) 5
6
Zmiea losowa ciągła Fukcja (gęstości) rozkładu prawdopodobieństwa f jest fukcja określoa a zbiorze liczb rzeczywistych R wzorem Najważiejsze własości fukcji gęstości 7
Podstawowe parametry rozkładu zmieej losowej skokowej W rachuku prawdopodobieństwa wartość oczekiwaa (iaczej wartość przecięta, wartość średia, adzieja matematycza) skokowej (dyskretej) zmieej losowej jest sumą iloczyów wartości tej zmieej losowej oraz prawdopodobieństw, z jakimi te wartości są przyjmowae. E(X) = i= x i p i Wariacja to klasycza miara zmieości. Wyraża zróżicowaie zbiorowości, jest średią arytmetyczą kwadratów odchyleń poszczególych wartości cechy od średiej arytmetyczej zbiorowości. D (X) = i= [x i E(X)] pi 8
Odchyleie stadardowe D (X) = D (X) Przykładowe rozkłady zmieych losowych skokowych ) Rozkład dwupuktowy Z rozkładem dwupuktowym mamy do czyieia wówczas, gdy w wyiku doświadczeia możemy uzyskać tylko jedą z dwóch wartości zmieej losowej: x lub x z prawdopodobieństwami odpowiedio p oraz -p. W szczególym przypadku, gdy x =0 oraz x = rozkład te azyway jest rozkładem zero-jedykowym. ) Rozkład dwumiaowy (Berouliego) Rozkład dwumiaowy występuje wówczas, gdy przeprowadza się jedakowych doświadczeń, z których każde może zakończyć się jedym z dwóch wyików: sukcesem z prawdopodobieństwem p lub porażką z 9
prawdopodobieństwem -p. Zmieą losową X w tym eksperymecie jest liczba sukcesów w próbach. Rozkład prawdopodobieństwa w rozkładzie Beroulliego jest określoy wzorem: P(X = k) = k p k ( E(X)= p D (X)= p (-p) p) k D (X) = p (- p) 3) Rozkład Poissoa jest rozkładem zmieej losowej skokowej, z którym mamy do czyieia w przypadku określaia prawdopodobieństwa zajścia zdarzeń stosukowo rzadkich i iezależych od siebie, takich jak p. liczba usterek w produkowaej partii materiału. Rozkład Poissoa jest przybliżeiem rozkładu Beroulliego dla dużych 0
prób i przy małym prawdopodobieństwie zajścia zdarzeia ( sukcesu ). P(X k λ = k) = e k! λ e - podstawa logarytmów aturalych, λ - stała, która jest wartością oczekiwaą i rówocześie wariacją rozkładu,
Przykładowe rozkłady zmieych losowych ciągłych ) Rozkład jedostajy Jest to ajprostszy z rozkładów zmieej losowej ciągłej. Mamy z im do czyieia wtedy, gdy prawdopodobieństwo zajścia zdarzeia jest stałe w pewym przedziale <a, b>. Fukcja gęstości tego rozkładu jest daa wzorem: f(x)= { x [a,b b a 0 dla pozostałych x dla ] E(X) = D(X) = a + b b a 3 (b a) D (X) =
) Rozkład ormaly, zway także rozkładem Gaussa-Laplace'a jest ajczęściej spotykaym w aturze rozkładem zmieej losowej ciągłej. Ciągła zmiea losowa X ma rozkład ormaly o wartości oczekiwaej µ i odchyleiu stadardowym σ co ozaczamy X~N(µ,σ ), jeśli jej fukcja gęstości określoa dla wszystkich rzeczywistych wartości x da się przedstawić za pomocą wzoru: µ=e(x), σ=d(x) 3
Stadaryzacja Jeżeli X~N(µ,σ ) 4
ORGANIZACJA BADANIA STATYSTYCZNEGO Określeie: a) populacji b) jedostki populacji c) cechy populacji Metody badaia statystyczego ) Badaie pełe (badaie obejmuje całą populację) ) Badaie częściowe (badaie odbywa się a pewych losowo wyodrębioych elemetach populacji, czyli próbie losowej) a) metoda reprezetacyja b) metoda moograficza c) metoda akietowa 5
OPRACOWANIE MATERIAŁU STATYSTYCZNEGO Charakterystyki położeia - Średia arytmetycza: X = X i= i = x + x +... + x - ie średie: średia harmoicza średia geometrycza - Mediaa dla ieparzystych dla parzystych 6
Charakterystyki rozproszeia - Odchyleie przecięte d = x i x - Wariacja s = i= i= ( x i x) - Odchyleie stadardowe s = s = i= wartości typowe: (x-s,x+s) - współczyik zmieości V = - kwartyle, decyle, cetyle s 00% x ( x i x) 7
Grupowaie daych - proste (jeda cecha p. wg wieku) - złożoe (wiele cech p. wg wieku i płci) Wartości cechy (p. wiek) Liczebość Częstość 0-0 5 0.5 0-0 8 0.40 0-30 5 0.5 30-40 0.05 40-50 0.05 Przedstawiaie graficze za pomocą histogramu 0 8 6 4 0 0-0 0-0 0-30 30-40 40-50 8
Estymacja - to dział wioskowaia statystyczego będący zbiorem metod pozwalających a uogóliaie wyików badaia próby losowej a iezaą postać i parametry rozkładu zmieej losowej całej populacji oraz szacowaie błędów wyikających z tego uogólieia. Metody estymacji parametryczej moża w zależości od sposobu szacowaia szukaego parametru podzielić a dwie grupy: - estymacja puktowa (szacowaie wartości) - estymacja przedziałowa (szacowaie przedziałów) 9
Estymatory puktowe - estymator wariacji s = ( x i x) i= suma kwadratów odchyleń od średiej varx = i= ( x i x) - estymator odchyleia stadardowego s = s = i= Estymatory przedziałowe Przedział ufości dla średiej ( x i x) t(α; ): wartość krytycza rozkładu t - Studeta z -(v) stopiami swobody 0
Poziom ufości: α ustaloe z góry prawdopodobieństwo z jakim te przedział pokrywa iezaą wartość parametru p. średiej Przedział ufości dla wariacji (Średia µ jest iezaa) χ (α; ) jest wartością krytycza rozkładu chi kwadrat z v stopiami swobody. Przedział ufości dla odchyleia stadardowego
ESTYMACJA (ciąg dalszy dwie populacje) Przedział ufości dla różicy średich Dla populacji o rozkładzie ormalym x x ) tα, ν, Sr;(x x) + tα, ν, {( Sr} jest to przedział w którym z prawdopodobieństwem -α zawiera się różica średich dla populacji (m -m ). Zakładamy, że wariacje dla tych populacji są rówe tj. σ = σ gdzie: S r = Se + - błąd różicy średich S e = var X ( ) + + var X ( ) - wariacja wspóla varx suma kwadratów odchyleń od średiej t α,ν - wartość dla rozkładu t-studeta przy ustaloym α (ajczęściej 0,05) oraz v (liczba stopi swobody, czyli + - ).
ESTYMACJA ROZKŁAD DWUPUNKTOWY Przedział ufości dla wskaźika struktury w rozkładzie dwupuktowym m { z α m ( m ) ; m + z α m ( m ) } jest to przedział ufości, w którym wskaźik struktury w rozkładzie dwupuktowym zawiera się z prawdopodobieństwem -α, gdzie: m- liczba elemetów wyróżioych zalezioych w próbie - liczebość próby z α - wartość z tablic rozkładu ormalego N(;0) dla ustaloej wartości α Przykłady rozkładu dwupuktowego: ) udział asio kiełkujących i iekiełkujących w materiale siewym ) udział produktów sprawych i wadliwych w produkowaej serii 3
Przedział ufości dla różicy dwóch frakcji (rozkład dwupuktowy) ma mb ma mb {( ) zα SPr ;( ) + zα SPr} A B W przedziale ufości z prawdopodobieństwem -α zawiera się wartość różicy prawdopodobieństw dwóch rozkładów dwupuktowych (p A -p B ). m A, m B liczby elemetów wyróżioych w próbach A, B liczebości prób SPr = p ( p) ( + A B ) A B p = m A A + + m B B Powyższe wzory moża zastosować tylko dla prób o dużej liczebości > 00 elemetów 4
HIPOTEZY STATYSTYCZNE I ICH WERYFIKACJA Weryfikacja (testowaie) hipotez statystyczych, czyli sprawdzeie określoych przypuszczeń (założeń) wysuiętych w stosuku do parametrów lub rozkładu populacji geeralej a podstawie próby. Podział hipotez: Hipotezy statystycze dotyczące rozkładu populacji Hipotezy parametrycze dotyczące parametrów rozkładu (który jest zay) Test statystyczy reguła postępowaia, która pozwala a przyjęcie (ieodrzuceie) bądź odrzuceie sprawdzaej hipotezy Błąd I rodzaju błąd odrzuceia, występuje gdy odrzucamy hipotezę, atomiast jest oa prawdziwa Błąd II rodzaju błąd przyjęcia, występuje gdy przyjmujemy hipotezę, atomiast jest oa fałszywa Prawdopodobieństwo popełieia błędu I rodzaju azywamy poziomem istotości (α) 5
Hipotezy dla cech mających rozkład ormaly ) Porówaie średiej z ormą Ho: µ= µ 0 x µ 0 temp = Fukcja testowa S Gdzie S x błąd stadardowy x S x = Wartość krytycza t α,ν, dla rozkładu t-studeta, gdzie α jest przyjętym poziomem istotości (ajczęściej 0,05), a ν liczbą stopi swobody, czyli liczebość próby pomiejszoa o (-) Jeżeli t emp > t α,ν to hipotezę H 0 odrzucamy i przyjmujemy hipotezę alteratywą H : µ µ 0 ) Porówaie średich populacji Ho: µ = µ założeie σ = σ x y temp = Fukcja testowa Sr Gdzie S r błąd różicy średich s 6
Wartość krytycza t α,ν, dla rozkładu t-studeta, gdzie α jest przyjętym poziomem istotości (ajczęściej 0,05), a ν liczbą stopi swobody, czyli liczebość prób pomiejszoa o ( + -) Jeżeli t emp > t α,ν to hipotezę H 0 odrzucamy i przyjmujemy hipotezę alteratywą H : µ µ 3) Porówaie wariacji populacji Ho: σ = σ s F emp = Fukcja testowa s Wartość krytycza F α,ν,u dla rozkładu F-Fishera, gdzie α jest przyjętym poziomem istotości (ajczęściej 0,05), a ν i u liczbami stopi swobody, czyli liczebością próby pierwszej ( -) i drugiej ( -) Wartość s >s Jeżeli F emp > F α,ν,u to H 0 odrzucamy 7
Porówaie średich w wielu populacjach o rozkładzie ormalym Aaliza wariacji (ANOVA) Założeia: X i ~N(µ,σ ) σ = σ = σ 3 =... = σ i model aalizy wariacji: gdzie: y ij = µ+a i +e ij y ij wielkość cechy µ średia ogóla a i efekt i-tego poziomu czyika e ij błędy losowe, o rozkładzie N(0, σ e ) Hipoteza: a = a = a 3 =...= a i Tabela aalizy wariacji: 8
Fukcja testowa F emp Wartość krytycza F α,k-,-k α poziom istotości (ajczęściej przyjmujemy 0,05) 9
k liczba poziomów czyika liczebość prób Jeżeli F emp > F α,k-,-k to H 0 odrzucamy Porówaia wielokrote (szczegółowe) Grupy jedorode podzbiory średich, które moża uzać za takie same Procedury porówań wielokrotych postępowaie statystycze zmierzające do podzieleia zbioru średich a grupy jedorode Procedury: Tukeya, Scheff ego, Bofferroiego, Ducaa, Newmaa Kuelsa i ie. NIR ajmiejsza istota różica Procedura Tukeya NIR = t α,k,-k t α,k,-k wartość krytycza studetyzowaego rozstępu 30
WSPÓŁCZYNNIK KORELACJI Współczyik korelacji liiowej Pearsoa (ozaczay ajczęściej symbolem - r) określa poziom zależości liiowej między zmieymi losowymi. r = cov( X, Y) s x s y gdzie, wartość kowariacji (cov) a podstawie próby liczymy wg astępującego wzoru: cov(x, Y) = (Xi X)(Yi Y) i= atomiast s x i s y są odchyleiami stadardowymi dla zmieej X i Y Współczyik korelacji liiowej dwóch zmieych jest, zatem ilorazem kowariacji i iloczyu odchyleń stadardowych. Współczyik korelacji liiowej przyjmuje zawsze wartości w zakresie [ -,]. Im większa wartość bezwzględa współczyika, tym większa jest zależość liiowa między zmieymi. r xy = 0 ozacza brak korelacji, r xy = ozacza silą korelację dodatią, jeżeli jeda zmiea (x) rośie to rówież rośie druga zmiea (y), atomiast r xy = - ozacza korelację ujemą (jeżeli zmiea x rośie, to y maleje i a odwrót). 3
Stopień korelacji sila dodatia (r = 0,8) sila ujema (r = -0,8) słaba dodatia (r = 0,3) umiarkowaa ujema (r = -0,5) brak korelacji (r = 0,0) słaba ujema (r = -0,3) Testowaie istotości korelacji Hipoteza zerowa: H 0 :ρ=0 ρ- wartość współczyika korelacji dla całej populacji Jeżeli r emp >r α,,- to H 0 odrzucamy. r α,,- jest wartością krytyczą współczyika korelacji prostej Pearsoa 3
Regresja prosta liiowa Regresja liiowa to metoda estymowaia wartości oczekiwaej jedej zmieej (Y) zając wartości iej zmieej (X). Szukaa zmiea, Y, jest azywaa zmieą zależą, zmiea X azywa się zmieą iezależą. Model regresji prostej liiowej: y i =a+bx i +e i gdzie: b- współczyik regresji a stała regresji e i błędy losowe o rozkładzie N(0;σ e ) Estymację współczyików rówaia regresji prowadzi się zwykle metodą ajmiejszych kwadratów, która polega a miimalizacji astępującej sumy kwadratów: (y i a bx i ) i= Estymatory wartości współczyików a i b oblicza się ze wzorów: b = cov( X, Y) s x a = y bx 33
Przedział ufości dla współczyika regresji: (b - t α;- S b ; b + t α;- S b ) gdzie wariacja estymatora b S b = S var X Testowaie hipotezy H 0 : b=0 jest rówoważe z testowaiem hipotezy o istotości korelacji plo ziara pszeicy (t/ha) 8 7 6 5 4 3 0 y = 0,0439x + 0,743 R = 0,899 0 0 40 60 80 00 0 40 awożeie N (kg/ha) R współczyik determiacji, który określa stosuek zmieości wyjaśiaej przez model regresji do zmieości całkowitej. W przypadku regresji prostej liiowej R =r xy 34
Regresja wielokrota liiowa Jeżeli zmiea zależa (Y) jest determiowaa przez więcej iż jedą zmieą iezależą (X i ) to estymoway model regresji możemy zapisać rówaiem: Y = a + b X + b X +... + b k X k W przypadku regresji wielokrotej zastosowaie metody ajmiejszych kwadratów to miimalizowaie sumy: i= (yi a bxi bxi... bkx ik ) 35
Graficze przedstawieie regresji z zmieymi iezależymi (X, X ) 36
Test iezależości cech jakościowych - Test χ Rozważając liczbę obserwacji sklasyfikowaych wg dwóch kryteriów, p. ludzi wg koloru oczu i koloru włosów (kolory oczu: brązowy, iebieski; kolory włosów: blodyi, szatyi, brueci) lub p. rośliy pszeicy wg odmiay i stopia porażeia chorobą (odmiay: Olimpia, Eta, Kotesa; stopień porażeia: brak, słaby, średi, duży, bardzo duży) w każdej z klas liczymy liczbę osobików i przedstawiamy w postaci tablicy dwudzielej zwaej tablica kotygecji Tablica kotygecji Klasy cechy Klasy cechy X Y A A A 3 A 4 A m razem B 3 4 m Σ i B 3 4 m Σ i B 3 3 3 33 43 m3 Σ i3 B k k k 3k 4k mk razem Σ j Σ j Σ 3j Σ 4j Σ ij 37
- liczebości osobików zaliczoych do określoej klasy H o : Cechy X i Y są iezależe Statystyka testowa 38