Probabilistyka i statystyka - Teoria 1 Prawdopodobieństwo 1. Aksjomatyczna definicja prawdopodobieństwa Kołmogorowa: P (E) 0 - prawdopodobieństwo dowolnego zdarzenia jest większe lub równe 0 by Antek Grzanka, TI AGH 2012 wersja z 12 czerwca 2013 P (Ω) = 1 - prawdopodobieństwo wystąpienia zdarzenia elemetarnego jest równe 1 P (E 1 E 2 E 3...) = i P (E i) - prawdopodobieństwo zdarzenia, które jest sumą rozłącznych zdarzeń, obliczamy jako sumę prawdopodobieństw tych zdarzeń. 2. Cechy prawdopodobieństwa P ( ) = 0 P (A ) = 1 P (A) A B => P (B\A) = P (B) P (A) P (A) 1 P (A B) = P (A) + P (B) P (A B) 3. Prawdopodobieństwo warunkowe P (A B) = P (A B) P (B) wiemy, że B zaszło, zatem Ω zawęża się do B a A zawęża się do A B 4. Prawdopodobieństwo wylosowania konkretnej liczby rzeczywistej jest zawsze równe zero! - możemy wylosować tylko do pewnej dokładności, na przykład 0,500 to tak naprawdę przedział od 0,4995(9) do 0,5004(9). 5. Prawdopodobieństwo całkowite P (A) = n i=1 P (A B i) P (B i ) 6. Wzór Bayesa P (B i A) = P (A Bi) P (A) = P (A B i) P (B i) n P (A Bi) P (Bi) i=1 7. Niezależność zdarzeń P (A) P (B) = P (A B) <=> zdarzenia są niezależne niezależność w matematyce zawsze jest dwustronna, tj. jeśli A nie zależy od B to B nie zależy od A niezależności nie można mylić z wykluczaniem się 2 Zmienna losowa 1. Zmienna losowa to funkcja przypisująca zdarzeniom elementarnym liczby. Intuicyjnie: odwzorowanie przenoszące badania prawdopodobieństwa z niewygodnej przestrzeni probabilistycznej do dobrze znanej przestrzeni euklidesowej. To żadna konkretna wartość, za każdym razem gdy ją losujemy jest inna. 2. Zmienna losowa może być ograniczona dyskretna - np. ocena jakości od 1 do 5 ograniczona ciągła - np. procent wykorzystania pasma nieograniczona dyskretna - np. numer karty sim nieograniczona ciągła - np. czas rozmowy telefonicznej 1
3. Dystrybuanta F X (x) = P (X x) = x f(u)du Cechy dystrybuanty: F X ( ) = 0 F X ( ) = 1 F X (x) jest niemalejąca F X (x) jest prawostronnie ciągła 4. Gęstość f(x) = Fx(x) x Cechy gęstości: f(x) 0 f(x)dx = 1 5. Gęstość brzegowa f x (x) = f(x, y)dy lub f y (y) = f(x, y)dx całkujemy po tych zmiennych, których nie chcemy mówimy o niej wtedy, gdy obserwujemy tylko jedną zmienną, ale daną mamy gęstość po obu 6. Zmienne losowe są niezależne gdy F X,Y (x, y) = F X (x) F Y (y) lub f(x, y) = f x (x) f y (y) 3 Parametry rozkładów O parametrach rozkładu mówimy po to, żeby jeszcze łatwiej było nam porównywać zdarzenia. Dzięki nim porównujemy liczby, a nie gęstości czy dystrybuanty. Tracimy jednak sporą część informacji, które mimo wszystko są ważne do podjęcia decyzji. 1. Wartość oczekiwana Wartość określająca spodziewany wynik doświadczenia losowego. Określa sprawiedliwość gry. Definicja: dyskretnie E(X) = i=1 i p i, ciągle E(x) = x f(x)dx w szczególności E(ϕ(X)) = ϕ(x) f(x)dx można też wielowymiarowo: E([X; Y ]) = [ x f x(x)dx; y f y(y)dy] - gęstości brzegowe jest liniowa: E(X + Y ) = E(X) + E(Y ) 2. Wariancja Definicja: D 2 (X) = E((X E(X)) 2 ) ale łatwiej liczyć z D 2 (X) = E(X 2 ) E 2 (X) 3. Odchylenie standardowe σ = D 2 (X) Jest to odchylenie zmiennej losowej X od swojej wartości oczekiwanej. 4. Kowariancja Cov(X, Y ) = E(XY ) E(X) E(Y ) 5. Wariancja wielowymiarowa [ - Macierz wariancji-kowariancji ] D np. dla dwóch wymiarów 2 X Cov(X, Y ) Cov(Y, X) D 2 Y 2
6. Moment centralny rzędu n µ n = E((X E(X)) n ) zauważmy, że moment centralny rzędu 2 to wariancja ponadto moment centralny rzędu 1 to 0 7. Moment zwykły rzędu k m k = E(X k ) zauważmy, że moment zwykły rzędu 1 to wartość oczekiwana ponadto moment zwykły rzędu 0 to 1 8. Moda (dominanta) dyskretnie: d = i : p i = max j p j, ciągle: d = x : f(x) = max i f(i) nie musi zawsze istnieć (np dla równomiernego nie istnieje) może istnieć tylko jedna 9. Skośność A d = E(X) d σ przesunięcie rozkładu względem wartości średniej 10. Kwantyl rzędu p - x p F (x p ) p P (X [x p, )) 1 p } => F (x p) = p np. kwantyl rzędu 0.5 (mediana) znaczy że dokładnie połowa obserwacji jest za jego wartością, a połowa przed kwantyl rzędu 0.25 analogicznie mówi, że 0.25 obserwacji jest przed nim, a 0.75 za nim. jeżeli dystrybuanta jest odwracalna, to kwantyl jest jej odwrotnością 4 Rozkłady 1. Równomierny X U(a, b) 2. Eksponencjalny X Exp(λ) f(x) = 1 b a 1 (a,b)(x) F (x) = 0 x a x b a x (a, b] 1 x > b 3
3. Gamma X Γ(α, β) { 0 x 0 f(x) = λe λx 1 [0, ) (x) F (x) = 1 e λx x > 0 4. Normalny X N(µ, σ) warto zapamiętać, że parametrami rozkładu normalnego są µ - wartość oczekiwana i σ - odchylenie standardowe 5. Weibull X W eibull(λ, k) 4
6. Pareto X P areto(α, β) 7. Centralne twierdzenie graniczne uzasadnia nam, czemu w przyrodzie powszechnie występują rozkłady normalne. Suma niewiele zależnych od siebie składników losowych, z których żaden nie dominuje istotnie nad pozostałymi, ma w przybliżeniu rozkład normalny. n i=1 x i nµ σ N(0, 1) n lub X µ σ n N(0, 1) Uwaga: centralne twierdzenie graniczne nie sprawi, by przy dostatecznie dużej próbie rozkład stał się normalny. Jedynie rozkład średniej z tej próby upodabnia się do normalnego. 5 Statystyka 1. Statystyka (nauka) jest po to, żeby na podstawie możliwie małej próby móc wywnioskować o parametrach rozkładu u całej populacji. Na przykład na podstawie zmierzenia wzrostu 3000 osób móc wnioskować o tym jaki jest średni wzrost każdego Polaka. Często niemożliwe jest żeby zmierzyć dokładnie wartość oczekiwaną z całej populacji (nie da rady zmierzyć dosłownie każdego Polaka). 2. Kłopotem jest odpowiedni dobór próby. Próba obciążona, to taka w której faworyzujemy pewne cechy lub wydarzenia np. wśród 3000 mierzonych przez nas osób połowa gra w koszykówkę. Wiadomo, że wtedy średnia wzrostu obliczona ze zmierzonych wartości będzie się miała nijak do prawdziwej średniej obliczonej ze wszystkich Polaków (czyli notabene: wartości oczekiwanej). Dlatego też próby obciążone są niepożądane. 3. Statystyką nazywamy też funkcję operująca na zmiennych losowych Θ(X 1, X 2,..., X n ). Szczególnym jej przypadkiem jest właśnie estymator czyli statystyka służąca nam do przybliżania parametru rozkładu. Zakładamy, że rozkład szukanej cechy jest np. normalny i szukamy np. wartości oczekiwanej. Potrzebujemy zatem znaleźć jakiś jej estymator. Dobrym jest średnia arytmetyczna wszystkich pomiarów. 5
4. Estymator może być: Nieobciążony - spełnia wszystkie warunki do tego, żeby dobrze przybliżyć nam parametr Asymptotycznie obciążony - im więcej próbek, tym mniej obciążony, dla n jest nieobciążony Efektywny - z najmniejszą możliwą wariancją Zgodny - im więcej próbek, tym bardziej dokładny Dostateczny - wydobywa całą możlwą informację z próby 5. Sposoby znajdowania estymatorów punktowych Metoda momentów - tworzymy jakiś układ równań z momentów różnych rzędów z jednoznacznym rozwiązaniem, yyy Metoda największej wiarygodności - zakładamy, że zmienne są niezależne; tworzymy funkcję wiarygodności: dyskretnie: L = P (X 1 = x 1 ; p) P (X 2 = x 2 ; p)... = n i=1 P (X i = x i ; p) ciągle: L = f(x 1 ; λ) P (x 2 ; λ)... = n i=1 f(x n; λ) tworzymy następnie logarytmiczną funkcję wiarygodności i liczymy jej maksimum: dl l = ln(l) dλ = 0 Metoda Bayesa - nią się nie zajmujemy 6. Przedział ufności dla danej miary statystycznej informuje nas ńa ile możemy ufać danej wartości- jak sama nazwa wskazuje. Przedział ufności pokazuje nam że poszukiwana przez nas rzeczywista wartość mieści się w pewnym przedziale z założonym prawdopodobieństwem. Aby do czegokolwiek dojść, musimy mieć dany poziom istotności α, tj. współczynnik niepewności z którą się liczymy (najczęściej 0,05 lub 0,01). Przedział ufności dla wartości średniej ze znaną wariancją: P (L < X < U) = 1 α, zatem L = X z α σ 2 n, U = X + z α 2 σ n gdzie z α - kwantyl rzędu α 2 2 z rozkładu: dla n > 30 normalnego a dla n < 30 rozkładu t-studenta. Przedział ufności dla wartości średniej z nieznaną wariancją: musimy przybliżyć wariancję przez estymator s 2 = 1 n n i=1 (x i µ) 2.. Ostatecznie otrzymujemy, że L = X t α s 2 n 1, U = X + z α 2 gdzie t α 2 - kwantyl rzędu α 2 s n 1 z rozkładu t-studenta o n-1 stopniach swobody. 7. Testowanie hipotez statystycznych stosujemy wtedy, gdy chcemy zweryfikować prawdziwość danej hipotezy na temat cech populacji. Jak działać, na przykładzie: Kupujemy serwer z czasem odpowiedzi µ = 50ms, podczas gdy podczas jego pracy u nas wyliczamy, że odpowiada w czasie ˆµ = 52ms. Aby dowiedzieć się, czy sprzedawca nas oszukał musimy przeprowadzić weryfikację hipotez statystycznych. Na początek hipotezę zerową - H 0, zakładającą że wszystko jest w porządku: µ = 50ms. Później stawiamy hipotezę alternatywną, na jeden z trzech sposobów: H 1 : µ 50ms lub µ 50ms lub µ 50ms. Następnie obliczamy wartość określonej statystyki testowej (z reguły danej) i sprawdzamy, czy mieści się ona w przedziale ufności (przy określonym α) dla sprawdzanego parametru - tutaj wartości oczekiwanej. Jeżeli się w nim zawiera, to nie mamy podstaw do odrzucenia hipotezy H 0, jeżeli nie to możemy odrzucić H 0 i przyjąć H 1. Błędy jakie możemy popełnić podczas sprawdzania tychże hipotez. błąd I rodzaju - α, false positive, błąd polegający na odrzuceniu prawdziwej hipotezy, jest to nasz poziom istotności 6
błąd II rodzaju - β, false negative, błąd polegający na nieodrzuceniu hipotezy która jest fałszywa - nie mamy na niego wpływu 8. Regresja liniowa polega na tym, żeby do dyskretnych danych dopasować możliwie jak najlepiej funkcję ciągłą. Tak jak do pomiarów na laborkach z fizyki kazali nam dopasowywać prostą i wzór funkcji. 9. Jeszcze by coś wypadało wspomnieć o prezentacji danych... 7