Probabilistyka i statystyka - Teoria

Podobne dokumenty
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Kolokwium ze statystyki matematycznej

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

metoda momentów, Wartość oczekiwana (pierwszy moment) dla zmiennej o rozkładzie γ(α, λ) to E(X) = αλ, drugi moment (wariancja) to

Weryfikacja hipotez statystycznych

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Statystyka matematyczna dla leśników

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Własności statystyczne regresji liniowej. Wykład 4

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Spis treści 3 SPIS TREŚCI

Testowanie hipotez statystycznych.

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Testowanie hipotez statystycznych

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Rozkłady statystyk z próby

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

STATYSTYKA

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Testowanie hipotez statystycznych.

STATYSTYKA Statistics. Inżynieria Środowiska. II stopień ogólnoakademicki

Komputerowa Analiza Danych Doświadczalnych

PDF created with FinePrint pdffactory Pro trial version

Testowanie hipotez statystycznych

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Wykład 3 Hipotezy statystyczne

Hipotezy statystyczne

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Prawdopodobieństwo i statystyka r.

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Hipotezy statystyczne

Wykład 3 Jednowymiarowe zmienne losowe

Statystyka matematyczna i ekonometria

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

POLITECHNIKA WARSZAWSKA

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka matematyczna i ekonometria

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Wnioskowanie statystyczne. Statystyka w 5

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

1.1 Wstęp Literatura... 1

1 Podstawy rachunku prawdopodobieństwa

Statystyka i eksploracja danych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

166 Wstęp do statystyki matematycznej

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

WYKŁAD 8 ANALIZA REGRESJI

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Dr Anna ADRIAN Paw B5, pok 407

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Rachunek prawdopodobieństwa i statystyka

Z Wikipedii, wolnej encyklopedii.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Prawdopodobieństwo i statystyka

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Zawartość. Zawartość

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Przykład 1 ceny mieszkań

Transkrypt:

Probabilistyka i statystyka - Teoria 1 Prawdopodobieństwo 1. Aksjomatyczna definicja prawdopodobieństwa Kołmogorowa: P (E) 0 - prawdopodobieństwo dowolnego zdarzenia jest większe lub równe 0 by Antek Grzanka, TI AGH 2012 wersja z 12 czerwca 2013 P (Ω) = 1 - prawdopodobieństwo wystąpienia zdarzenia elemetarnego jest równe 1 P (E 1 E 2 E 3...) = i P (E i) - prawdopodobieństwo zdarzenia, które jest sumą rozłącznych zdarzeń, obliczamy jako sumę prawdopodobieństw tych zdarzeń. 2. Cechy prawdopodobieństwa P ( ) = 0 P (A ) = 1 P (A) A B => P (B\A) = P (B) P (A) P (A) 1 P (A B) = P (A) + P (B) P (A B) 3. Prawdopodobieństwo warunkowe P (A B) = P (A B) P (B) wiemy, że B zaszło, zatem Ω zawęża się do B a A zawęża się do A B 4. Prawdopodobieństwo wylosowania konkretnej liczby rzeczywistej jest zawsze równe zero! - możemy wylosować tylko do pewnej dokładności, na przykład 0,500 to tak naprawdę przedział od 0,4995(9) do 0,5004(9). 5. Prawdopodobieństwo całkowite P (A) = n i=1 P (A B i) P (B i ) 6. Wzór Bayesa P (B i A) = P (A Bi) P (A) = P (A B i) P (B i) n P (A Bi) P (Bi) i=1 7. Niezależność zdarzeń P (A) P (B) = P (A B) <=> zdarzenia są niezależne niezależność w matematyce zawsze jest dwustronna, tj. jeśli A nie zależy od B to B nie zależy od A niezależności nie można mylić z wykluczaniem się 2 Zmienna losowa 1. Zmienna losowa to funkcja przypisująca zdarzeniom elementarnym liczby. Intuicyjnie: odwzorowanie przenoszące badania prawdopodobieństwa z niewygodnej przestrzeni probabilistycznej do dobrze znanej przestrzeni euklidesowej. To żadna konkretna wartość, za każdym razem gdy ją losujemy jest inna. 2. Zmienna losowa może być ograniczona dyskretna - np. ocena jakości od 1 do 5 ograniczona ciągła - np. procent wykorzystania pasma nieograniczona dyskretna - np. numer karty sim nieograniczona ciągła - np. czas rozmowy telefonicznej 1

3. Dystrybuanta F X (x) = P (X x) = x f(u)du Cechy dystrybuanty: F X ( ) = 0 F X ( ) = 1 F X (x) jest niemalejąca F X (x) jest prawostronnie ciągła 4. Gęstość f(x) = Fx(x) x Cechy gęstości: f(x) 0 f(x)dx = 1 5. Gęstość brzegowa f x (x) = f(x, y)dy lub f y (y) = f(x, y)dx całkujemy po tych zmiennych, których nie chcemy mówimy o niej wtedy, gdy obserwujemy tylko jedną zmienną, ale daną mamy gęstość po obu 6. Zmienne losowe są niezależne gdy F X,Y (x, y) = F X (x) F Y (y) lub f(x, y) = f x (x) f y (y) 3 Parametry rozkładów O parametrach rozkładu mówimy po to, żeby jeszcze łatwiej było nam porównywać zdarzenia. Dzięki nim porównujemy liczby, a nie gęstości czy dystrybuanty. Tracimy jednak sporą część informacji, które mimo wszystko są ważne do podjęcia decyzji. 1. Wartość oczekiwana Wartość określająca spodziewany wynik doświadczenia losowego. Określa sprawiedliwość gry. Definicja: dyskretnie E(X) = i=1 i p i, ciągle E(x) = x f(x)dx w szczególności E(ϕ(X)) = ϕ(x) f(x)dx można też wielowymiarowo: E([X; Y ]) = [ x f x(x)dx; y f y(y)dy] - gęstości brzegowe jest liniowa: E(X + Y ) = E(X) + E(Y ) 2. Wariancja Definicja: D 2 (X) = E((X E(X)) 2 ) ale łatwiej liczyć z D 2 (X) = E(X 2 ) E 2 (X) 3. Odchylenie standardowe σ = D 2 (X) Jest to odchylenie zmiennej losowej X od swojej wartości oczekiwanej. 4. Kowariancja Cov(X, Y ) = E(XY ) E(X) E(Y ) 5. Wariancja wielowymiarowa [ - Macierz wariancji-kowariancji ] D np. dla dwóch wymiarów 2 X Cov(X, Y ) Cov(Y, X) D 2 Y 2

6. Moment centralny rzędu n µ n = E((X E(X)) n ) zauważmy, że moment centralny rzędu 2 to wariancja ponadto moment centralny rzędu 1 to 0 7. Moment zwykły rzędu k m k = E(X k ) zauważmy, że moment zwykły rzędu 1 to wartość oczekiwana ponadto moment zwykły rzędu 0 to 1 8. Moda (dominanta) dyskretnie: d = i : p i = max j p j, ciągle: d = x : f(x) = max i f(i) nie musi zawsze istnieć (np dla równomiernego nie istnieje) może istnieć tylko jedna 9. Skośność A d = E(X) d σ przesunięcie rozkładu względem wartości średniej 10. Kwantyl rzędu p - x p F (x p ) p P (X [x p, )) 1 p } => F (x p) = p np. kwantyl rzędu 0.5 (mediana) znaczy że dokładnie połowa obserwacji jest za jego wartością, a połowa przed kwantyl rzędu 0.25 analogicznie mówi, że 0.25 obserwacji jest przed nim, a 0.75 za nim. jeżeli dystrybuanta jest odwracalna, to kwantyl jest jej odwrotnością 4 Rozkłady 1. Równomierny X U(a, b) 2. Eksponencjalny X Exp(λ) f(x) = 1 b a 1 (a,b)(x) F (x) = 0 x a x b a x (a, b] 1 x > b 3

3. Gamma X Γ(α, β) { 0 x 0 f(x) = λe λx 1 [0, ) (x) F (x) = 1 e λx x > 0 4. Normalny X N(µ, σ) warto zapamiętać, że parametrami rozkładu normalnego są µ - wartość oczekiwana i σ - odchylenie standardowe 5. Weibull X W eibull(λ, k) 4

6. Pareto X P areto(α, β) 7. Centralne twierdzenie graniczne uzasadnia nam, czemu w przyrodzie powszechnie występują rozkłady normalne. Suma niewiele zależnych od siebie składników losowych, z których żaden nie dominuje istotnie nad pozostałymi, ma w przybliżeniu rozkład normalny. n i=1 x i nµ σ N(0, 1) n lub X µ σ n N(0, 1) Uwaga: centralne twierdzenie graniczne nie sprawi, by przy dostatecznie dużej próbie rozkład stał się normalny. Jedynie rozkład średniej z tej próby upodabnia się do normalnego. 5 Statystyka 1. Statystyka (nauka) jest po to, żeby na podstawie możliwie małej próby móc wywnioskować o parametrach rozkładu u całej populacji. Na przykład na podstawie zmierzenia wzrostu 3000 osób móc wnioskować o tym jaki jest średni wzrost każdego Polaka. Często niemożliwe jest żeby zmierzyć dokładnie wartość oczekiwaną z całej populacji (nie da rady zmierzyć dosłownie każdego Polaka). 2. Kłopotem jest odpowiedni dobór próby. Próba obciążona, to taka w której faworyzujemy pewne cechy lub wydarzenia np. wśród 3000 mierzonych przez nas osób połowa gra w koszykówkę. Wiadomo, że wtedy średnia wzrostu obliczona ze zmierzonych wartości będzie się miała nijak do prawdziwej średniej obliczonej ze wszystkich Polaków (czyli notabene: wartości oczekiwanej). Dlatego też próby obciążone są niepożądane. 3. Statystyką nazywamy też funkcję operująca na zmiennych losowych Θ(X 1, X 2,..., X n ). Szczególnym jej przypadkiem jest właśnie estymator czyli statystyka służąca nam do przybliżania parametru rozkładu. Zakładamy, że rozkład szukanej cechy jest np. normalny i szukamy np. wartości oczekiwanej. Potrzebujemy zatem znaleźć jakiś jej estymator. Dobrym jest średnia arytmetyczna wszystkich pomiarów. 5

4. Estymator może być: Nieobciążony - spełnia wszystkie warunki do tego, żeby dobrze przybliżyć nam parametr Asymptotycznie obciążony - im więcej próbek, tym mniej obciążony, dla n jest nieobciążony Efektywny - z najmniejszą możliwą wariancją Zgodny - im więcej próbek, tym bardziej dokładny Dostateczny - wydobywa całą możlwą informację z próby 5. Sposoby znajdowania estymatorów punktowych Metoda momentów - tworzymy jakiś układ równań z momentów różnych rzędów z jednoznacznym rozwiązaniem, yyy Metoda największej wiarygodności - zakładamy, że zmienne są niezależne; tworzymy funkcję wiarygodności: dyskretnie: L = P (X 1 = x 1 ; p) P (X 2 = x 2 ; p)... = n i=1 P (X i = x i ; p) ciągle: L = f(x 1 ; λ) P (x 2 ; λ)... = n i=1 f(x n; λ) tworzymy następnie logarytmiczną funkcję wiarygodności i liczymy jej maksimum: dl l = ln(l) dλ = 0 Metoda Bayesa - nią się nie zajmujemy 6. Przedział ufności dla danej miary statystycznej informuje nas ńa ile możemy ufać danej wartości- jak sama nazwa wskazuje. Przedział ufności pokazuje nam że poszukiwana przez nas rzeczywista wartość mieści się w pewnym przedziale z założonym prawdopodobieństwem. Aby do czegokolwiek dojść, musimy mieć dany poziom istotności α, tj. współczynnik niepewności z którą się liczymy (najczęściej 0,05 lub 0,01). Przedział ufności dla wartości średniej ze znaną wariancją: P (L < X < U) = 1 α, zatem L = X z α σ 2 n, U = X + z α 2 σ n gdzie z α - kwantyl rzędu α 2 2 z rozkładu: dla n > 30 normalnego a dla n < 30 rozkładu t-studenta. Przedział ufności dla wartości średniej z nieznaną wariancją: musimy przybliżyć wariancję przez estymator s 2 = 1 n n i=1 (x i µ) 2.. Ostatecznie otrzymujemy, że L = X t α s 2 n 1, U = X + z α 2 gdzie t α 2 - kwantyl rzędu α 2 s n 1 z rozkładu t-studenta o n-1 stopniach swobody. 7. Testowanie hipotez statystycznych stosujemy wtedy, gdy chcemy zweryfikować prawdziwość danej hipotezy na temat cech populacji. Jak działać, na przykładzie: Kupujemy serwer z czasem odpowiedzi µ = 50ms, podczas gdy podczas jego pracy u nas wyliczamy, że odpowiada w czasie ˆµ = 52ms. Aby dowiedzieć się, czy sprzedawca nas oszukał musimy przeprowadzić weryfikację hipotez statystycznych. Na początek hipotezę zerową - H 0, zakładającą że wszystko jest w porządku: µ = 50ms. Później stawiamy hipotezę alternatywną, na jeden z trzech sposobów: H 1 : µ 50ms lub µ 50ms lub µ 50ms. Następnie obliczamy wartość określonej statystyki testowej (z reguły danej) i sprawdzamy, czy mieści się ona w przedziale ufności (przy określonym α) dla sprawdzanego parametru - tutaj wartości oczekiwanej. Jeżeli się w nim zawiera, to nie mamy podstaw do odrzucenia hipotezy H 0, jeżeli nie to możemy odrzucić H 0 i przyjąć H 1. Błędy jakie możemy popełnić podczas sprawdzania tychże hipotez. błąd I rodzaju - α, false positive, błąd polegający na odrzuceniu prawdziwej hipotezy, jest to nasz poziom istotności 6

błąd II rodzaju - β, false negative, błąd polegający na nieodrzuceniu hipotezy która jest fałszywa - nie mamy na niego wpływu 8. Regresja liniowa polega na tym, żeby do dyskretnych danych dopasować możliwie jak najlepiej funkcję ciągłą. Tak jak do pomiarów na laborkach z fizyki kazali nam dopasowywać prostą i wzór funkcji. 9. Jeszcze by coś wypadało wspomnieć o prezentacji danych... 7