Statystyka i eksploracja danych
|
|
- Barbara Kaczor
- 6 lat temu
- Przeglądów:
Transkrypt
1 Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych realizowany w ramach Poddziałania Programu Operacyjnego Kapitał Ludzki Statystyka i eksploracja danych Treść wykładów Adam Jakubowski UMK Toruń 2011 Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
2
3 Spis treści Wstęp 1 1 Formalizm teorii prawdopodobieństwa 3 Po co nam formalizm matematyczny? Co to jest Przestrzeń probabilistyczna Przykłady przestrzeni probabilistycznych Przestrzeń statystyczna Zmienne losowe i charakterystyki ich rozkładów 9 Zmienna losowa i jej rozkład Wartość oczekiwana zmiennej losowej Dystrybuanta zmiennej losowej Rozkłady dyskretne i absolutnie ciągłe Momenty, wariancja, odchylenie standardowe Mediana, kwantyle Wektory losowe i charakterystyki ich rozkładów 15 Wektory losowe Macierz kowariancji wektora losowego Współczynnik korelacji Niezależność 19 Brak korelacji a niezależność zmiennych losowych Niezależność zmiennych losowych Kryteria niezależności Niezależność zdarzeń Niezależność parami Estymatory 25 Jak wyliczyć współczynnik korelacji? Próba prosta z populacji Estymator nieobciążony Zgodność ciągu estymatorów i
4 ii Spis treści 6 Estymatory II 31 Estymatory największej wiarogodności Estymatory minimalnej wariancji Rodziny wykładnicze rozkładów Estymatory nieobciążone minimalnej wariancji Przedziały ufności 39 Obszar ufności Przedział ufności Rozkład t-studenta Rozkład chi-kwadrat Rozkład F -Snedecora Asymptotyczne przedziały ufności Prognoza. Warunkowa wartość oczekiwana 47 Zagadnienie prognozowania Warunkowa wartość oczekiwana Prognoza liniowa Procesy gaussowskie Testowanie hipotez statystycznych 53 Test hipotezy, poziom istotności, moc testu Lemat Neymana-Pearsona Konkluzje Testowanie hipotez - przykłady 59 Dystrybuanta empiryczna i tw. Gniedenki-Cantellego Test zgodności Kołmogorowa Porównywanie średnich Test χ 2 Pearsona Metoda najmniejszych kwadratów i regresja liniowa 65 Model liniowy i regresja liniowa Metoda najmniejszych kwadratów Twierdzenie Gaussa-Markowa Redukcja wymiaru danych 69 Procedura standaryzacji danych Analiza składowych głównych Analiza czynnikowa Literatura 75
5 Wstęp Plan studiów na kierunku Informatyka na Wydziale Matematyki i Informatyki Uniwersytetu Mikołaja Kopernika w Toruniu przewiduje na pierwszym roku studiów drugiego stopnia obowiązkowy blok statystyczno-probabilistyczny, składający się z przedmiotów Statystyka i eksploracja danych i Metody i modele probabilistyczne. Według założeń programowych realizacja tego bloku ma stanowić podstawę do szerokiego stosowania metod stochastycznych, w zagadnieniach algorytmicznych, obliczeniowych i w modelowaniu systemów złożonych. Przedmiot Statystyka i analiza danych prowadzony jest w semestrze zimowym, w wymiarze 30 godzin wykładu i 30 godzin ćwiczeń rachunkowo-laboratoryjnych, w dużej mierze wykorzystujących najnowsze wersje pakietu SPSS. Zaliczenie przedmiotu polega na uzyskaniu zaliczenia ćwiczeń rachunkowo-laboratoryjnych oraz zdaniu dwuczęściowego egzaminu, składającego się z egzaminu praktycznego w laboratorium (wykonanie analizy przykładowych danych) oraz egzaminu ustnego z teorii. Do wykładu prowadzone są kursy wyrównawcze, podczas których osoby mające trudności z podstawowymi pojęciami teorii prawdopodobieństwa lub rachunkami mogą uzupełnić swoje umiejętności. Podstawą zajęć wyrównawczych jest materiał dydaktyczny Adam Jakubowski Statystyka i eksploracja danych. Repetytorium z teorii prawdopodobieństwa, Toruń Należy podkreślić, że podczas egzaminu wiadomości zawarte w Repetytorium są bezwzględnie wymagane. Ćwiczenia dydaktyczne prowadzone są w oparciu o materiały dydaktyczne Joanna Karłowska-Pik Statystyka i eksploracja danych. Ćwiczenia i zadania, Toruń Niniejsze opracowanie zawiera treści przekazywane w trakcie wykładów. Najważniejsze definicje i twierdzenia przedstawiane są w postaci zrzutu ekranowego odpowiedniej transparencji. Podstawowy materiał uzupełniany jest komentarzami i przykładami. Zagadnienia omawiane na wykładach, wraz z ewentualnymi uzupełnieniami, są dostępne na: w kategorii Studia stacjonarne/statystyka i eksploracja danych. Całość materiału podzielono na 12 jednostek, z grubsza odpowiadających dwugodzinnemu wykładowi. Istotne poszerzenie zakresu materiału wydaje się mało prawdopodobne, ze względu na konieczność wyrównania poziomu podczas pierwszych wykładów. 1
6 2 Wstęp Doświadczenie wskazuje bowiem, że studenci drugiego stopnia Informatyki posiadają bardzo różne przygotowanie w zakresie metod probabilistycznych, często ograniczające się do elementarnego rachunku prawdopodobieństwa wykładanego w ramach Matematyki dyskretnej. Należy podkreślić, że pewne aspekty analizy danych (np. metody bayesowskie) są przekazywane w ramach przedmiotu Metody i modele probabilistyczne, po systematycznej prezentacji dynamicznych metod Monte Carlo (MCMC). Literatura podstawowa przedmiotu zawiera książki: W. Niemiro Rachunek prawdopodobieństwa i statystyka matematyczna, Szkoła Nauk Ścisłych, Warszawa 1999, oraz D.T. Larose Metody i modele eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa Jako literatura uzupełniająca zalecane są ksiązki: J. Jakubowski i R. Sztencel Wstęp do teorii prawdopodobieństwa, Script, Warszawa 2004, D.T. Larose Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2006, oraz R. Zieliński Siedem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa Adam Jakubowski
7 1. Formalizm teorii prawdopodobieństwa Po co nam formalizm matematyczny? Podstawa porozumienia - aby skutecznie porozumiewać się z innymi przy realizacji projektów lub w trakcie rozwiązywania problemów. Możliwość uzyskania pomocy - aby umieć postawić specjalistom problem do rozwiązania. Lepsze zrozumienie materii - np. naturalnych ograniczeń stosowanych narzędzi. Co to jest... Rachunek prawdopodobieństwa to sztuka (umiejętność) obliczania prawdopodobieństw zdarzeń. Teoria prawdopodobieństwa to dział matematyki, na którym opierają się praktyczne obliczenia dokonywane w rachunku prawdopodobieństwa. Statystyka to sztuka (umiejętność) wnioskowania na podstawie próby losowej. Statystyka matematyczna to dział matematyki, który rozwija metody uzasadniające poprawność wnioskowania statystycznego. Eksploracja danych (drążenie danych, ekstrakcja danych) to umiejętność wydobywania użytecznych informacji z dużych zbiorów danych. Uwaga: Przyjmuje się, że twórcą matematycznego formalizmu teorii prawdopodobieństwa był rosyjski matematyk A.N. Kołmogorow ( ), który w 1933 roku opublikował książkę Grundbegriffe der Wahrscheinlichkeitsrechnung. 3
8 4 1. Formalizm teorii prawdopodobieństwa Przestrzeń probabilistyczna Uwaga: Pojęcia występujące w definicji przestrzeni probabilistycznej można interpretować w sposób następujący: Ω to zbiór wszystkich możliwych wyników eksperymentu losowego. Zdarzenia (elementy F) reprezentują fakty, których zajście możemy stwierdzić, tzn. dla A F zawsze możemy powiedzieć, czy wynik ω A, czy ω A. W ten sposób F reprezentuje całość wiedzy, którą możemy uzyskać w wyniku realizacji eksperymentu losowego. F nigdy nie może zajść (jest zdarzeniem niemożliwym ), więc P ( ) = 0. Ale idziemy dalej: P (A) = 0 oznacza, że zdarzenie A jest niemożliwe, choć może być A. Ω F zachodzi zawsze (jest zdarzeniem pewnym ), więc P (Ω) = 1. Podobnie: P (A) = 1 oznacza, że zdarzenie A jest pewne, choć A może być właściwym podzbiorem Ω.
9 Przestrzeń probabilistyczna 5
10 6 1. Formalizm teorii prawdopodobieństwa
11 Przykłady przestrzeni probabilistycznych 7 Przykłady przestrzeni probabilistycznych Klasyczna definicja prawdopodobieństwa. Niech Ω będzie zbiorem skończonym i niech F = 2 Ω. Określamy P (A) = #A #Ω. ( Zasada racji dostatecznej Laplace a.) Prawdopodobieństwo dyskretne. Niech Ω 0 = {ω 1, ω 2,...} będzie podzbiorem przeliczalnym zbioru Ω. Niech p 1, p 2,... 0, j p j = 1. Przyjmując z definicji 0, określamy P (A) = p j. (F = 2 Ω!) {j : ω j A} Niech Ω = R 1 i p(x) 0 będzie funkcją na R 1 taką, że + p(x) dx = 1. Określamy: P ((a, b]) = b a p(x) dx, a < b, a, b R 1. Uwaga: Jak wygląda F? To problem badany przez teorię miary i całki Lebesgue a. Można pokazać, że nie istnieje prawdopodobieństwo Q : 2 R1 [0, 1] pokrywające się z P na odcinkach.
12 8 1. Formalizm teorii prawdopodobieństwa Z drugiej strony istnieje σ-algebra B 1 (tzw. zbiorów borelowskich) na którą można rozszerzyć funkcję P, tak aby spełnione były własności prawdopodobieństwa. Przestrzeń statystyczna
13 2. Zmienne losowe i charakterystyki ich rozkładów Zmienna losowa i jej rozkład 9
14 10 2. Zmienne losowe Wartość oczekiwana zmiennej losowej Uwaga: zmienna losowa X ma skończoną wartość oczekiwaną dokładnie wtedy, gdy E X < +. Mówimy również, że zmienna X jest całkowalna i piszemy X L 1 (P ). 2.1 Twierdzenie (Własności wartości oczekiwanej) 1. Jeżeli X 0, to EX 0. Jeżeli X 0 i EX = 0, to P (X = 0) = EX E X. 3. Jeżeli E X < + i E Y < +, to dla dowolnych liczb α, β R 1 funkcja αx + βy jest zmienna losową i ma miejsce równość: E (αx + βy ) = αex + βey. 4. Jeżeli Y X, to EY EX pod warunkiem, że wartości oczekiwane istnieją.
15 Dystrybuanta zmiennej losowej 11 Dystrybuanta zmiennej losowej 2.2 Twierdzenie (Własności dystrybuanty zmiennej losowej) 1. Jeżeli u v, to F X (u) F X (v) (monotoniczność). 2. F X jest funkcją prawostronnie ciągłą. 3. lim F X (u) = 0, u lim F X (u) = 1. u Twierdzenie Twierdzenie (O dystrybuantach) Jeżeli funkcja F : R 1 [0, 1] spełnia warunki 1-3 z powyższego twierdzenia, to istnieje zmienna losowa X taka, że F = F X.
16 12 2. Zmienne losowe Rozkłady dyskretne i absolutnie ciągłe 2.4 Fakt (Skoki dystrybuanty) P X {x} = P (X = x) > 0 wtedy i tylko wtedy, gdy dystrybuanta F X ma skok w punkcie x i F X (x) F X (x ) = P (X = x). 2.5 Twierdzenie (Gęstość a pochodna dystrybuanty) Każda dystrybuanta F jest l-prawie wszędzie różniczkowalna i pochodna F (określona l-prawie wszędzie) spełnia warunek F (x) F (x) dx. (,x] Uwaga: Może się zdarzyć, że R 1 F (x) dx < Twierdzenie Jeżeli R 1 F (x) dx = 1, to rozkład odpowiadający dystrybuancie F jest absolutnie ciągły z gęstością p(x) = F (x). 2.7 Twierdzenie (Obliczanie EX dla rozkładu dyskretnego) Jeżeli X ma rozkład dyskretny, to dla dowolnej funkcji f : R 1 R 1 Ef(X) = f(x i )P (X = x i ) = f(x i )p i, i=1 i=1
17 Momenty, wariancja, odchylenie standardowe 13 przy czym Ef(X) istnieje dokładnie wtedy, gdy f(x i ) p i < +. i=1 2.8 Twierdzenie (Obliczanie EX dla rozkładu absolutnie ciągłego) Jeżeli X ma rozkład absolutnie ciągły o gęstości p(x), to dla dowolnej funkcji (borelowskiej) f : R 1 R 1 Ef(X) = + f(x)p(x) dx, przy czym Ef(X) istnieje dokładnie wtedy, gdy + f(x) p(x) dx < +. Momenty, wariancja, odchylenie standardowe
18 14 2. Zmienne losowe Mediana, kwantyle
19 3. Wektory losowe i charakterystyki ich rozkładów Wektory losowe Podobnie jak w przypadku zmiennych losowych, dystrybuantą wektora losowego X nazywamy funkcję F X : IR d [0, 1], zadaną wzorem F X (a 1, a 2,..., a d ) := P X ({X 1 a 1, X 2 a 2,..., X d a d }). Uwaga: dystrybuanta wektora losowego określa rozkład wektora losowego. W jaki sposób? Uwaga: nie każda funkcja na IR d, która jest niemalejąca po współrzędnych, zadaje dystrybuantę! (Przykład!) 15
20 16 3. Wektory losowe Macierz kowariancji wektora losowego 80 80
21 Współczynnik korelacji Twierdzenie (Równoważna definicja wartości oczekiwanej) Niech E X < +. Wartość oczekiwana wektora X to jedyny wektor m IR d taki, że E x, X = x, m, x IR d. 3.2 Twierdzenie (Równoważna definicja macierzy kowariancji) Niech E X 2 < +. Macierz kowariancji wektora X jest jedyną symetryczną macierzą Σ wymiaru d d wyznaczoną przez formę kwadratową E x, X E X 2 = Var ( x, X ) = x, Σ x, x IR d. Cov ( X) jest więc jedyną macierzą Σ spełniającą związek E x, X E X y, X E X = cov ( x, X, y, X ) = x, Σ y, x, y IR d. 3.3 Twierdzenie (Charakteryzacja macierzy kowariancji) Macierz kowariancji wektora losowego X jest symetryczna i nieujemnie określona. Na odwrót, dla dowolnej symetrycznej i nieujemnie określonej macierzy Σ rozmiaru d d istnieje d-wymiarowy wektor losowy X taki, że Cov ( X) = Σ. Współczynnik korelacji 3.4 Twierdzenie (Interpretacja wspólczynnika korelacji) r(x, Y ) = 1 wtedy, i tylko wtedy, gdy istnieją stałe α, β takie, że X = αy + β lub Y = αx + β.
22 18 3. Wektory losowe
23 4. Niezależność Brak korelacji a niezależność zmiennych losowych Niech zmienne losowe X i Y będą jak na stronie 18. Rozważmy zmienne X 2 i Y 2. 19
24 20 4. Niezależność
25 Niezależność zmiennych losowych 21 Niezależność zmiennych losowych Uwaga: Jeżeli rodzina {X i } i II jest niezależna, to niezależna jest również każda rodzina postaci {g i (X i )} i II. 4.1 Twierdzenie (Niezależność pociąga nieskorelowanie) Jeżeli zmienne losowe X i Y są niezależne i całkowalne, to iloczyn XY jest całkowalną zmienną losową i EXY = EX EY. W szczególności niezależne zmienne losowe są nieskorelowane. Uwaga: Bez założenia o niezależności warunek dostateczny dla całkowalności iloczynu XY odwołuje się do nierówności Höldera. E XY (E X p ) 1/p (E Y q ) 1/q, 1 p + 1 q = Wniosek (Mnożenie wartości oczekiwanych) Niech X 1, X 2,..., X d będą niezależne. Jeżeli funkcje f i sa takie, że f 1 (X 1 ), f 2 (X 2 ),..., f d (X d ) są całkowalnymi zmiennymi losowymi, tj. E f i (X i ) < +, i = 1, 2,..., d, to Ef 1 (X 1 )f 2 (X 2 ) f d (X d ) = Ef 1 (X 1 ) Ef 2 (X 2 ) Ef d (X d ).
26 22 4. Niezależność Kryteria niezależności 4.3 Twierdzenie Zmienne losowe X 1, X 2,..., X d są niezależne wtedy, i tylko wtedy, gdy dla dowolnych liczb a 1, a 2,..., a d ma miejsce równość Innymi słowy P (X 1 a 1, X 2 a 2,..., X d a d ) = P (X 1 a 1 )P (X 2 a 2 )... P (X d a d ). F (X1,X 2,...,X d )(a 1, a 2,..., a d ) = F X1 (a 1 ) F X2 (a 2 )... F Xd (a d ), tzn. dystrybuanta rozkładu łącznego jest iloczynem dystrybuant brzegowych. 4.4 Przykład (Klasyczne prawdopodobieństwo na produkcie) Niech wyniki i- tego eksperymentu będą elementami skończonej przestrzeni Ω i. Połóżmy Ω = Ω 1 Ω 2... Ω d. Niech P będzie klasycznym prawdopodobieństwem na Ω. Wtedy dla dowolnych funkcji f i : Ω i IR 1, zmienne losowe są stochastycznie niezależne. X i (ω 1, ω 2,..., ω d ) = f i (ω i ) Uwaga: W tym szczególnym przypadku niezależność stochastyczna pokrywa się z niezależnością funkcyjną (zmienne X i w istocie są funkcjami różnych argumentów). Przewaga niezależności stochastycznej polega na uwolnieniu tej własności od konkretnej przestrzeni funkcyjnej.
27 Niezależność zdarzeń Twierdzenie (Niezależność dyskretnych zmiennych losowych) Niech rozkłady zmiennych X 1, X 2,..., X d będą dyskretne. Zmienne losowe X 1, X 2,..., X d są niezależne dokładnie wtedy, gdy dla dowolnych x 1, x 2,..., x d IR 1 ma miejsce związek P (X 1 = x 1, X 2 = x 2,..., X d = x d ) = P (X 1 = x 1 )P (X 2 = x 2 ) P (X d = x d ). 4.6 Twierdzenie (Niezależność absolutnie ciągłych zmiennych losowych) Niech rozkłady zmiennych X 1, X 2,..., X d będą absolutnie ciągłe z gęstościami p 1 (x), p 2 (x),..., p d (x). Zmienne losowe X 1, X 2,..., X d są niezależne dokładnie wtedy, gdy rozkład łączny tych zmiennych jest absolutnie ciągły (tzn. posiada gęstość względem miary Lebesgue a na IR d ) i jego gęstość ma postać p X (x 1, x 2,..., x d ) = p 1 (x 1 )p 2 (x 2 ) p d (x d ). Niezależność zdarzeń
28 24 4. Niezależność Niezależność parami
29 5. Estymatory Jak wyliczyć współczynnik korelacji? W przykładach podanych na poprzednim wykładzie dane maja postać chmury punktów (wektorów dwuwymiarowych). Na podstawie danych, za pomocą odpowiedniego wzoru, wyliczamy liczbę, która stanowi pewną charakterystykę zbioru danych. Nasuwają się następujące naturalne pytania: Skąd wiemy, że to, co policzyliśmy, odpowiada naszym oczekiwaniom? Jaka jest jakość uzyskanego wyniku? A raczej: Jak mierzyć jakość naszego wyniku? Jak znajdować odpowiednie wzory? 5.1 Przykład (n-krotny pomiar jednym przyrządem) X k = m + ε k, gdzie m - rzeczywista wartość pomiaru, a ε k - błąd k-tego pomiaru. Co przyjąć za wynik pomiaru? Dlaczego? Prawo wielkich liczb stwierdza, że X n = X 1 + X X n. n ε 1 + ε ε n n Eε 1, gdzie Eε 1 = 0 dla przyrządu poprawnie skalibrowanego ( brak błędu systematycznego ). Powyżej korzystamy z modelu błędu pomiaru w postaci ciągu niezależnych zmiennych losowych o jednakowym rozkładzie, z wartością oczekiwaną zero. Inne spojrzenie: E X n = m, jeśli brak jest błędu systematycznego (obciążenia). 25
30 26 5. Estymatory Próba prosta z populacji 5.2 Przykład (Losowanie ze zwracaniem) Jesteśmy zainteresowani rozkładem danej cechy U w populacji Ω. Losujemy (ze zwracaniem) N osobników i badamy wartości cechy. Jak określić odpowiednią przestrzeń statystyczną (X, B, {P θ } θ Θ )? Niech X 0 = {U(ω) : ω Ω} IR d. Kładziemy: X = (X 0 ) N ; B =? (jak wynika z kontekstu); Θ = P(X 0 ) (zbiór wszystkich rozkładów prawdopodobieństwa na X 0 ); P θ = θ θ... θ. }{{} N razy
31 Estymator nieobciążony 27 Estymator nieobciążony
32 28 5. Estymatory 5.3 Przykład (Estymator wartości oczekiwanej) Θ = {θ P(IR 1 ) : E Y < +, jeśli Y θ}, g(θ) = EY, jeśli Y θ. ĝ(x 1, X 2,..., X N ) = X N = X 1 + X X N N 5.4 Przykład (Nieobciążony estymator wariancji) Θ = {θ P(IR 1 ) : EY 2 < +, jeśli Y θ}, g(θ) = Var (Y ) = EY 2 (EY ) 2, jeśli Y θ. ĝ(x 1, X 2,..., X N ) = S 2 N = = (X 1 X N ) 2 + (X 2 X N ) (X N X N ) 2. N Przykład (Nieobciążony estymator wariancji przy znanej wartości oczekiwanej) Θ = {θ P(IR 1 ) : EY 2 < +, EY = µ, jeśli Y θ}, g(θ) = Var (Y ) = EY 2 µ 2, jeśli Y θ. ĝ(x 1, X 2,..., X N ) = (X 1 µ) 2 + (X 2 µ) (X N µ) 2. N 5.6 Przykład (Estymator prawdopodobieństwa sukcesu w schemacie Bernoullego) Θ = {rozkład dwupunktowy, P (Y = 1) = θ = 1 P (Y = 0)},.
33 Zgodność ciągu estymatorów 29 g(θ) = θ. ĝ(x 1, X 2,..., X N ) = X 1 + X X N N. 5.7 Przykład (Dwa estymatory dla P (X = 0) z rozkładu Poissona) Θ = {rozkład Poissona z parametrem θ IR + }, g(θ) = e θ (= P θ (Y = 0)). ĝ 1 (X 1, X 2,..., X N ) = 1I {{X 1 =0}} + 1I {{X2 =0}} I {{XN =0}}. N ĝ 2 (X 1, X 2,..., X N ) = ( 1 1 N ) X1 +X X N. Zgodność ciągu estymatorów Uwaga: Jeśli ciąg {ĝ n } jest mocno zgodny, to jest słabo zgodny. Jeśli ciąg {ĝ n } jest zgodny w sensie L 2, to jest słabo zgodny. 5.8 Przykład Jeśli istnieją drugie momenty, to ciąg estymatorów { X n } jest zgodny w sensie L 2.
34 30 5. Estymatory 5.9 Wniosek Ciąg estymatorów { X n } jest mocno zgodny. Zgodność obu ciągów estymatorów wariancji. Zgodność ciągu estymatorów prawdopodobieństwa sukcesu w schemacie Bernoullego. Zgodność obu ciągów estymatorów dla P (Y = 0) z rozkładu Poissona.
35 6. Estymatory II Estymatory największej wiarogodności Uwaga: Na poprzednim wykładzie pojawiło się wiele wzorów, które miały rozmaite dobre własności. Czy istnieje metoda znajdowania takich wzorów? Uwaga: gdy wszystkie rozkłady P θ są dyskretne i skoncentrowane na tym samym zbiorze przeliczalnym X 0, jako miarę referencyjną możemy wybrać miarę liczącą: Λ(A) = #A, A X 0. Wtedy gęstość w punkcie x X 0 jest dana wzorem p θ (x) = P θ ({x}). 31
36 32 6. Estymatory II Uwagi: ENW nie musi być nieobciążony. ENW może nie istnieć. ENW może nie być określony jednoznacznie lub jego wyznaczenie może być bardzo trudne. 6.1 Przykłady ENW dla prawdopodobieństwa sukcesu w schemacie N prób Bernoullego. ˆp(X 1, X 2,..., X N ) = X 1 + X X N N ENW dla wartości oczekiwanej i wariancji dla próby prostej gaussowskiej długości N. ˆµ = X 1 + X X N ( ) = XN. N ˆσ 2 = (X 1 X N ) 2 + (X 2 X N ) (X N X N ) 2 N. ( = N 1 ) N S N 2.
37 Estymatory minimalnej wariancji 33 Estymatory minimalnej wariancji 6.2 Przykład (Porównywanie estymatorów) Przypomnijmy dwa estymatory dla P (X = 0) z rozkładu Poissona Θ = {rozkład Poissona z parametrem θ IR + }, g(θ) = e θ (= P θ (X = 0)). ĝ 1 (X 1, X 2,..., X N ) = 1I {{X 1 =0}} + 1I {{X2 =0}} I {{XN =0}}. N ĝ 2 (X 1, X 2,..., X N ) = ( 1 1 N ) X1 +X X N. Który jest lepszy i w jakim sensie? Var θ (ĝ 2 ) < Var θ (ĝ 1 )! Uwaga: Istnieje piękna teoria, równie pięknie przedstawiona w książce R. Zieliński, Siedem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa 1990, która pojęcie estymator nieobciążony minimalnej wariancji analizuje z punktu widzenia tzw. statystyk dostatecznych (tzn. zawierających pełną informację o modelu statystycznym). Na wykładzie podamy tylko najważniejsze zastosowanie tej teorii.
38 34 6. Estymatory II Rodziny wykładnicze rozkładów 6.3 Przykład Rozkład dwupunktowy (Bernoullego) P θ {1} = θ = 1 P θ {0} ma gęstość na {0, 1} ( ) θ p θ (x) = exp x ln 1 θ + ln(1 θ). W reprezentacji k p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy: T 1 (x) = x, c 1 (θ) = ln ( θ/(1 θ) ), b(θ) = ln(1 θ), h(x) Przykład Rozkład normalny N (µ, σ 2 ) ma gęstość na IR 1 ( p µ,σ (x) = exp 1 2σ 2 x2 + µ ) σ 2 x [ µ2 2σ 2 + ln(σ 2π)]. j=1 ( kj=1 ) W reprezentacji p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy θ = (µ, σ 2 ) oraz:
39 Rodziny wykładnicze rozkładów 35 T 1 (x) = x 2, c 1 (θ) = 1/(2σ 2 ), T 2 (x) = x, c 2 (θ) = µ/σ 2, b(θ) = µ 2 /(2σ 2 ) + ln(σ 2π), h(x) Przykład Rozkład gamma Γ(α, λ), α > 1, γ > 0 ma gęstość na IR 1 ( p α,λ (x) = exp 1 ) λ x + (α 1) ln x ln[λα Γ(α)] 1I {[0, )} (x). ( kj=1 ) W reprezentacji p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy θ = (α, γ) oraz: T 1 (x) = x, c 1 (θ) = 1/λ, T 2 (x) = ln x, c 2 (θ) = α 1, b(θ) = ln ( λ α Γ(α) ), h(x) = 1I {[0, )} (x) Przykład Rozkład Poissona z parametrem λ ma gęstość na IN p λ (x) = exp (ln λ x λ) 1 x!. ( kj=1 ) W reprezentacji p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy (θ = λ): T 1 (x) = x, c 1 (λ) = ln λ, b(λ) = λ, h(x) = 1/x!. 6.7 Przykład Próba prosta długości N z rozkładu Bernoullego z prawdopodobieństwem sukcesu θ (0, 1) ma gęstość na przestrzeni {0, 1} N p N θ (x 1, x 2,..., x N ) = p θ (x 1 ) p θ (x 2 )... p θ (x N ) ( = exp (x 1 + x x N ) ln ) θ 1 θ + N ln(1 θ). ( W reprezentacji p N θ (x) = exp kj=1 ) c j (θ)t j (x) b(θ) h(x) mamy więc:
40 36 6. Estymatory II T 1 (x 1, x 2,..., x N ) = x 1 + x x N, c 1 (θ) = ln ( θ/(1 θ) ), b(θ) = N ln(1 θ), h(x) 1. Podobnie transformują się gęstości dla prób prostych z innych rodzin wykładniczych. Estymatory nieobciążone minimalnej wariancji 6.8 Przykłady Populacja normalna, µ znane. ENMW (σ 2 ) = (X 1 µ) 2 + (X 2 µ) (X N µ) 2. N Populacja normalna, µ znane. ENMW (σ) = Γ( n 2 ) 2Γ( n+1 2 ) (X 1 µ) 2 + (X 2 µ) (X N µ) 2.
41 Estymatory nieobciążone minimalnej wariancji 37 Populacja normalna, σ znane. Populacja normalna, µ i σ nie są znane. Populacja normalna, µ i σ nie są znane. ENMW (µ) = X N. ENMW (µ) = X N. ENMW (σ 2 ) = (X 1 X N ) 2 + (X 2 X N ) (X N X N ) 2. (N 1) Populacja normalna, µ i σ nie są znane. Estymator kwantyla rzędu p (0, 1), tzn. liczby u p spełniającej relację p = Φ µ,σ (u p ) lub u p = µ + σ Φ 1 (p). gdzie σ N = ENMW (u p ) = X N + Γ( N 1 2 ) 2Γ( N 2 ) σ N Φ 1 (p), (X 1 X N ) 2 + (X 2 X N ) (X N X N ) 2. Uwaga: Estymatory nieobciążone nie zawsze istnieją. ENMW może nie istnieć, mimo że istnieją estymatory nieobciążone. ENMW może mieć większy błąd średniokwadratowy (funkcję ryzyka) R(ˆδ, θ) = E θ (ˆδ g(θ)) 2 od estymatora obciążonego. ENMW może być zupełnie nieprzydatny.
42 38 6. Estymatory II
43 7. Przedziały ufności Obszar ufności Problem: jak ocenić jakość ) przybliżenia parametru przez estymator? Niech (X, B, {P θ } θ Θ będzie modelem statystycznym i niech ĝ : X IR d będzie estymatorem parametru g : Θ IR d. W modelach ciągłych (tzn. P θ ({x}) = 0 dla każdego x X i θ Θ) najczęściej mamy P θ (ĝ = y0 ) = 0. Tymczasem na podstawie estymacji przyjmujemy g(θ) = y 0. Na ile można ufać takiej ocenie wartości parametru? Wyjściem może być stosowanie estymatorów jako odwzorowań przestrzeni próbek o wartościach w masywnych zbiorach. 39
44 40 7. Przedziały ufności Przedział ufności 7.1 Przykład (Przedział ufności dla średniej ze znaną wariancją) Niech X 1, X 2,..., X N będzie próbą prostą z rozkładu N (µ, σ 2 ). Zakładamy, że σ 2 jest znane (np. dokonujemy pomiaru skalibrowanym przyrządem o znanej dokładności). Jeśli położymy X N = X 1+X X N N N (µ, σ2 N ), to X N µ σ/ N N (0, 1). Niech ζ = ζ 1 α/2 będzie takie, że Φ( ζ) = 1 Φ(ζ) = α/2. Wtedy P µ ( XN σ ζ 1 α/2 N µ X N + σ ζ 1 α/2 N ) = 1 α. Piszemy: µ = X N ± σ ζ 1 α/2 N.
45 Rozkład t-studenta 41 Rozkład t-studenta 7.2 Przykład (Przedział ufności dla średniej z nieznaną wariancją) Niech X 1, X 2,..., X N będzie próbą prostą z rozkładu N (µ, σ 2 ). Nie znamy ani µ, ani σ 2. Niech (X 1 S N = X N ) 2 + (X 2 X N ) (X N X N ) 2. N Twierdzenie Zmienna losowa t N 1 = X N µ S N / N ma rozkład t-studenta z N 1 stopniami swobody. 7.4 Wniosek Jeżeli F tn 1 (τ 1 α/2 ) = 1 α/2, to na poziomie ufności α µ = X N ± S N τ 1 α/2 N.
46 42 7. Przedziały ufności Rozkład chi-kwadrat 7.5 Przykład (Przedział ufności dla wariancji) Podobnie jak poprzednio X 1, X 2,..., X N jest próbą prostą z rozkładu N (µ, σ 2 ), gdzie µ i σ 2 nie są znane. 7.6 Twierdzenie Zmienna losowa χ 2 N 1 = (N 1) S 2 N σ 2 ma rozkład chi-kwadrat z N 1 stopniami swobody. 7.7 Wniosek Jeśli F χ 2 N 1 (ξ α/2 ) = α/2 i F χ 2 N 1 (ξ 1 α/2 ) = 1 α/2, to przedziałem ufności dla σ 2 na poziomie ufności α jest [ (N 1) S2 N ξ 1 α/2, (N 1) S 2 N ξ α/2 ].
47 Rozkład F -Snedecora 43 Rozkład F -Snedecora 7.8 Przykład (Przedział ufności dla ilorazu wariancji) Niech X 1, X 2,..., X N będzie próbą prostą z rozkładu N (µ X, σx 2 ), a Y 1, Y 2,..., Y M próbą prostą z rozkładu N (µ Y, σy 2 ), gdzie nie znamy ani µ X i σx 2, ani µ Y i σy 2. Niech S X 2 będzie statystyką S N 2 zbudowaną na próbce {X k}, a S Y 2 będzie statystyką S M 2 zbudowaną na próbce {Y k}. 7.9 Twierdzenie Zmienna losowa F N 1,M 1 = S X 2 σ2 Y S Y 2, σ2 X ma rozkład F -Snedecora z N 1 stopniami swobody licznika i M 1 stopniami swobody mianownika Wniosek Niech F FN 1,M 1 (φ α/2 ) = α/2, F FN 1,M 1 (φ 1 α/2 ) = 1 α/2. Przedziałem ufności dla σ 2 Y /σ2 X na poziomie ufności α jest [ S2 φ Y S2 α/2 S X 2, φ Y 1 α/2 S X 2 ].
48 44 7. Przedziały ufności Asymptotyczne przedziały ufności 7.11 Przykład (Przedziały ufności dla prawdopodobieństwa sukcesu w schemacie Bernoullego) Niech X 1, X 2,... będzie schematem Bernoullego z prawdopodobieństwem sukcesu θ (0, 1), a S N liczbą sukcesów w N próbach. Rozkład S N jest znany (dwumianowy). Teoretycznie znamy więc również rozkład zmiennej standaryzowanej N /N θ S. W praktyce lepiej jednak używać przybliżenia danego przez sławne θ(1 θ)/ N twierdzenie de Moivre a-laplace a Wniosek Jeśli Φ(ζ 1 α/2 ) = 1 α/2, mamy asymptotycznie : P θ ( ζ 2 1 α/2 θ(1 θ) N (S N /N θ ) 2 ) 1 α. W szczególności na przybliżonym poziomie ufności α θ = S N + ζ 2 1 α/2 /N N + ζ 2 1 α/2 ± ζ 1 α/2 S N (N S N ) N N + ζ 2 1 α/2 + ζ2 1 α/ Przykład (Nieparametryczne przedziały ufności dla kwantyli) Niech X 1, X 2,... będzie próbą prostą z rozkładu o dystrybuancie F = F X1. Niech ξ p będzie kwantylem rzędu p rozkładu F (zakładamy, że F jest ciągła i ściśle rosnąca w otoczeniu ξ p, więc ξ p
49 Asymptotyczne przedziały ufności 45 jest określony jednoznacznie). Połóżmy N L N = 1I {{Xj ξ p}}. j=1 Zmienna L N ma rozkład dwumianowy! Z twierdzenia de Moivre a-laplace a wynika, że ( ( LN /N p ) ) lim P ζ 1 α/2 ζ 1 α/2 N p(1 p)n = Φ(ζ 1 α/2 ) Φ( ζ 1 α/2 ) = 1 α. Wtedy Niech k N i k N będą takie, że lim N lub równoważnie k N /N p p(1 p)/n = ζ 1 α/2, lim N ( ) lim P F kn L N k N = 1 α, N k N /N p p(1 p)/n = ζ 1 α/2. ) lim P F (X kn :N ξ p X kn :N = 1 α, N gdzie X k:n jest k-tą statystyką porządkową z próby prostej N-elementowej. Uwaga: Szczególny charakter rozkładu normalnego najbardziej widoczny jest w centralnym twierdzeniu granicznym.
50 46 7. Przedziały ufności
51 8. Prognoza. Warunkowa wartość oczekiwana Zagadnienie prognozowania Przypuśćmy, że mamy dany ciąg liczb x 1, x 2,..., x n, stanowiących wyniki pomiaru pewnej zmiennej w czasie wielkości x, w chwilach t 1 < t 2 <... < t n. Inaczej mówiąc, mamy dany szereg czasowy. Zagadnienie prognozowania: Niech T > t n. Jaką wartość przyjmie badana wielkość w chwili T? Jeżeli x jest funkcją tylko czasu t, tzn. x k = f(t k ), k = 1, 2,..., t n, możemy próbować odgadnąć postać funkcji f, np. znajdując współczynniki wielomianu interpolacyjnego, lub amplitudę, częstość i przesunięcie sygnału sinusoidalnego, lub parametry przekształcenia S, którego kolejne iteracje S(t 0 ), S 2 (t 0 ),... S n (t 0 ) dają nam kolejne wartości x 1, x 2,..., x n. To jest jednak rzadka sytuacja. Na ogół musimy zakładać, że liczby x 1, x 2,..., x n są wartościami ciągu zmiennych losowych. 47
52 48 8. Prognoza. Warunkowa wartość oczekiwana Warunkowa wartość oczekiwana Niech Y i Z będą wektorami losowymi o wartościach w IR m i IR n, określonymi na tej samej przestrzeni probabilistycznej (Ω, F, P ). Jeżeli P ( Z = z) > 0, to rozkładem warunkowym wektora Y gdy Z = z nazywamy prawdopodobieństwo IR m A P Y Z= z (A) = P ( Y A Z = z) ( = P ( Y A, Z = z) P ( Z = z) ). Pytanie: jak określić rozkład warunkowy w ogólnym przypadku? Jeżeli P (Y,Z) jest absolutnie ciągły z gęstością p Y,Z (y, z), to można określić gęstość rozkładu P Y Z=z za pomocą wzoru p Y,Z (y,z) p Y Z=z (y) =, jeśli + p Y,Z (u, z) du > 0 p Y,Z(u,z) du 1I {[0,1]} (y), jeśli. p Y,Z (u, z) du = 0
53 Warunkowa wartość oczekiwana 49 Uwaga: w terminach przestrzeni Hilberta L 2 (Ω, F, P ) warunkowa wartość oczekiwana jest rzutem ortogonalnym na podprzestrzeń funkcji postaci {h( Z)}, czyli funkcji σ( Z)- mierzalnych. W tym kontekście (niemal) oczywiste są następujące fakty:
54 50 8. Prognoza. Warunkowa wartość oczekiwana Jeżeli E Y < + i g : IR n IR m, to ( E E(Y Z) g( Z) ) = E(Y g( Z)). Jeżeli Z jest funkcją stałą, to E(Y Z) = EY. Co by było, gdybyśmy minimalizowali E Y h( Z)? Prognoza liniowa
55 Procesy gaussowskie 51 Procesy gaussowskie Wnioski z definicji: Biorąc α = (0,..., 0, 1, 0,..., 0)T, otrzymujemy rozkład normalny dla składowych X k N (m k, σk 2 ). W ogólności, m α = E(α 1 X 1 + α 2 X α n X n ) = E α, X = α, E X. Podobnie σ 2 α = Var ( α, X ) = α, Cov ( X) α. 8.1 Twierdzenie (Transformacja liniowa zmiennych gaussowskich) Jeżeli wektor losowy X = (X 1, X 2,..., X n ) T ma składowe gaussowskie, przy czym EX = m i Cov (X) = Σ) i jezeli A : IR n IR m jest odwzorowaniem liniowym, to składowe wektora A( X) też są gaussowskie, przy czym EA( X) = A( m), Cov (A( X)) = AΣA T. 8.2 Twierdzenie (Konstrukcja zmiennych gaussowskich) Jeżeli m IR n i Σ jest macierzą n n, symetryczną i nieujemnie określoną, to istnieje wektor losowy X o składowych gaussowskich, który spełnia związki E X = m, Cov ( X) = Σ. 8.3 Twierdzenie (Charakterystyka rozkładu łącznego zmiennych gaussowskich) Rozkład łączny zmiennych losowych gaussowskich (X 1, X 2,..., X n ) (nazywany n-wymiarowym rozkładem normalnym) jest w pełni określony przez swoja wartość oczekiwaną m i macierz kowariancji Σ. Piszemy X N (m, Σ).
56 52 8. Prognoza. Warunkowa wartość oczekiwana 8.4 Twierdzenie (Absolutna ciągłość rozkładu normalnego) Rozkład normalny jest absolutnie ciągły dokładnie wtedy, gdy macierz Σ jest nieosobliwa (det(σ) 0). W takim przypadku gęstość zadana jest wzorem: p m,σ ( x) = 1 ( 2π) d 1 det Σ exp ( 1 2 x m, Σ 1 ( x m) ). 8.5 Twierdzenie (Niezależność zmiennych gaussowskich) Zmienne gaussowskie X 1, X 2,..., X n są niezależne dokładnie wtedy, gdy są nieskorelowane: cov (X i, X j ) = 0, i, j = 1, 2,..., n, i j.
57 9. Testowanie hipotez statystycznych Test hipotezy, poziom istotności, moc testu 53
58 54 9. Testowanie hipotez statystycznych
59 Lemat Neymana-Pearsona 55 Lemat Neymana-Pearsona
60 56 9. Testowanie hipotez statystycznych 9.1 Przykład (za R. Zielińskim Siedem wykładów... ) Niech X = IN. Rozważmy hipotezę prostą H 0 = {B(10; 0, 1)} (rozkład dwumianowy: liczba sukcesów 10, p-stwo sukcesu 0, 01) przeciw hipotezie prostej H 1 = {P o(1)} (rozkład Poissona z parametrem 1). x B(10; 0, 1) P o(1) P o(1) B(10;0,1) 0 0,3468 0, , , , , , , , , , , , , , , , , , , , , , , , , obszar krytyczny K P H0 (K) P H1 (K) {x : x 8} 0, ,00001 {x : x 7} 0, ,00008 {x : x 6} 0, ,00059 {x : x 5} 0, ,00366 {x : x 4} 0, ,01899 {x : x 3} 0, ,08030 Test niezrandomizowany na poziomie istotności α = 0, 05: { 1, gdy x 4 φ(x) = 0, gdy x < 4. Rozmiar testu E PH0 φ = P H0 {x : x 4} = 0, Jeśli γ = 0, 6482, to P H0 {x : x 4} + γp H0 {x : x = 3} = 0, 05. Test zrandomizowany na poziomie istotności α = 0, 05 1, gdy x 4 φ(x) = 0, 6482 gdy x = 3 0, gdy x 2. ma również rozmiar 0, 05. Jaka jest moc tego testu? Tylko 0, 05873! Interpretacja: prawdopodobieństwo nieodrzucenia weryfikowanej hipotezy H 0 = {B(10; 0, 1)}, gdy prawdziwa jest hipoteza alternatywna H 1 = {P o(1)}, wynosi 0,94127.
61 Konkluzje 57 Konkluzje W przypadku hipotez złożonych teorię Neymana-Pearsona można przenieść na tzw. modele z monotonicznym ilorazem wiarogodności. Teoria porównywania testów ma ograniczone znaczenie praktyczne.
62 58 9. Testowanie hipotez statystycznych
63 10. Testowanie hipotez - przykłady Dystrybuanta empiryczna i tw. Gniedenki-Cantellego 59
64 Testowanie hipotez - przykłady Test zgodności Kołmogorowa Przypuścmy, że X 1, X 2,..., X N jest próba prostą z nieznanego rozkładu. Rozważmy hipotezę H 0 : zmienne maja rozkład o dystrybuancie F, przeciw alternatywie H 1 : zmienne mają inny rozkład o dystrybuancie G F. Jak przetestować tę hipotezę? Niech zmienne będą miały rozkład G i niech G N będzie odpowiednią dystrybuantą empiryczną. Określamy statystykę D N = sup x IR 1 G N (x) F (x). Jeżeli G = F, to statystyka powinna przyjmować małe wartości; jeżeli G F, to wartości powinny być znacząco większe. Określamy więc zbiór krytyczny dla poziomu istotności α wzorem gdzie P F (K DN,α) α. K DN,α = {D N > D N (α)}, Problem: P F (K DN,α) zależy od F! Jak obliczyć to prawdopodobieństwo dla każdego F? Na szczęście w obszernej klasie rozkładów P F (K DN,α) nie zależy od F! Jeżeli f jest funkcją niemalejącą, to dla dowolnej zmiennej losowej X i t IR 1 {f(x) < f(t)} {X t} {f(x) f(t)}.
65 Test zgodności Kołmogorowa 61 Niech F będzie dystrybuantą zmiennej losowej X. Jeśli F jest ciągła, to F (X) U(0, 1). Niech X 1, X 2,..., X N będzie próbką prostą z F. Jeżeli F jest ciągła, to F (X 1 ), F (X 2 ),... jest próbką prostą z rozkładu U(0, 1).
66 Testowanie hipotez - przykłady Porównywanie średnich Przypomnijmy, że rozkładem t-studenta o k stopniach swobody nazywamy rozkład
67 Test χ 2 Pearsona 63 zmiennej losowej T = Z 0 Z Z Z2 k gdzie Z 0, Z 1,... Z k są niezależne o rozkładzie N (0, 1). Test χ 2 Pearsona Niech niezależne zmienne losowe X 1, X 2,..., X N przyjmują wartości a i z prawdopodobieństwem p i > 0, p p k = 1. k, Określamy: N ν i = 1I {{Xj =a i }}. j=1 Jeśli n 1 + n n k = N i spełnione są pewne inne założenia, to P (ν 1 = n 1, ν 2 = n 2,..., ν k = n k ) = (rozkład wielomianowy). N! n 1!n 2!... n k! pn 1 1 pn pn k k. Przypomnijmy, że rozkład χ 2 z k-stopniami swobody to rozkład zmiennej losowej χ 2 k X X X 2 k,
68 Testowanie hipotez - przykłady gdzie X 1, X 2,..., X k są niezależne o rozkładzie N (0, 1). Rozkład χ 2 k Gamma(k/2, 1/2). jest rozkładem
69 11. Metoda najmniejszych kwadratów i regresja liniowa Model liniowy i regresja liniowa 65
70 Metoda najmniejszych kwadratów i regresja liniowa Metoda najmniejszych kwadratów
71 Twierdzenie Gaussa-Markowa 67 Twierdzenie Gaussa-Markowa
72 Metoda najmniejszych kwadratów i regresja liniowa
73 12. Redukcja wymiaru danych Procedura standaryzacji danych 12.1 Definicja (Standaryzacja zmiennej losowej) Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X). Uwaga: EZ = 0, Var (Z) = 1. Uwaga: Jeżeli X = (X1, X 2,..., X d ) T jest wektorem losowym o macierzy kowariancji Σ, to wektor standaryzowany (po współrzędnych) Z ma wartość oczekiwaną EZ = 0 i macierz kowariancji R = [r ij ] równą macierzy KORELACJI wektora X, tj. r ij = ρ ij = cov (X i, X j ). Var (X i )Var (X j ) Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja niektórych pól = ciąg wartości wektorów X n (rekordów), których składowe mierzone są na ogół w różnych jednostkach. Wartości poszczególnych pól (współrzędnych rekordów), nawet jeśli mają podobny charakter, mogą być mierzone w różnych jednostkach, co powoduje, że w analizie dominować mogą wielkości marginalne. Z tego powodu przed rozpoczęciem statystycznej analizy danych przeprowadza się standaryzację lub normalizację Definicja (Empiryczna standaryzacja ciągu wektorów losowych) Niech X n = (X n1, X n2,..., X nd ) T, n = 1, 2,..., N będzie ciągiem wektorów losowych. Niech X j = 1 N Nn=1 N (X nj X nj, S j = X j ) 2. N 1 n=1 Standaryzacją ciągu { X n } nazywamy ciąg wektorów losowych Z n o składowych Z nj = (X nj X j ) S j. 69
74 Redukcja wymiaru danych
75 Analiza składowych głównych 71 Analiza składowych głównych Uwaga: Innymi słowy, w analizie składowych głównych (PCA) szukamy:
76 Redukcja wymiaru danych k możliwie małego (w stosunku do d), które spełnia warunek λ i /d + λ 2 /d λ k /d > α, i dla którego odpowiednie kombinacje liniowe zmiennych wyjściowych posiadają sensowną interpretację. Analiza czynnikowa W szczególności: Σ = E( X E X)( X E X) T = E(L F + ε)(l F + ε) T = E(L F F T L T ) + E(L F ε T ) + E( ε F T L T ) + E( ε ε T ) = LL T + Λ ε. Rozwiązanie powyższego równania oraz poszukiwanie czynników F przeprowadza się numerycznie. Uwagi: Niech ( F, L) będzie rozwiązaniem dla modelu analizy czynnikowej. Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas (B F, LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa analiza i wybór odpowiedniej rotacji czynników.
77 Analiza czynnikowa 73 Analiza czynnikowa, mimo bogatej literatury i mnogości algorytmów pozostaje zawsze narzędziem bardzo kontrowersyjnym.
78 Redukcja wymiaru danych
79 Literatura Literatura podstawowa 1. W. Niemiro Rachunek prawdopodobieństwa i statystyka matematyczna, Szkoła Nauk Ścisłych, Warszawa D.T. Larose Metody i modele eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa Literatura uzupełniająca 1. J. Jakubowski i R. Sztencel Wstęp do teorii prawdopodobieństwa, Script, Warszawa 2000, 2001, D.T. Larose Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa R. Zieliński Siedem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa
Prawdopodobieństwo i statystyka
Wykład XIII: Prognoza. 26 stycznia 2015 Wykład XIII: Prognoza. Prognoza (predykcja) Przypuśćmy, że mamy dany ciąg liczb x 1, x 2,..., x n, stanowiących wyniki pomiaru pewnej zmiennej w czasie wielkości
Bardziej szczegółowoStatystyka i eksploracja danych
Wykład II: i charakterystyki ich rozkładów 24 lutego 2014 Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa,
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład VIII: Przestrzenie statystyczne. Estymatory 1 grudnia 2014 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji r(x, Z) = 0, 986 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji
Bardziej szczegółowoStatystyka i eksploracja danych
Wykład I: Formalizm statystyki matematycznej 17 lutego 2014 Forma zaliczenia przedmiotu Forma zaliczenia Literatura Zagadnienia omawiane na wykładach Forma zaliczenia przedmiotu Forma zaliczenia Literatura
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład IV: 27 października 2014 Współczynnik korelacji Brak korelacji a niezależność Definicja współczynnika korelacji Współczynnikiem korelacji całkowalnych z kwadratem zmiennych losowych X i Y nazywamy
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład II: Zmienne losowe i charakterystyki ich rozkładów 13 października 2014 Zmienne losowe Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Definicja zmiennej losowej i jej
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład VII: Rozkład i jego charakterystyki 22 listopada 2016 Uprzednio wprowadzone pojęcia i ich własności Definicja zmiennej losowej Zmienna losowa na przestrzeni probabilistycznej (Ω, F, P) to funkcja
Bardziej szczegółowoStatystyka i eksploracja danych
Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja
Bardziej szczegółowoStatystyka i eksploracja danych
Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki Statystyka i eksploracja
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład I: Formalizm teorii prawdopodonieństwa 6 października 2014 Forma zaliczenia przedmiotu Forma zaliczenia Literatura Dostępność treści wykładów 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin dwuczęściowy:
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład XI: Testowanie hipotez statystycznych 12 stycznia 2015 Przykład Motywacja X 1, X 2,..., X N N (µ, σ 2 ), Y 1, Y 2,..., Y M N (ν, δ 2 ). Chcemy sprawdzić, czy µ = ν i σ 2 = δ 2, czyli że w obu populacjach
Bardziej szczegółowoSTATYSTYKA
Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym
Bardziej szczegółowoWSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.
Tematy: WSTĘP 1. Wprowadzenie do przedmiotu. Próbkowe odpowiedniki wielkości populacyjnych. Modele statystyczne i przykładowe zadania wnioskowania statystycznego. Statystyki i ich rozkłady. 2. Estymacja
Bardziej szczegółowoProcesy stochastyczne
Wykład I: Istnienie procesów stochastycznych 21 lutego 2017 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane
Bardziej szczegółowoProcesy stochastyczne
Wykład I: Istnienie procesów stochastycznych 2 marca 2015 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane są
Bardziej szczegółowoWykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału
Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału Magdalena Frąszczak Wrocław, 22.02.2017r Zasady oceniania Ćwiczenia 2 kolokwia (20 punktów każde) 05.04.2017 oraz 31.05.2017 2 kartkówki
Bardziej szczegółowoZmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015
Zmienne losowe, statystyki próbkowe Wrocław, 2 marca 2015 Zasady zaliczenia 2 kolokwia (każde po 20 punktów) projekt (20 punktów) aktywność Zasady zaliczenia 2 kolokwia (każde po 20 punktów) projekt (20
Bardziej szczegółowoSpis treści 3 SPIS TREŚCI
Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba
Bardziej szczegółowoStatystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Bardziej szczegółowoSzkice do zajęć z Przedmiotu Wyrównawczego
Szkice do zajęć z Przedmiotu Wyrównawczego Matematyka Finansowa sem. letni 2011/2012 Spis treści Zajęcia 1 3 1.1 Przestrzeń probabilistyczna................................. 3 1.2 Prawdopodobieństwo warunkowe..............................
Bardziej szczegółowoPrawa wielkich liczb, centralne twierdzenia graniczne
, centralne twierdzenia graniczne Katedra matematyki i ekonomii matematycznej 17 maja 2012, centralne twierdzenia graniczne Rodzaje zbieżności ciągów zmiennych losowych, centralne twierdzenia graniczne
Bardziej szczegółowoWykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap
Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody
Bardziej szczegółowoWażne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
Bardziej szczegółowoModelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski
Modelowanie zależności pomiędzy zmiennymi losowymi Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski P Zmienne losowe niezależne - przypomnienie Dwie rzeczywiste zmienne losowe X i Y
Bardziej szczegółowoWykład 3 Jednowymiarowe zmienne losowe
Wykład 3 Jednowymiarowe zmienne losowe Niech (Ω, F, P ) będzie ustaloną przestrzenią probabilistyczną Definicja 1 Jednowymiarowa zmienna losowa (o wartościach rzeczywistych), określoną na przestrzeni probabilistycznej
Bardziej szczegółowoWYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO
Zał. nr 4 do ZW WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA STOSOWANA Nazwa w języku angielskim APPLIED STATISTICS Kierunek studiów (jeśli dotyczy): Specjalność
Bardziej szczegółowoRozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład
Rozdział 1 Wektory losowe 1.1 Wektor losowy i jego rozkład Definicja 1 Wektor X = (X 1,..., X n ), którego każda współrzędna jest zmienną losową, nazywamy n-wymiarowym wektorem losowym (krótko wektorem
Bardziej szczegółowoLiteratura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.
Literatura Krysicki W., Bartos J., Dyczka W., Królikowska K, Wasilewski M., Rachunek Prawdopodobieństwa i Statystyka Matematyczna w Zadaniach, cz. I. Leitner R., Zacharski J., Zarys matematyki wyŝszej
Bardziej szczegółowoWeryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Bardziej szczegółowo12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych
(pieczęć wydziału) KARTA PRZEDMIOTU Z1-PU7 WYDANIE N1 Strona 1 z 5 1. Nazwa przedmiotu: Rachunek prawdopodobieństwa i statystyka matematyczna 2. Kod przedmiotu: RPiS 3. Karta przedmiotu ważna od roku akademickiego:
Bardziej szczegółowoRozkłady statystyk z próby
Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny
Bardziej szczegółowo12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych
(pieczęć wydziału) KARTA PRZEDMIOTU Z1-PU7 WYDANIE N1 Strona 1 z 5 1. Nazwa przedmiotu: Rachunek prawdopodobieństwa i statystyka matematyczna 2. Kod przedmiotu: RPiS 3. Karta przedmiotu ważna od roku akademickiego:
Bardziej szczegółowoWYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI
WYDZIAŁ GEOINŻYNIERII, GÓRNICTWA I GEOLOGII KARTA PRZEDMIOTU Nazwa w języku polskim: Statystyka matematyczna Nazwa w języku angielskim: Mathematical Statistics Kierunek studiów (jeśli dotyczy): Górnictwo
Bardziej szczegółowoTablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Bardziej szczegółowoLista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie
Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie Jarosław Kotowicz Instytut Matematyki Uniwersytet w
Bardziej szczegółowoTestowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
Bardziej szczegółowoWykład 3 Momenty zmiennych losowych.
Wykład 3 Momenty zmiennych losowych. Wrocław, 19 października 2016r Momenty zmiennych losowych Wartość oczekiwana - przypomnienie Definicja 3.1: 1 Niech X będzie daną zmienną losową. Jeżeli X jest zmienną
Bardziej szczegółowoWykład 3 Momenty zmiennych losowych.
Wykład 3 Momenty zmiennych losowych. Wrocław, 18 października 2017r Momenty zmiennych losowych Wartość oczekiwana - przypomnienie Definicja 3.1: 1 Niech X będzie daną zmienną losową. Jeżeli X jest zmienną
Bardziej szczegółowo5 Przegląd najważniejszych rozkładów
5 Przegląd najważniejszych rozkładów 5. Rozkład Bernoulliego W niezmieniających się warunkach wykonujemy n razy pewne doświadczenie. W wyniku każdego doświadczenia może nastąpić zdarzenie A lub A. Zakładamy,
Bardziej szczegółowoPEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA
PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA 1. Trójkę (Ω, F, P ), gdzie Ω, F jest σ-ciałem podzbiorów Ω, a P jest prawdopodobieństwem określonym na F, nazywamy przestrzenią probabilistyczną. 2. Rodzinę F
Bardziej szczegółowo2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7
Spis treści Spis treści 1 Przedziały ufności 1 1.1 Przykład wstępny.......................... 1 1.2 Określenie i konstrukcja...................... 3 1.3 Model dwupunktowy........................ 5 1.4
Bardziej szczegółowoMatematyka z el. statystyki, # 6 /Geodezja i kartografia II/
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl
Bardziej szczegółowoNiech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.
Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,
Bardziej szczegółowoStatystyka matematyczna. Wykład III. Estymacja przedziałowa
Statystyka matematyczna. Wykład III. e-mail:e.kozlovski@pollub.pl Spis treści Rozkłady zmiennych losowych 1 Rozkłady zmiennych losowych Rozkład χ 2 Rozkład t-studenta Rozkład Fischera 2 Przedziały ufności
Bardziej szczegółowoWeryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Przykład (wstępny). Producent twierdzi, że wadliwość produkcji wynosi 5%. My podejrzewamy, że rzeczywista wadliwość produkcji wynosi 15%. Pobieramy próbę stuelementową
Bardziej szczegółowo1 Gaussowskie zmienne losowe
Gaussowskie zmienne losowe W tej serii rozwiążemy zadania dotyczące zmiennych o rozkładzie normalny. Wymagana jest wiedza na temat własności rozkładu normalnego, CTG oraz warunkowych wartości oczekiwanych..
Bardziej szczegółowoLiczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną
Wydział: Zarządzanie i Finanse Nazwa kierunku kształcenia: Finanse i Rachunkowość Rodzaj przedmiotu: podstawowy Opiekun: prof. nadzw. dr hab. Tomasz Kuszewski Poziom studiów (I lub II stopnia): II stopnia
Bardziej szczegółowoJednowymiarowa zmienna losowa
1 Jednowymiarowa zmienna losowa Przykład Doświadczenie losowe - rzut kostką do gry. Obserwujemy ilość wyrzuconych oczek. Teoretyczny model eksperymentu losowego - przestrzeń probabilistyczna (Ω, S, P ),
Bardziej szczegółowoOpis przedmiotu: Probabilistyka I
Opis : Probabilistyka I Kod Nazwa Wersja TR.SIK303 Probabilistyka I 2012/13 A. Usytuowanie w systemie studiów Poziom Kształcenia Stopień Rodzaj Kierunek studiów Profil studiów Specjalność Jednostka prowadząca
Bardziej szczegółowodr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu
Kod przedmiotu TR.SIK303 Nazwa przedmiotu Probabilistyka I Wersja przedmiotu 2015/16 A. Usytuowanie przedmiotu w systemie studiów Poziom kształcenia Studia I stopnia Forma i tryb prowadzenia studiów Stacjonarne
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład XIV: Metody Monte Carlo 19 stycznia 2016 Przybliżone obliczanie całki oznaczonej Rozważmy całkowalną funkcję f : [0, 1] R. Chcemy znaleźć przybliżoną wartość liczbową całki 1 f (x) dx. 0 Jeden ze
Bardziej szczegółowoMatematyka z el. statystyki, # 3 /Geodezja i kartografia II/
Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Akademicka 15, p.211a bud. Agro II, e-mail: zdzislaw.otachel@up.lublin.pl
Bardziej szczegółowoPrzykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych
Rozdział 1 Zmienne losowe, ich rozkłady i charakterystyki 1.1 Definicja zmiennej losowej Niech Ω będzie przestrzenią zdarzeń elementarnych. Definicja 1 Rodzinę S zdarzeń losowych (zbiór S podzbiorów zbioru
Bardziej szczegółowoPrzestrzeń probabilistyczna
Przestrzeń probabilistyczna (Ω, Σ, P) Ω pewien niepusty zbiór Σ rodzina podzbiorów tego zbioru P funkcja określona na Σ, zwana prawdopodobieństwem. Przestrzeń probabilistyczna (Ω, Σ, P) Ω pewien niepusty
Bardziej szczegółowoWYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty
WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty Agata Boratyńska Agata Boratyńska Rachunek prawdopodobieństwa, wykład 4 / 9 Przekształcenia zmiennej losowej X
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 1 / 41 TESTOWANIE HIPOTEZ - PORÓWNANIE
Bardziej szczegółowoOpis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej
Kod przedmiotu TR.NIK304 Nazwa przedmiotu Probabilistyka I Wersja przedmiotu 2015/16 A. Usytuowanie przedmiotu w systemie studiów Poziom kształcenia Studia I stopnia Forma i tryb prowadzenia studiów Niestacjonarne
Bardziej szczegółowoPODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek
PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA Piotr Wiącek ROZKŁAD PRAWDOPODOBIEŃSTWA Jest to miara probabilistyczna określona na σ-ciele podzbiorów borelowskich pewnej przestrzeni metrycznej. σ-ciało podzbiorów
Bardziej szczegółowoMETODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie
METODY ESTYMACJI PUNKTOWEJ X 1,..., X n - próbka z rozkładu P θ, θ Θ, θ jest nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie P θ. Definicja. Estymatorem
Bardziej szczegółowo... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).
Egzamin ze Statystyki Matematycznej, WNE UW, wrzesień 016, zestaw B Odpowiedzi i szkice rozwiązań 1. Zbadano koszt 7 noclegów dla 4-osobowej rodziny (kwatery) nad morzem w sezonie letnim 014 i 015. Wylosowano
Bardziej szczegółowo1.1 Wstęp Literatura... 1
Spis treści Spis treści 1 Wstęp 1 1.1 Wstęp................................ 1 1.2 Literatura.............................. 1 2 Elementy rachunku prawdopodobieństwa 2 2.1 Podstawy..............................
Bardziej szczegółowoBiostatystyka, # 3 /Weterynaria I/
Biostatystyka, # 3 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, p. 221 bud. CIW, e-mail: zdzislaw.otachel@up.lublin.pl
Bardziej szczegółowoPRZEWODNIK PO PRZEDMIOCIE
Nazwa przedmiotu: Rachunek prawdopodobieństwa Probability theory Kierunek: Rodzaj przedmiotu: obowiązkowy dla wszystkich specjalności Rodzaj zajęć: wykład, ćwiczenia Matematyka Poziom kwalifikacji: I stopnia
Bardziej szczegółowoĆwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu.
Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu. A Teoria Definicja A.1. Niech (Ω, F, P) będzie przestrzenią probabilistyczną. Zmienną losową określoną na przestrzeni Ω nazywamy dowolną
Bardziej szczegółowoSylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15
Sylabus do programu kształcenia obowiązującego od roku akademickiego 0/5 () Nazwa Rachunek prawdopodobieństwa i statystyka () Nazwa jednostki prowadzącej Wydział Matematyczno - Przyrodniczy przedmiot ()
Bardziej szczegółowoPrawdopodobieństwo i statystyka Wykład I: Przestrzeń probabilistyczna
9 października 2018 Zasady zaliczenia przedmiotu: Zaliczenie ćwiczeń rachunkowych. Zdanie egzaminu ustnego z treści wykładu. Literatura J. Jakubowski i R. Sztencel, Wstęp do teorii prawdopodobieństwa.
Bardziej szczegółowoInżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy
Załącznik nr 7 do Zarządzenia Rektora nr../12 z dnia.... 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2017/2018 STATYSTYKA
Bardziej szczegółowoZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.
Opracowała: Joanna Kisielińska ZMIENNE LOSOWE Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R tzn. X: R. Realizacją zmiennej losowej
Bardziej szczegółowoNa A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)
MODELE STATYSTYCZNE Punktem wyjścia w rozumowaniu statystycznym jest zmienna losowa (cecha) X i jej obserwacje opisujące wyniki doświadczeń bądź pomiarów. Zbiór wartości zmiennej losowej X (zbiór wartości
Bardziej szczegółowoRozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe
Statystyka i opracowanie danych W4 Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Rozkład normalny wykres funkcji gęstości
Bardziej szczegółowoStatystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Bardziej szczegółowoW rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:
W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe
Bardziej szczegółowoWnioskowanie statystyczne. Statystyka w 5
Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających
Bardziej szczegółowoZmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014
Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014 Zmienne losowe i ich rozkłady Doświadczenie losowe: Rzut monetą Rzut kostką Wybór losowy n kart z talii 52 Gry losowe
Bardziej szczegółowoStatystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
Bardziej szczegółowoKomputerowa Analiza Danych Doświadczalnych
Komputerowa Analiza Danych Doświadczalnych Prowadząca: dr inż. Hanna Zbroszczyk e-mail: gos@if.pw.edu.pl tel: +48 22 234 58 51 konsultacje: poniedziałek, 10-11, środa: 11-12 www: http://www.if.pw.edu.pl/~gos/students/kadd
Bardziej szczegółowoWykład 10 Estymacja przedziałowa - przedziały ufności dla średn
Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem
Bardziej szczegółowoWykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa
Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa Marek Kubiak Instytut Informatyki Politechnika Poznańska Plan wykładu Podstawowe pojęcia rachunku prawdopodobieństwa Rozkład
Bardziej szczegółowoSIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania
SIMR 7/8, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania. Dana jest gęstość prawdopodobieństwa zmiennej losowej ciągłej X : { a( x) dla x [, ] f(x) = dla pozostałych x Znaleźć: i) Wartość parametru
Bardziej szczegółowoHipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.
Hipotezy proste Zadanie 1. Niech X ma funkcję gęstości f a (x) = (1 + a)x a, dla 0 < x < 1, Testujemy H 0 : a = 1 przeciwko H 1 : a = 2. Dysponujemy pojedynczą obserwacją X. Wyznaczyć obszar krytyczny
Bardziej szczegółowoStatystyka w przykładach
w przykładach Tomasz Mostowski Zajęcia 10.04.2008 Plan Estymatory 1 Estymatory 2 Plan Estymatory 1 Estymatory 2 Własności estymatorów Zazwyczaj w badaniach potrzebujemy oszacować pewne parametry na podstawie
Bardziej szczegółowoWykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów
Wykład 6 Estymatory efektywne. Własności asymptotyczne estymatorów Wrocław, 30 listopada 2016r Powtórzenie z rachunku prawdopodobieństwa Zbieżność Definicja 6.1 Niech ciąg {X } n ma rozkład o dystrybuancie
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA
Zał. nr 4 do ZW WYDZIAŁ ELEKTRONIKI KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA MATEMATYCZNA Nazwa w języku angielskim Mathematical Statistics Kierunek studiów (jeśli dotyczy): Specjalność (jeśli
Bardziej szczegółowoIdea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Bardziej szczegółowoO ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE
Ryszard Zieliński, IMPAN Warszawa O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE XXXIX Ogólnopolska Konferencja Zastosowań Matematyki Zakopane-Kościelisko 7-14 września 2010 r Model statystyczny pomiaru: wynik pomiaru
Bardziej szczegółowoTestowanie hipotez statystycznych.
Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie
Bardziej szczegółowoWeryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Bardziej szczegółowoRozkłady prawdopodobieństwa
Tytuł Spis treści Wersje dokumentu Instytut Matematyki Politechniki Łódzkiej 10 grudnia 2011 Spis treści Tytuł Spis treści Wersje dokumentu 1 Wartość oczekiwana Wariancja i odchylenie standardowe Rozkład
Bardziej szczegółowo1.1 Statystyka matematyczna Literatura Model statystyczny Preliminaria... 3
Spis treści Spis treści 1 Wstęp 1 1.1 Statystyka matematyczna...................... 1 1.2 Literatura.............................. 1 1.3 Model statystyczny......................... 2 1.4 Preliminaria.............................
Bardziej szczegółowo1 Elementy kombinatoryki i teorii prawdopodobieństwa
1 Elementy kombinatoryki i teorii prawdopodobieństwa 1.1 Elementy kombinatoryki W rozwiązywaniu pewnych problemów związanych z obliczaniem prawdopodobieństwa o skończonej liczbie zdażeń elementarnych bardzo
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 4 1 / 23 ZAGADNIENIE ESTYMACJI Zagadnienie
Bardziej szczegółowoZmienne losowe ciągłe i ich rozkłady
Statystyka i opracowanie danych W3 Zmienne losowe ciągłe i ich rozkłady Dr Anna ADRIAN Paw B5, pok47 adan@agh.edu.pl Plan wykładu Rozkład Poissona. Zmienna losowa ciągła Dystrybuanta i funkcja gęstości
Bardziej szczegółowoJeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.
Wykład 4 Rozkłady i ich dystrybuanty Dwa typy zmiennych losowych Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x, x 2,...}, to mówimy, że jest to zmienna dyskretna.
Bardziej szczegółowoKARTA PRZEDMIOTU. Forma prowadzenia zajęć. Odniesienie do efektów dla kierunku studiów K1A_W02
(pieczęć wydziału) KARTA PRZEDMIOTU Z1-PU7 WYDANIE N1 Strona 1 z 5 1. Nazwa przedmiotu: RACHUNEK PRAWDOPODOBIEŃSTWA 2. Kod przedmiotu: RPr 3. Karta przedmiotu ważna od roku akademickiego: 20182019 4. Forma
Bardziej szczegółowozadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych
zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych 1. [E.A 5.10.1996/zad.4] Funkcja gęstości dana jest wzorem { 3 x + 2xy + 1 y dla (x y) (0 1) (0 1) 4 4 P (X > 1 2 Y > 1 2 ) wynosi:
Bardziej szczegółowoElementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Bardziej szczegółowoWykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe
Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Nierówność Czebyszewa Niech X będzie zmienną losową o skończonej wariancji V ar(x). Wtedy wartość oczekiwana E(X) też jest skończona i
Bardziej szczegółowo