Statystyka i eksploracja danych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Statystyka i eksploracja danych"

Transkrypt

1 Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych realizowany w ramach Poddziałania Programu Operacyjnego Kapitał Ludzki Statystyka i eksploracja danych Treść wykładów Adam Jakubowski UMK Toruń 2011 Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

2

3 Spis treści Wstęp 1 1 Formalizm teorii prawdopodobieństwa 3 Po co nam formalizm matematyczny? Co to jest Przestrzeń probabilistyczna Przykłady przestrzeni probabilistycznych Przestrzeń statystyczna Zmienne losowe i charakterystyki ich rozkładów 9 Zmienna losowa i jej rozkład Wartość oczekiwana zmiennej losowej Dystrybuanta zmiennej losowej Rozkłady dyskretne i absolutnie ciągłe Momenty, wariancja, odchylenie standardowe Mediana, kwantyle Wektory losowe i charakterystyki ich rozkładów 15 Wektory losowe Macierz kowariancji wektora losowego Współczynnik korelacji Niezależność 19 Brak korelacji a niezależność zmiennych losowych Niezależność zmiennych losowych Kryteria niezależności Niezależność zdarzeń Niezależność parami Estymatory 25 Jak wyliczyć współczynnik korelacji? Próba prosta z populacji Estymator nieobciążony Zgodność ciągu estymatorów i

4 ii Spis treści 6 Estymatory II 31 Estymatory największej wiarogodności Estymatory minimalnej wariancji Rodziny wykładnicze rozkładów Estymatory nieobciążone minimalnej wariancji Przedziały ufności 39 Obszar ufności Przedział ufności Rozkład t-studenta Rozkład chi-kwadrat Rozkład F -Snedecora Asymptotyczne przedziały ufności Prognoza. Warunkowa wartość oczekiwana 47 Zagadnienie prognozowania Warunkowa wartość oczekiwana Prognoza liniowa Procesy gaussowskie Testowanie hipotez statystycznych 53 Test hipotezy, poziom istotności, moc testu Lemat Neymana-Pearsona Konkluzje Testowanie hipotez - przykłady 59 Dystrybuanta empiryczna i tw. Gniedenki-Cantellego Test zgodności Kołmogorowa Porównywanie średnich Test χ 2 Pearsona Metoda najmniejszych kwadratów i regresja liniowa 65 Model liniowy i regresja liniowa Metoda najmniejszych kwadratów Twierdzenie Gaussa-Markowa Redukcja wymiaru danych 69 Procedura standaryzacji danych Analiza składowych głównych Analiza czynnikowa Literatura 75

5 Wstęp Plan studiów na kierunku Informatyka na Wydziale Matematyki i Informatyki Uniwersytetu Mikołaja Kopernika w Toruniu przewiduje na pierwszym roku studiów drugiego stopnia obowiązkowy blok statystyczno-probabilistyczny, składający się z przedmiotów Statystyka i eksploracja danych i Metody i modele probabilistyczne. Według założeń programowych realizacja tego bloku ma stanowić podstawę do szerokiego stosowania metod stochastycznych, w zagadnieniach algorytmicznych, obliczeniowych i w modelowaniu systemów złożonych. Przedmiot Statystyka i analiza danych prowadzony jest w semestrze zimowym, w wymiarze 30 godzin wykładu i 30 godzin ćwiczeń rachunkowo-laboratoryjnych, w dużej mierze wykorzystujących najnowsze wersje pakietu SPSS. Zaliczenie przedmiotu polega na uzyskaniu zaliczenia ćwiczeń rachunkowo-laboratoryjnych oraz zdaniu dwuczęściowego egzaminu, składającego się z egzaminu praktycznego w laboratorium (wykonanie analizy przykładowych danych) oraz egzaminu ustnego z teorii. Do wykładu prowadzone są kursy wyrównawcze, podczas których osoby mające trudności z podstawowymi pojęciami teorii prawdopodobieństwa lub rachunkami mogą uzupełnić swoje umiejętności. Podstawą zajęć wyrównawczych jest materiał dydaktyczny Adam Jakubowski Statystyka i eksploracja danych. Repetytorium z teorii prawdopodobieństwa, Toruń Należy podkreślić, że podczas egzaminu wiadomości zawarte w Repetytorium są bezwzględnie wymagane. Ćwiczenia dydaktyczne prowadzone są w oparciu o materiały dydaktyczne Joanna Karłowska-Pik Statystyka i eksploracja danych. Ćwiczenia i zadania, Toruń Niniejsze opracowanie zawiera treści przekazywane w trakcie wykładów. Najważniejsze definicje i twierdzenia przedstawiane są w postaci zrzutu ekranowego odpowiedniej transparencji. Podstawowy materiał uzupełniany jest komentarzami i przykładami. Zagadnienia omawiane na wykładach, wraz z ewentualnymi uzupełnieniami, są dostępne na: w kategorii Studia stacjonarne/statystyka i eksploracja danych. Całość materiału podzielono na 12 jednostek, z grubsza odpowiadających dwugodzinnemu wykładowi. Istotne poszerzenie zakresu materiału wydaje się mało prawdopodobne, ze względu na konieczność wyrównania poziomu podczas pierwszych wykładów. 1

6 2 Wstęp Doświadczenie wskazuje bowiem, że studenci drugiego stopnia Informatyki posiadają bardzo różne przygotowanie w zakresie metod probabilistycznych, często ograniczające się do elementarnego rachunku prawdopodobieństwa wykładanego w ramach Matematyki dyskretnej. Należy podkreślić, że pewne aspekty analizy danych (np. metody bayesowskie) są przekazywane w ramach przedmiotu Metody i modele probabilistyczne, po systematycznej prezentacji dynamicznych metod Monte Carlo (MCMC). Literatura podstawowa przedmiotu zawiera książki: W. Niemiro Rachunek prawdopodobieństwa i statystyka matematyczna, Szkoła Nauk Ścisłych, Warszawa 1999, oraz D.T. Larose Metody i modele eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa Jako literatura uzupełniająca zalecane są ksiązki: J. Jakubowski i R. Sztencel Wstęp do teorii prawdopodobieństwa, Script, Warszawa 2004, D.T. Larose Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2006, oraz R. Zieliński Siedem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa Adam Jakubowski

7 1. Formalizm teorii prawdopodobieństwa Po co nam formalizm matematyczny? Podstawa porozumienia - aby skutecznie porozumiewać się z innymi przy realizacji projektów lub w trakcie rozwiązywania problemów. Możliwość uzyskania pomocy - aby umieć postawić specjalistom problem do rozwiązania. Lepsze zrozumienie materii - np. naturalnych ograniczeń stosowanych narzędzi. Co to jest... Rachunek prawdopodobieństwa to sztuka (umiejętność) obliczania prawdopodobieństw zdarzeń. Teoria prawdopodobieństwa to dział matematyki, na którym opierają się praktyczne obliczenia dokonywane w rachunku prawdopodobieństwa. Statystyka to sztuka (umiejętność) wnioskowania na podstawie próby losowej. Statystyka matematyczna to dział matematyki, który rozwija metody uzasadniające poprawność wnioskowania statystycznego. Eksploracja danych (drążenie danych, ekstrakcja danych) to umiejętność wydobywania użytecznych informacji z dużych zbiorów danych. Uwaga: Przyjmuje się, że twórcą matematycznego formalizmu teorii prawdopodobieństwa był rosyjski matematyk A.N. Kołmogorow ( ), który w 1933 roku opublikował książkę Grundbegriffe der Wahrscheinlichkeitsrechnung. 3

8 4 1. Formalizm teorii prawdopodobieństwa Przestrzeń probabilistyczna Uwaga: Pojęcia występujące w definicji przestrzeni probabilistycznej można interpretować w sposób następujący: Ω to zbiór wszystkich możliwych wyników eksperymentu losowego. Zdarzenia (elementy F) reprezentują fakty, których zajście możemy stwierdzić, tzn. dla A F zawsze możemy powiedzieć, czy wynik ω A, czy ω A. W ten sposób F reprezentuje całość wiedzy, którą możemy uzyskać w wyniku realizacji eksperymentu losowego. F nigdy nie może zajść (jest zdarzeniem niemożliwym ), więc P ( ) = 0. Ale idziemy dalej: P (A) = 0 oznacza, że zdarzenie A jest niemożliwe, choć może być A. Ω F zachodzi zawsze (jest zdarzeniem pewnym ), więc P (Ω) = 1. Podobnie: P (A) = 1 oznacza, że zdarzenie A jest pewne, choć A może być właściwym podzbiorem Ω.

9 Przestrzeń probabilistyczna 5

10 6 1. Formalizm teorii prawdopodobieństwa

11 Przykłady przestrzeni probabilistycznych 7 Przykłady przestrzeni probabilistycznych Klasyczna definicja prawdopodobieństwa. Niech Ω będzie zbiorem skończonym i niech F = 2 Ω. Określamy P (A) = #A #Ω. ( Zasada racji dostatecznej Laplace a.) Prawdopodobieństwo dyskretne. Niech Ω 0 = {ω 1, ω 2,...} będzie podzbiorem przeliczalnym zbioru Ω. Niech p 1, p 2,... 0, j p j = 1. Przyjmując z definicji 0, określamy P (A) = p j. (F = 2 Ω!) {j : ω j A} Niech Ω = R 1 i p(x) 0 będzie funkcją na R 1 taką, że + p(x) dx = 1. Określamy: P ((a, b]) = b a p(x) dx, a < b, a, b R 1. Uwaga: Jak wygląda F? To problem badany przez teorię miary i całki Lebesgue a. Można pokazać, że nie istnieje prawdopodobieństwo Q : 2 R1 [0, 1] pokrywające się z P na odcinkach.

12 8 1. Formalizm teorii prawdopodobieństwa Z drugiej strony istnieje σ-algebra B 1 (tzw. zbiorów borelowskich) na którą można rozszerzyć funkcję P, tak aby spełnione były własności prawdopodobieństwa. Przestrzeń statystyczna

13 2. Zmienne losowe i charakterystyki ich rozkładów Zmienna losowa i jej rozkład 9

14 10 2. Zmienne losowe Wartość oczekiwana zmiennej losowej Uwaga: zmienna losowa X ma skończoną wartość oczekiwaną dokładnie wtedy, gdy E X < +. Mówimy również, że zmienna X jest całkowalna i piszemy X L 1 (P ). 2.1 Twierdzenie (Własności wartości oczekiwanej) 1. Jeżeli X 0, to EX 0. Jeżeli X 0 i EX = 0, to P (X = 0) = EX E X. 3. Jeżeli E X < + i E Y < +, to dla dowolnych liczb α, β R 1 funkcja αx + βy jest zmienna losową i ma miejsce równość: E (αx + βy ) = αex + βey. 4. Jeżeli Y X, to EY EX pod warunkiem, że wartości oczekiwane istnieją.

15 Dystrybuanta zmiennej losowej 11 Dystrybuanta zmiennej losowej 2.2 Twierdzenie (Własności dystrybuanty zmiennej losowej) 1. Jeżeli u v, to F X (u) F X (v) (monotoniczność). 2. F X jest funkcją prawostronnie ciągłą. 3. lim F X (u) = 0, u lim F X (u) = 1. u Twierdzenie Twierdzenie (O dystrybuantach) Jeżeli funkcja F : R 1 [0, 1] spełnia warunki 1-3 z powyższego twierdzenia, to istnieje zmienna losowa X taka, że F = F X.

16 12 2. Zmienne losowe Rozkłady dyskretne i absolutnie ciągłe 2.4 Fakt (Skoki dystrybuanty) P X {x} = P (X = x) > 0 wtedy i tylko wtedy, gdy dystrybuanta F X ma skok w punkcie x i F X (x) F X (x ) = P (X = x). 2.5 Twierdzenie (Gęstość a pochodna dystrybuanty) Każda dystrybuanta F jest l-prawie wszędzie różniczkowalna i pochodna F (określona l-prawie wszędzie) spełnia warunek F (x) F (x) dx. (,x] Uwaga: Może się zdarzyć, że R 1 F (x) dx < Twierdzenie Jeżeli R 1 F (x) dx = 1, to rozkład odpowiadający dystrybuancie F jest absolutnie ciągły z gęstością p(x) = F (x). 2.7 Twierdzenie (Obliczanie EX dla rozkładu dyskretnego) Jeżeli X ma rozkład dyskretny, to dla dowolnej funkcji f : R 1 R 1 Ef(X) = f(x i )P (X = x i ) = f(x i )p i, i=1 i=1

17 Momenty, wariancja, odchylenie standardowe 13 przy czym Ef(X) istnieje dokładnie wtedy, gdy f(x i ) p i < +. i=1 2.8 Twierdzenie (Obliczanie EX dla rozkładu absolutnie ciągłego) Jeżeli X ma rozkład absolutnie ciągły o gęstości p(x), to dla dowolnej funkcji (borelowskiej) f : R 1 R 1 Ef(X) = + f(x)p(x) dx, przy czym Ef(X) istnieje dokładnie wtedy, gdy + f(x) p(x) dx < +. Momenty, wariancja, odchylenie standardowe

18 14 2. Zmienne losowe Mediana, kwantyle

19 3. Wektory losowe i charakterystyki ich rozkładów Wektory losowe Podobnie jak w przypadku zmiennych losowych, dystrybuantą wektora losowego X nazywamy funkcję F X : IR d [0, 1], zadaną wzorem F X (a 1, a 2,..., a d ) := P X ({X 1 a 1, X 2 a 2,..., X d a d }). Uwaga: dystrybuanta wektora losowego określa rozkład wektora losowego. W jaki sposób? Uwaga: nie każda funkcja na IR d, która jest niemalejąca po współrzędnych, zadaje dystrybuantę! (Przykład!) 15

20 16 3. Wektory losowe Macierz kowariancji wektora losowego 80 80

21 Współczynnik korelacji Twierdzenie (Równoważna definicja wartości oczekiwanej) Niech E X < +. Wartość oczekiwana wektora X to jedyny wektor m IR d taki, że E x, X = x, m, x IR d. 3.2 Twierdzenie (Równoważna definicja macierzy kowariancji) Niech E X 2 < +. Macierz kowariancji wektora X jest jedyną symetryczną macierzą Σ wymiaru d d wyznaczoną przez formę kwadratową E x, X E X 2 = Var ( x, X ) = x, Σ x, x IR d. Cov ( X) jest więc jedyną macierzą Σ spełniającą związek E x, X E X y, X E X = cov ( x, X, y, X ) = x, Σ y, x, y IR d. 3.3 Twierdzenie (Charakteryzacja macierzy kowariancji) Macierz kowariancji wektora losowego X jest symetryczna i nieujemnie określona. Na odwrót, dla dowolnej symetrycznej i nieujemnie określonej macierzy Σ rozmiaru d d istnieje d-wymiarowy wektor losowy X taki, że Cov ( X) = Σ. Współczynnik korelacji 3.4 Twierdzenie (Interpretacja wspólczynnika korelacji) r(x, Y ) = 1 wtedy, i tylko wtedy, gdy istnieją stałe α, β takie, że X = αy + β lub Y = αx + β.

22 18 3. Wektory losowe

23 4. Niezależność Brak korelacji a niezależność zmiennych losowych Niech zmienne losowe X i Y będą jak na stronie 18. Rozważmy zmienne X 2 i Y 2. 19

24 20 4. Niezależność

25 Niezależność zmiennych losowych 21 Niezależność zmiennych losowych Uwaga: Jeżeli rodzina {X i } i II jest niezależna, to niezależna jest również każda rodzina postaci {g i (X i )} i II. 4.1 Twierdzenie (Niezależność pociąga nieskorelowanie) Jeżeli zmienne losowe X i Y są niezależne i całkowalne, to iloczyn XY jest całkowalną zmienną losową i EXY = EX EY. W szczególności niezależne zmienne losowe są nieskorelowane. Uwaga: Bez założenia o niezależności warunek dostateczny dla całkowalności iloczynu XY odwołuje się do nierówności Höldera. E XY (E X p ) 1/p (E Y q ) 1/q, 1 p + 1 q = Wniosek (Mnożenie wartości oczekiwanych) Niech X 1, X 2,..., X d będą niezależne. Jeżeli funkcje f i sa takie, że f 1 (X 1 ), f 2 (X 2 ),..., f d (X d ) są całkowalnymi zmiennymi losowymi, tj. E f i (X i ) < +, i = 1, 2,..., d, to Ef 1 (X 1 )f 2 (X 2 ) f d (X d ) = Ef 1 (X 1 ) Ef 2 (X 2 ) Ef d (X d ).

26 22 4. Niezależność Kryteria niezależności 4.3 Twierdzenie Zmienne losowe X 1, X 2,..., X d są niezależne wtedy, i tylko wtedy, gdy dla dowolnych liczb a 1, a 2,..., a d ma miejsce równość Innymi słowy P (X 1 a 1, X 2 a 2,..., X d a d ) = P (X 1 a 1 )P (X 2 a 2 )... P (X d a d ). F (X1,X 2,...,X d )(a 1, a 2,..., a d ) = F X1 (a 1 ) F X2 (a 2 )... F Xd (a d ), tzn. dystrybuanta rozkładu łącznego jest iloczynem dystrybuant brzegowych. 4.4 Przykład (Klasyczne prawdopodobieństwo na produkcie) Niech wyniki i- tego eksperymentu będą elementami skończonej przestrzeni Ω i. Połóżmy Ω = Ω 1 Ω 2... Ω d. Niech P będzie klasycznym prawdopodobieństwem na Ω. Wtedy dla dowolnych funkcji f i : Ω i IR 1, zmienne losowe są stochastycznie niezależne. X i (ω 1, ω 2,..., ω d ) = f i (ω i ) Uwaga: W tym szczególnym przypadku niezależność stochastyczna pokrywa się z niezależnością funkcyjną (zmienne X i w istocie są funkcjami różnych argumentów). Przewaga niezależności stochastycznej polega na uwolnieniu tej własności od konkretnej przestrzeni funkcyjnej.

27 Niezależność zdarzeń Twierdzenie (Niezależność dyskretnych zmiennych losowych) Niech rozkłady zmiennych X 1, X 2,..., X d będą dyskretne. Zmienne losowe X 1, X 2,..., X d są niezależne dokładnie wtedy, gdy dla dowolnych x 1, x 2,..., x d IR 1 ma miejsce związek P (X 1 = x 1, X 2 = x 2,..., X d = x d ) = P (X 1 = x 1 )P (X 2 = x 2 ) P (X d = x d ). 4.6 Twierdzenie (Niezależność absolutnie ciągłych zmiennych losowych) Niech rozkłady zmiennych X 1, X 2,..., X d będą absolutnie ciągłe z gęstościami p 1 (x), p 2 (x),..., p d (x). Zmienne losowe X 1, X 2,..., X d są niezależne dokładnie wtedy, gdy rozkład łączny tych zmiennych jest absolutnie ciągły (tzn. posiada gęstość względem miary Lebesgue a na IR d ) i jego gęstość ma postać p X (x 1, x 2,..., x d ) = p 1 (x 1 )p 2 (x 2 ) p d (x d ). Niezależność zdarzeń

28 24 4. Niezależność Niezależność parami

29 5. Estymatory Jak wyliczyć współczynnik korelacji? W przykładach podanych na poprzednim wykładzie dane maja postać chmury punktów (wektorów dwuwymiarowych). Na podstawie danych, za pomocą odpowiedniego wzoru, wyliczamy liczbę, która stanowi pewną charakterystykę zbioru danych. Nasuwają się następujące naturalne pytania: Skąd wiemy, że to, co policzyliśmy, odpowiada naszym oczekiwaniom? Jaka jest jakość uzyskanego wyniku? A raczej: Jak mierzyć jakość naszego wyniku? Jak znajdować odpowiednie wzory? 5.1 Przykład (n-krotny pomiar jednym przyrządem) X k = m + ε k, gdzie m - rzeczywista wartość pomiaru, a ε k - błąd k-tego pomiaru. Co przyjąć za wynik pomiaru? Dlaczego? Prawo wielkich liczb stwierdza, że X n = X 1 + X X n. n ε 1 + ε ε n n Eε 1, gdzie Eε 1 = 0 dla przyrządu poprawnie skalibrowanego ( brak błędu systematycznego ). Powyżej korzystamy z modelu błędu pomiaru w postaci ciągu niezależnych zmiennych losowych o jednakowym rozkładzie, z wartością oczekiwaną zero. Inne spojrzenie: E X n = m, jeśli brak jest błędu systematycznego (obciążenia). 25

30 26 5. Estymatory Próba prosta z populacji 5.2 Przykład (Losowanie ze zwracaniem) Jesteśmy zainteresowani rozkładem danej cechy U w populacji Ω. Losujemy (ze zwracaniem) N osobników i badamy wartości cechy. Jak określić odpowiednią przestrzeń statystyczną (X, B, {P θ } θ Θ )? Niech X 0 = {U(ω) : ω Ω} IR d. Kładziemy: X = (X 0 ) N ; B =? (jak wynika z kontekstu); Θ = P(X 0 ) (zbiór wszystkich rozkładów prawdopodobieństwa na X 0 ); P θ = θ θ... θ. }{{} N razy

31 Estymator nieobciążony 27 Estymator nieobciążony

32 28 5. Estymatory 5.3 Przykład (Estymator wartości oczekiwanej) Θ = {θ P(IR 1 ) : E Y < +, jeśli Y θ}, g(θ) = EY, jeśli Y θ. ĝ(x 1, X 2,..., X N ) = X N = X 1 + X X N N 5.4 Przykład (Nieobciążony estymator wariancji) Θ = {θ P(IR 1 ) : EY 2 < +, jeśli Y θ}, g(θ) = Var (Y ) = EY 2 (EY ) 2, jeśli Y θ. ĝ(x 1, X 2,..., X N ) = S 2 N = = (X 1 X N ) 2 + (X 2 X N ) (X N X N ) 2. N Przykład (Nieobciążony estymator wariancji przy znanej wartości oczekiwanej) Θ = {θ P(IR 1 ) : EY 2 < +, EY = µ, jeśli Y θ}, g(θ) = Var (Y ) = EY 2 µ 2, jeśli Y θ. ĝ(x 1, X 2,..., X N ) = (X 1 µ) 2 + (X 2 µ) (X N µ) 2. N 5.6 Przykład (Estymator prawdopodobieństwa sukcesu w schemacie Bernoullego) Θ = {rozkład dwupunktowy, P (Y = 1) = θ = 1 P (Y = 0)},.

33 Zgodność ciągu estymatorów 29 g(θ) = θ. ĝ(x 1, X 2,..., X N ) = X 1 + X X N N. 5.7 Przykład (Dwa estymatory dla P (X = 0) z rozkładu Poissona) Θ = {rozkład Poissona z parametrem θ IR + }, g(θ) = e θ (= P θ (Y = 0)). ĝ 1 (X 1, X 2,..., X N ) = 1I {{X 1 =0}} + 1I {{X2 =0}} I {{XN =0}}. N ĝ 2 (X 1, X 2,..., X N ) = ( 1 1 N ) X1 +X X N. Zgodność ciągu estymatorów Uwaga: Jeśli ciąg {ĝ n } jest mocno zgodny, to jest słabo zgodny. Jeśli ciąg {ĝ n } jest zgodny w sensie L 2, to jest słabo zgodny. 5.8 Przykład Jeśli istnieją drugie momenty, to ciąg estymatorów { X n } jest zgodny w sensie L 2.

34 30 5. Estymatory 5.9 Wniosek Ciąg estymatorów { X n } jest mocno zgodny. Zgodność obu ciągów estymatorów wariancji. Zgodność ciągu estymatorów prawdopodobieństwa sukcesu w schemacie Bernoullego. Zgodność obu ciągów estymatorów dla P (Y = 0) z rozkładu Poissona.

35 6. Estymatory II Estymatory największej wiarogodności Uwaga: Na poprzednim wykładzie pojawiło się wiele wzorów, które miały rozmaite dobre własności. Czy istnieje metoda znajdowania takich wzorów? Uwaga: gdy wszystkie rozkłady P θ są dyskretne i skoncentrowane na tym samym zbiorze przeliczalnym X 0, jako miarę referencyjną możemy wybrać miarę liczącą: Λ(A) = #A, A X 0. Wtedy gęstość w punkcie x X 0 jest dana wzorem p θ (x) = P θ ({x}). 31

36 32 6. Estymatory II Uwagi: ENW nie musi być nieobciążony. ENW może nie istnieć. ENW może nie być określony jednoznacznie lub jego wyznaczenie może być bardzo trudne. 6.1 Przykłady ENW dla prawdopodobieństwa sukcesu w schemacie N prób Bernoullego. ˆp(X 1, X 2,..., X N ) = X 1 + X X N N ENW dla wartości oczekiwanej i wariancji dla próby prostej gaussowskiej długości N. ˆµ = X 1 + X X N ( ) = XN. N ˆσ 2 = (X 1 X N ) 2 + (X 2 X N ) (X N X N ) 2 N. ( = N 1 ) N S N 2.

37 Estymatory minimalnej wariancji 33 Estymatory minimalnej wariancji 6.2 Przykład (Porównywanie estymatorów) Przypomnijmy dwa estymatory dla P (X = 0) z rozkładu Poissona Θ = {rozkład Poissona z parametrem θ IR + }, g(θ) = e θ (= P θ (X = 0)). ĝ 1 (X 1, X 2,..., X N ) = 1I {{X 1 =0}} + 1I {{X2 =0}} I {{XN =0}}. N ĝ 2 (X 1, X 2,..., X N ) = ( 1 1 N ) X1 +X X N. Który jest lepszy i w jakim sensie? Var θ (ĝ 2 ) < Var θ (ĝ 1 )! Uwaga: Istnieje piękna teoria, równie pięknie przedstawiona w książce R. Zieliński, Siedem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa 1990, która pojęcie estymator nieobciążony minimalnej wariancji analizuje z punktu widzenia tzw. statystyk dostatecznych (tzn. zawierających pełną informację o modelu statystycznym). Na wykładzie podamy tylko najważniejsze zastosowanie tej teorii.

38 34 6. Estymatory II Rodziny wykładnicze rozkładów 6.3 Przykład Rozkład dwupunktowy (Bernoullego) P θ {1} = θ = 1 P θ {0} ma gęstość na {0, 1} ( ) θ p θ (x) = exp x ln 1 θ + ln(1 θ). W reprezentacji k p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy: T 1 (x) = x, c 1 (θ) = ln ( θ/(1 θ) ), b(θ) = ln(1 θ), h(x) Przykład Rozkład normalny N (µ, σ 2 ) ma gęstość na IR 1 ( p µ,σ (x) = exp 1 2σ 2 x2 + µ ) σ 2 x [ µ2 2σ 2 + ln(σ 2π)]. j=1 ( kj=1 ) W reprezentacji p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy θ = (µ, σ 2 ) oraz:

39 Rodziny wykładnicze rozkładów 35 T 1 (x) = x 2, c 1 (θ) = 1/(2σ 2 ), T 2 (x) = x, c 2 (θ) = µ/σ 2, b(θ) = µ 2 /(2σ 2 ) + ln(σ 2π), h(x) Przykład Rozkład gamma Γ(α, λ), α > 1, γ > 0 ma gęstość na IR 1 ( p α,λ (x) = exp 1 ) λ x + (α 1) ln x ln[λα Γ(α)] 1I {[0, )} (x). ( kj=1 ) W reprezentacji p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy θ = (α, γ) oraz: T 1 (x) = x, c 1 (θ) = 1/λ, T 2 (x) = ln x, c 2 (θ) = α 1, b(θ) = ln ( λ α Γ(α) ), h(x) = 1I {[0, )} (x) Przykład Rozkład Poissona z parametrem λ ma gęstość na IN p λ (x) = exp (ln λ x λ) 1 x!. ( kj=1 ) W reprezentacji p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy (θ = λ): T 1 (x) = x, c 1 (λ) = ln λ, b(λ) = λ, h(x) = 1/x!. 6.7 Przykład Próba prosta długości N z rozkładu Bernoullego z prawdopodobieństwem sukcesu θ (0, 1) ma gęstość na przestrzeni {0, 1} N p N θ (x 1, x 2,..., x N ) = p θ (x 1 ) p θ (x 2 )... p θ (x N ) ( = exp (x 1 + x x N ) ln ) θ 1 θ + N ln(1 θ). ( W reprezentacji p N θ (x) = exp kj=1 ) c j (θ)t j (x) b(θ) h(x) mamy więc:

40 36 6. Estymatory II T 1 (x 1, x 2,..., x N ) = x 1 + x x N, c 1 (θ) = ln ( θ/(1 θ) ), b(θ) = N ln(1 θ), h(x) 1. Podobnie transformują się gęstości dla prób prostych z innych rodzin wykładniczych. Estymatory nieobciążone minimalnej wariancji 6.8 Przykłady Populacja normalna, µ znane. ENMW (σ 2 ) = (X 1 µ) 2 + (X 2 µ) (X N µ) 2. N Populacja normalna, µ znane. ENMW (σ) = Γ( n 2 ) 2Γ( n+1 2 ) (X 1 µ) 2 + (X 2 µ) (X N µ) 2.

41 Estymatory nieobciążone minimalnej wariancji 37 Populacja normalna, σ znane. Populacja normalna, µ i σ nie są znane. Populacja normalna, µ i σ nie są znane. ENMW (µ) = X N. ENMW (µ) = X N. ENMW (σ 2 ) = (X 1 X N ) 2 + (X 2 X N ) (X N X N ) 2. (N 1) Populacja normalna, µ i σ nie są znane. Estymator kwantyla rzędu p (0, 1), tzn. liczby u p spełniającej relację p = Φ µ,σ (u p ) lub u p = µ + σ Φ 1 (p). gdzie σ N = ENMW (u p ) = X N + Γ( N 1 2 ) 2Γ( N 2 ) σ N Φ 1 (p), (X 1 X N ) 2 + (X 2 X N ) (X N X N ) 2. Uwaga: Estymatory nieobciążone nie zawsze istnieją. ENMW może nie istnieć, mimo że istnieją estymatory nieobciążone. ENMW może mieć większy błąd średniokwadratowy (funkcję ryzyka) R(ˆδ, θ) = E θ (ˆδ g(θ)) 2 od estymatora obciążonego. ENMW może być zupełnie nieprzydatny.

42 38 6. Estymatory II

43 7. Przedziały ufności Obszar ufności Problem: jak ocenić jakość ) przybliżenia parametru przez estymator? Niech (X, B, {P θ } θ Θ będzie modelem statystycznym i niech ĝ : X IR d będzie estymatorem parametru g : Θ IR d. W modelach ciągłych (tzn. P θ ({x}) = 0 dla każdego x X i θ Θ) najczęściej mamy P θ (ĝ = y0 ) = 0. Tymczasem na podstawie estymacji przyjmujemy g(θ) = y 0. Na ile można ufać takiej ocenie wartości parametru? Wyjściem może być stosowanie estymatorów jako odwzorowań przestrzeni próbek o wartościach w masywnych zbiorach. 39

44 40 7. Przedziały ufności Przedział ufności 7.1 Przykład (Przedział ufności dla średniej ze znaną wariancją) Niech X 1, X 2,..., X N będzie próbą prostą z rozkładu N (µ, σ 2 ). Zakładamy, że σ 2 jest znane (np. dokonujemy pomiaru skalibrowanym przyrządem o znanej dokładności). Jeśli położymy X N = X 1+X X N N N (µ, σ2 N ), to X N µ σ/ N N (0, 1). Niech ζ = ζ 1 α/2 będzie takie, że Φ( ζ) = 1 Φ(ζ) = α/2. Wtedy P µ ( XN σ ζ 1 α/2 N µ X N + σ ζ 1 α/2 N ) = 1 α. Piszemy: µ = X N ± σ ζ 1 α/2 N.

45 Rozkład t-studenta 41 Rozkład t-studenta 7.2 Przykład (Przedział ufności dla średniej z nieznaną wariancją) Niech X 1, X 2,..., X N będzie próbą prostą z rozkładu N (µ, σ 2 ). Nie znamy ani µ, ani σ 2. Niech (X 1 S N = X N ) 2 + (X 2 X N ) (X N X N ) 2. N Twierdzenie Zmienna losowa t N 1 = X N µ S N / N ma rozkład t-studenta z N 1 stopniami swobody. 7.4 Wniosek Jeżeli F tn 1 (τ 1 α/2 ) = 1 α/2, to na poziomie ufności α µ = X N ± S N τ 1 α/2 N.

46 42 7. Przedziały ufności Rozkład chi-kwadrat 7.5 Przykład (Przedział ufności dla wariancji) Podobnie jak poprzednio X 1, X 2,..., X N jest próbą prostą z rozkładu N (µ, σ 2 ), gdzie µ i σ 2 nie są znane. 7.6 Twierdzenie Zmienna losowa χ 2 N 1 = (N 1) S 2 N σ 2 ma rozkład chi-kwadrat z N 1 stopniami swobody. 7.7 Wniosek Jeśli F χ 2 N 1 (ξ α/2 ) = α/2 i F χ 2 N 1 (ξ 1 α/2 ) = 1 α/2, to przedziałem ufności dla σ 2 na poziomie ufności α jest [ (N 1) S2 N ξ 1 α/2, (N 1) S 2 N ξ α/2 ].

47 Rozkład F -Snedecora 43 Rozkład F -Snedecora 7.8 Przykład (Przedział ufności dla ilorazu wariancji) Niech X 1, X 2,..., X N będzie próbą prostą z rozkładu N (µ X, σx 2 ), a Y 1, Y 2,..., Y M próbą prostą z rozkładu N (µ Y, σy 2 ), gdzie nie znamy ani µ X i σx 2, ani µ Y i σy 2. Niech S X 2 będzie statystyką S N 2 zbudowaną na próbce {X k}, a S Y 2 będzie statystyką S M 2 zbudowaną na próbce {Y k}. 7.9 Twierdzenie Zmienna losowa F N 1,M 1 = S X 2 σ2 Y S Y 2, σ2 X ma rozkład F -Snedecora z N 1 stopniami swobody licznika i M 1 stopniami swobody mianownika Wniosek Niech F FN 1,M 1 (φ α/2 ) = α/2, F FN 1,M 1 (φ 1 α/2 ) = 1 α/2. Przedziałem ufności dla σ 2 Y /σ2 X na poziomie ufności α jest [ S2 φ Y S2 α/2 S X 2, φ Y 1 α/2 S X 2 ].

48 44 7. Przedziały ufności Asymptotyczne przedziały ufności 7.11 Przykład (Przedziały ufności dla prawdopodobieństwa sukcesu w schemacie Bernoullego) Niech X 1, X 2,... będzie schematem Bernoullego z prawdopodobieństwem sukcesu θ (0, 1), a S N liczbą sukcesów w N próbach. Rozkład S N jest znany (dwumianowy). Teoretycznie znamy więc również rozkład zmiennej standaryzowanej N /N θ S. W praktyce lepiej jednak używać przybliżenia danego przez sławne θ(1 θ)/ N twierdzenie de Moivre a-laplace a Wniosek Jeśli Φ(ζ 1 α/2 ) = 1 α/2, mamy asymptotycznie : P θ ( ζ 2 1 α/2 θ(1 θ) N (S N /N θ ) 2 ) 1 α. W szczególności na przybliżonym poziomie ufności α θ = S N + ζ 2 1 α/2 /N N + ζ 2 1 α/2 ± ζ 1 α/2 S N (N S N ) N N + ζ 2 1 α/2 + ζ2 1 α/ Przykład (Nieparametryczne przedziały ufności dla kwantyli) Niech X 1, X 2,... będzie próbą prostą z rozkładu o dystrybuancie F = F X1. Niech ξ p będzie kwantylem rzędu p rozkładu F (zakładamy, że F jest ciągła i ściśle rosnąca w otoczeniu ξ p, więc ξ p

49 Asymptotyczne przedziały ufności 45 jest określony jednoznacznie). Połóżmy N L N = 1I {{Xj ξ p}}. j=1 Zmienna L N ma rozkład dwumianowy! Z twierdzenia de Moivre a-laplace a wynika, że ( ( LN /N p ) ) lim P ζ 1 α/2 ζ 1 α/2 N p(1 p)n = Φ(ζ 1 α/2 ) Φ( ζ 1 α/2 ) = 1 α. Wtedy Niech k N i k N będą takie, że lim N lub równoważnie k N /N p p(1 p)/n = ζ 1 α/2, lim N ( ) lim P F kn L N k N = 1 α, N k N /N p p(1 p)/n = ζ 1 α/2. ) lim P F (X kn :N ξ p X kn :N = 1 α, N gdzie X k:n jest k-tą statystyką porządkową z próby prostej N-elementowej. Uwaga: Szczególny charakter rozkładu normalnego najbardziej widoczny jest w centralnym twierdzeniu granicznym.

50 46 7. Przedziały ufności

51 8. Prognoza. Warunkowa wartość oczekiwana Zagadnienie prognozowania Przypuśćmy, że mamy dany ciąg liczb x 1, x 2,..., x n, stanowiących wyniki pomiaru pewnej zmiennej w czasie wielkości x, w chwilach t 1 < t 2 <... < t n. Inaczej mówiąc, mamy dany szereg czasowy. Zagadnienie prognozowania: Niech T > t n. Jaką wartość przyjmie badana wielkość w chwili T? Jeżeli x jest funkcją tylko czasu t, tzn. x k = f(t k ), k = 1, 2,..., t n, możemy próbować odgadnąć postać funkcji f, np. znajdując współczynniki wielomianu interpolacyjnego, lub amplitudę, częstość i przesunięcie sygnału sinusoidalnego, lub parametry przekształcenia S, którego kolejne iteracje S(t 0 ), S 2 (t 0 ),... S n (t 0 ) dają nam kolejne wartości x 1, x 2,..., x n. To jest jednak rzadka sytuacja. Na ogół musimy zakładać, że liczby x 1, x 2,..., x n są wartościami ciągu zmiennych losowych. 47

52 48 8. Prognoza. Warunkowa wartość oczekiwana Warunkowa wartość oczekiwana Niech Y i Z będą wektorami losowymi o wartościach w IR m i IR n, określonymi na tej samej przestrzeni probabilistycznej (Ω, F, P ). Jeżeli P ( Z = z) > 0, to rozkładem warunkowym wektora Y gdy Z = z nazywamy prawdopodobieństwo IR m A P Y Z= z (A) = P ( Y A Z = z) ( = P ( Y A, Z = z) P ( Z = z) ). Pytanie: jak określić rozkład warunkowy w ogólnym przypadku? Jeżeli P (Y,Z) jest absolutnie ciągły z gęstością p Y,Z (y, z), to można określić gęstość rozkładu P Y Z=z za pomocą wzoru p Y,Z (y,z) p Y Z=z (y) =, jeśli + p Y,Z (u, z) du > 0 p Y,Z(u,z) du 1I {[0,1]} (y), jeśli. p Y,Z (u, z) du = 0

53 Warunkowa wartość oczekiwana 49 Uwaga: w terminach przestrzeni Hilberta L 2 (Ω, F, P ) warunkowa wartość oczekiwana jest rzutem ortogonalnym na podprzestrzeń funkcji postaci {h( Z)}, czyli funkcji σ( Z)- mierzalnych. W tym kontekście (niemal) oczywiste są następujące fakty:

54 50 8. Prognoza. Warunkowa wartość oczekiwana Jeżeli E Y < + i g : IR n IR m, to ( E E(Y Z) g( Z) ) = E(Y g( Z)). Jeżeli Z jest funkcją stałą, to E(Y Z) = EY. Co by było, gdybyśmy minimalizowali E Y h( Z)? Prognoza liniowa

55 Procesy gaussowskie 51 Procesy gaussowskie Wnioski z definicji: Biorąc α = (0,..., 0, 1, 0,..., 0)T, otrzymujemy rozkład normalny dla składowych X k N (m k, σk 2 ). W ogólności, m α = E(α 1 X 1 + α 2 X α n X n ) = E α, X = α, E X. Podobnie σ 2 α = Var ( α, X ) = α, Cov ( X) α. 8.1 Twierdzenie (Transformacja liniowa zmiennych gaussowskich) Jeżeli wektor losowy X = (X 1, X 2,..., X n ) T ma składowe gaussowskie, przy czym EX = m i Cov (X) = Σ) i jezeli A : IR n IR m jest odwzorowaniem liniowym, to składowe wektora A( X) też są gaussowskie, przy czym EA( X) = A( m), Cov (A( X)) = AΣA T. 8.2 Twierdzenie (Konstrukcja zmiennych gaussowskich) Jeżeli m IR n i Σ jest macierzą n n, symetryczną i nieujemnie określoną, to istnieje wektor losowy X o składowych gaussowskich, który spełnia związki E X = m, Cov ( X) = Σ. 8.3 Twierdzenie (Charakterystyka rozkładu łącznego zmiennych gaussowskich) Rozkład łączny zmiennych losowych gaussowskich (X 1, X 2,..., X n ) (nazywany n-wymiarowym rozkładem normalnym) jest w pełni określony przez swoja wartość oczekiwaną m i macierz kowariancji Σ. Piszemy X N (m, Σ).

56 52 8. Prognoza. Warunkowa wartość oczekiwana 8.4 Twierdzenie (Absolutna ciągłość rozkładu normalnego) Rozkład normalny jest absolutnie ciągły dokładnie wtedy, gdy macierz Σ jest nieosobliwa (det(σ) 0). W takim przypadku gęstość zadana jest wzorem: p m,σ ( x) = 1 ( 2π) d 1 det Σ exp ( 1 2 x m, Σ 1 ( x m) ). 8.5 Twierdzenie (Niezależność zmiennych gaussowskich) Zmienne gaussowskie X 1, X 2,..., X n są niezależne dokładnie wtedy, gdy są nieskorelowane: cov (X i, X j ) = 0, i, j = 1, 2,..., n, i j.

57 9. Testowanie hipotez statystycznych Test hipotezy, poziom istotności, moc testu 53

58 54 9. Testowanie hipotez statystycznych

59 Lemat Neymana-Pearsona 55 Lemat Neymana-Pearsona

60 56 9. Testowanie hipotez statystycznych 9.1 Przykład (za R. Zielińskim Siedem wykładów... ) Niech X = IN. Rozważmy hipotezę prostą H 0 = {B(10; 0, 1)} (rozkład dwumianowy: liczba sukcesów 10, p-stwo sukcesu 0, 01) przeciw hipotezie prostej H 1 = {P o(1)} (rozkład Poissona z parametrem 1). x B(10; 0, 1) P o(1) P o(1) B(10;0,1) 0 0,3468 0, , , , , , , , , , , , , , , , , , , , , , , , , obszar krytyczny K P H0 (K) P H1 (K) {x : x 8} 0, ,00001 {x : x 7} 0, ,00008 {x : x 6} 0, ,00059 {x : x 5} 0, ,00366 {x : x 4} 0, ,01899 {x : x 3} 0, ,08030 Test niezrandomizowany na poziomie istotności α = 0, 05: { 1, gdy x 4 φ(x) = 0, gdy x < 4. Rozmiar testu E PH0 φ = P H0 {x : x 4} = 0, Jeśli γ = 0, 6482, to P H0 {x : x 4} + γp H0 {x : x = 3} = 0, 05. Test zrandomizowany na poziomie istotności α = 0, 05 1, gdy x 4 φ(x) = 0, 6482 gdy x = 3 0, gdy x 2. ma również rozmiar 0, 05. Jaka jest moc tego testu? Tylko 0, 05873! Interpretacja: prawdopodobieństwo nieodrzucenia weryfikowanej hipotezy H 0 = {B(10; 0, 1)}, gdy prawdziwa jest hipoteza alternatywna H 1 = {P o(1)}, wynosi 0,94127.

61 Konkluzje 57 Konkluzje W przypadku hipotez złożonych teorię Neymana-Pearsona można przenieść na tzw. modele z monotonicznym ilorazem wiarogodności. Teoria porównywania testów ma ograniczone znaczenie praktyczne.

62 58 9. Testowanie hipotez statystycznych

63 10. Testowanie hipotez - przykłady Dystrybuanta empiryczna i tw. Gniedenki-Cantellego 59

64 Testowanie hipotez - przykłady Test zgodności Kołmogorowa Przypuścmy, że X 1, X 2,..., X N jest próba prostą z nieznanego rozkładu. Rozważmy hipotezę H 0 : zmienne maja rozkład o dystrybuancie F, przeciw alternatywie H 1 : zmienne mają inny rozkład o dystrybuancie G F. Jak przetestować tę hipotezę? Niech zmienne będą miały rozkład G i niech G N będzie odpowiednią dystrybuantą empiryczną. Określamy statystykę D N = sup x IR 1 G N (x) F (x). Jeżeli G = F, to statystyka powinna przyjmować małe wartości; jeżeli G F, to wartości powinny być znacząco większe. Określamy więc zbiór krytyczny dla poziomu istotności α wzorem gdzie P F (K DN,α) α. K DN,α = {D N > D N (α)}, Problem: P F (K DN,α) zależy od F! Jak obliczyć to prawdopodobieństwo dla każdego F? Na szczęście w obszernej klasie rozkładów P F (K DN,α) nie zależy od F! Jeżeli f jest funkcją niemalejącą, to dla dowolnej zmiennej losowej X i t IR 1 {f(x) < f(t)} {X t} {f(x) f(t)}.

65 Test zgodności Kołmogorowa 61 Niech F będzie dystrybuantą zmiennej losowej X. Jeśli F jest ciągła, to F (X) U(0, 1). Niech X 1, X 2,..., X N będzie próbką prostą z F. Jeżeli F jest ciągła, to F (X 1 ), F (X 2 ),... jest próbką prostą z rozkładu U(0, 1).

66 Testowanie hipotez - przykłady Porównywanie średnich Przypomnijmy, że rozkładem t-studenta o k stopniach swobody nazywamy rozkład

67 Test χ 2 Pearsona 63 zmiennej losowej T = Z 0 Z Z Z2 k gdzie Z 0, Z 1,... Z k są niezależne o rozkładzie N (0, 1). Test χ 2 Pearsona Niech niezależne zmienne losowe X 1, X 2,..., X N przyjmują wartości a i z prawdopodobieństwem p i > 0, p p k = 1. k, Określamy: N ν i = 1I {{Xj =a i }}. j=1 Jeśli n 1 + n n k = N i spełnione są pewne inne założenia, to P (ν 1 = n 1, ν 2 = n 2,..., ν k = n k ) = (rozkład wielomianowy). N! n 1!n 2!... n k! pn 1 1 pn pn k k. Przypomnijmy, że rozkład χ 2 z k-stopniami swobody to rozkład zmiennej losowej χ 2 k X X X 2 k,

68 Testowanie hipotez - przykłady gdzie X 1, X 2,..., X k są niezależne o rozkładzie N (0, 1). Rozkład χ 2 k Gamma(k/2, 1/2). jest rozkładem

69 11. Metoda najmniejszych kwadratów i regresja liniowa Model liniowy i regresja liniowa 65

70 Metoda najmniejszych kwadratów i regresja liniowa Metoda najmniejszych kwadratów

71 Twierdzenie Gaussa-Markowa 67 Twierdzenie Gaussa-Markowa

72 Metoda najmniejszych kwadratów i regresja liniowa

73 12. Redukcja wymiaru danych Procedura standaryzacji danych 12.1 Definicja (Standaryzacja zmiennej losowej) Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X). Uwaga: EZ = 0, Var (Z) = 1. Uwaga: Jeżeli X = (X1, X 2,..., X d ) T jest wektorem losowym o macierzy kowariancji Σ, to wektor standaryzowany (po współrzędnych) Z ma wartość oczekiwaną EZ = 0 i macierz kowariancji R = [r ij ] równą macierzy KORELACJI wektora X, tj. r ij = ρ ij = cov (X i, X j ). Var (X i )Var (X j ) Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja niektórych pól = ciąg wartości wektorów X n (rekordów), których składowe mierzone są na ogół w różnych jednostkach. Wartości poszczególnych pól (współrzędnych rekordów), nawet jeśli mają podobny charakter, mogą być mierzone w różnych jednostkach, co powoduje, że w analizie dominować mogą wielkości marginalne. Z tego powodu przed rozpoczęciem statystycznej analizy danych przeprowadza się standaryzację lub normalizację Definicja (Empiryczna standaryzacja ciągu wektorów losowych) Niech X n = (X n1, X n2,..., X nd ) T, n = 1, 2,..., N będzie ciągiem wektorów losowych. Niech X j = 1 N Nn=1 N (X nj X nj, S j = X j ) 2. N 1 n=1 Standaryzacją ciągu { X n } nazywamy ciąg wektorów losowych Z n o składowych Z nj = (X nj X j ) S j. 69

74 Redukcja wymiaru danych

75 Analiza składowych głównych 71 Analiza składowych głównych Uwaga: Innymi słowy, w analizie składowych głównych (PCA) szukamy:

76 Redukcja wymiaru danych k możliwie małego (w stosunku do d), które spełnia warunek λ i /d + λ 2 /d λ k /d > α, i dla którego odpowiednie kombinacje liniowe zmiennych wyjściowych posiadają sensowną interpretację. Analiza czynnikowa W szczególności: Σ = E( X E X)( X E X) T = E(L F + ε)(l F + ε) T = E(L F F T L T ) + E(L F ε T ) + E( ε F T L T ) + E( ε ε T ) = LL T + Λ ε. Rozwiązanie powyższego równania oraz poszukiwanie czynników F przeprowadza się numerycznie. Uwagi: Niech ( F, L) będzie rozwiązaniem dla modelu analizy czynnikowej. Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas (B F, LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa analiza i wybór odpowiedniej rotacji czynników.

77 Analiza czynnikowa 73 Analiza czynnikowa, mimo bogatej literatury i mnogości algorytmów pozostaje zawsze narzędziem bardzo kontrowersyjnym.

78 Redukcja wymiaru danych

79 Literatura Literatura podstawowa 1. W. Niemiro Rachunek prawdopodobieństwa i statystyka matematyczna, Szkoła Nauk Ścisłych, Warszawa D.T. Larose Metody i modele eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa Literatura uzupełniająca 1. J. Jakubowski i R. Sztencel Wstęp do teorii prawdopodobieństwa, Script, Warszawa 2000, 2001, D.T. Larose Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa R. Zieliński Siedem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład XIII: Prognoza. 26 stycznia 2015 Wykład XIII: Prognoza. Prognoza (predykcja) Przypuśćmy, że mamy dany ciąg liczb x 1, x 2,..., x n, stanowiących wyniki pomiaru pewnej zmiennej w czasie wielkości

Bardziej szczegółowo

Statystyka i eksploracja danych

Statystyka i eksploracja danych Wykład II: i charakterystyki ich rozkładów 24 lutego 2014 Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa,

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład VIII: Przestrzenie statystyczne. Estymatory 1 grudnia 2014 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji r(x, Z) = 0, 986 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji

Bardziej szczegółowo

Statystyka i eksploracja danych

Statystyka i eksploracja danych Wykład I: Formalizm statystyki matematycznej 17 lutego 2014 Forma zaliczenia przedmiotu Forma zaliczenia Literatura Zagadnienia omawiane na wykładach Forma zaliczenia przedmiotu Forma zaliczenia Literatura

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład IV: 27 października 2014 Współczynnik korelacji Brak korelacji a niezależność Definicja współczynnika korelacji Współczynnikiem korelacji całkowalnych z kwadratem zmiennych losowych X i Y nazywamy

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład II: Zmienne losowe i charakterystyki ich rozkładów 13 października 2014 Zmienne losowe Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Definicja zmiennej losowej i jej

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład VII: Rozkład i jego charakterystyki 22 listopada 2016 Uprzednio wprowadzone pojęcia i ich własności Definicja zmiennej losowej Zmienna losowa na przestrzeni probabilistycznej (Ω, F, P) to funkcja

Bardziej szczegółowo

Statystyka i eksploracja danych

Statystyka i eksploracja danych Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja

Bardziej szczegółowo

Statystyka i eksploracja danych

Statystyka i eksploracja danych Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki Statystyka i eksploracja

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład I: Formalizm teorii prawdopodonieństwa 6 października 2014 Forma zaliczenia przedmiotu Forma zaliczenia Literatura Dostępność treści wykładów 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin dwuczęściowy:

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład XI: Testowanie hipotez statystycznych 12 stycznia 2015 Przykład Motywacja X 1, X 2,..., X N N (µ, σ 2 ), Y 1, Y 2,..., Y M N (ν, δ 2 ). Chcemy sprawdzić, czy µ = ν i σ 2 = δ 2, czyli że w obu populacjach

Bardziej szczegółowo

STATYSTYKA

STATYSTYKA Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym

Bardziej szczegółowo

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz. Tematy: WSTĘP 1. Wprowadzenie do przedmiotu. Próbkowe odpowiedniki wielkości populacyjnych. Modele statystyczne i przykładowe zadania wnioskowania statystycznego. Statystyki i ich rozkłady. 2. Estymacja

Bardziej szczegółowo

Procesy stochastyczne

Procesy stochastyczne Wykład I: Istnienie procesów stochastycznych 21 lutego 2017 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane

Bardziej szczegółowo

Procesy stochastyczne

Procesy stochastyczne Wykład I: Istnienie procesów stochastycznych 2 marca 2015 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane są

Bardziej szczegółowo

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału Magdalena Frąszczak Wrocław, 22.02.2017r Zasady oceniania Ćwiczenia 2 kolokwia (20 punktów każde) 05.04.2017 oraz 31.05.2017 2 kartkówki

Bardziej szczegółowo

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015 Zmienne losowe, statystyki próbkowe Wrocław, 2 marca 2015 Zasady zaliczenia 2 kolokwia (każde po 20 punktów) projekt (20 punktów) aktywność Zasady zaliczenia 2 kolokwia (każde po 20 punktów) projekt (20

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Szkice do zajęć z Przedmiotu Wyrównawczego

Szkice do zajęć z Przedmiotu Wyrównawczego Szkice do zajęć z Przedmiotu Wyrównawczego Matematyka Finansowa sem. letni 2011/2012 Spis treści Zajęcia 1 3 1.1 Przestrzeń probabilistyczna................................. 3 1.2 Prawdopodobieństwo warunkowe..............................

Bardziej szczegółowo

Prawa wielkich liczb, centralne twierdzenia graniczne

Prawa wielkich liczb, centralne twierdzenia graniczne , centralne twierdzenia graniczne Katedra matematyki i ekonomii matematycznej 17 maja 2012, centralne twierdzenia graniczne Rodzaje zbieżności ciągów zmiennych losowych, centralne twierdzenia graniczne

Bardziej szczegółowo

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody

Bardziej szczegółowo

Ważne rozkłady i twierdzenia c.d.

Ważne rozkłady i twierdzenia c.d. Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby

Bardziej szczegółowo

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski Modelowanie zależności pomiędzy zmiennymi losowymi Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski P Zmienne losowe niezależne - przypomnienie Dwie rzeczywiste zmienne losowe X i Y

Bardziej szczegółowo

Wykład 3 Jednowymiarowe zmienne losowe

Wykład 3 Jednowymiarowe zmienne losowe Wykład 3 Jednowymiarowe zmienne losowe Niech (Ω, F, P ) będzie ustaloną przestrzenią probabilistyczną Definicja 1 Jednowymiarowa zmienna losowa (o wartościach rzeczywistych), określoną na przestrzeni probabilistycznej

Bardziej szczegółowo

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO Zał. nr 4 do ZW WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA STOSOWANA Nazwa w języku angielskim APPLIED STATISTICS Kierunek studiów (jeśli dotyczy): Specjalność

Bardziej szczegółowo

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład Rozdział 1 Wektory losowe 1.1 Wektor losowy i jego rozkład Definicja 1 Wektor X = (X 1,..., X n ), którego każda współrzędna jest zmienną losową, nazywamy n-wymiarowym wektorem losowym (krótko wektorem

Bardziej szczegółowo

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III. Literatura Krysicki W., Bartos J., Dyczka W., Królikowska K, Wasilewski M., Rachunek Prawdopodobieństwa i Statystyka Matematyczna w Zadaniach, cz. I. Leitner R., Zacharski J., Zarys matematyki wyŝszej

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych (pieczęć wydziału) KARTA PRZEDMIOTU Z1-PU7 WYDANIE N1 Strona 1 z 5 1. Nazwa przedmiotu: Rachunek prawdopodobieństwa i statystyka matematyczna 2. Kod przedmiotu: RPiS 3. Karta przedmiotu ważna od roku akademickiego:

Bardziej szczegółowo

Rozkłady statystyk z próby

Rozkłady statystyk z próby Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny

Bardziej szczegółowo

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych (pieczęć wydziału) KARTA PRZEDMIOTU Z1-PU7 WYDANIE N1 Strona 1 z 5 1. Nazwa przedmiotu: Rachunek prawdopodobieństwa i statystyka matematyczna 2. Kod przedmiotu: RPiS 3. Karta przedmiotu ważna od roku akademickiego:

Bardziej szczegółowo

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI WYDZIAŁ GEOINŻYNIERII, GÓRNICTWA I GEOLOGII KARTA PRZEDMIOTU Nazwa w języku polskim: Statystyka matematyczna Nazwa w języku angielskim: Mathematical Statistics Kierunek studiów (jeśli dotyczy): Górnictwo

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie Jarosław Kotowicz Instytut Matematyki Uniwersytet w

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych. Wykład 3 Momenty zmiennych losowych. Wrocław, 19 października 2016r Momenty zmiennych losowych Wartość oczekiwana - przypomnienie Definicja 3.1: 1 Niech X będzie daną zmienną losową. Jeżeli X jest zmienną

Bardziej szczegółowo

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych. Wykład 3 Momenty zmiennych losowych. Wrocław, 18 października 2017r Momenty zmiennych losowych Wartość oczekiwana - przypomnienie Definicja 3.1: 1 Niech X będzie daną zmienną losową. Jeżeli X jest zmienną

Bardziej szczegółowo

5 Przegląd najważniejszych rozkładów

5 Przegląd najważniejszych rozkładów 5 Przegląd najważniejszych rozkładów 5. Rozkład Bernoulliego W niezmieniających się warunkach wykonujemy n razy pewne doświadczenie. W wyniku każdego doświadczenia może nastąpić zdarzenie A lub A. Zakładamy,

Bardziej szczegółowo

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA 1. Trójkę (Ω, F, P ), gdzie Ω, F jest σ-ciałem podzbiorów Ω, a P jest prawdopodobieństwem określonym na F, nazywamy przestrzenią probabilistyczną. 2. Rodzinę F

Bardziej szczegółowo

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7 Spis treści Spis treści 1 Przedziały ufności 1 1.1 Przykład wstępny.......................... 1 1.2 Określenie i konstrukcja...................... 3 1.3 Model dwupunktowy........................ 5 1.4

Bardziej szczegółowo

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =. Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,

Bardziej szczegółowo

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Statystyka matematyczna. Wykład III. Estymacja przedziałowa Statystyka matematyczna. Wykład III. e-mail:e.kozlovski@pollub.pl Spis treści Rozkłady zmiennych losowych 1 Rozkłady zmiennych losowych Rozkład χ 2 Rozkład t-studenta Rozkład Fischera 2 Przedziały ufności

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Przykład (wstępny). Producent twierdzi, że wadliwość produkcji wynosi 5%. My podejrzewamy, że rzeczywista wadliwość produkcji wynosi 15%. Pobieramy próbę stuelementową

Bardziej szczegółowo

1 Gaussowskie zmienne losowe

1 Gaussowskie zmienne losowe Gaussowskie zmienne losowe W tej serii rozwiążemy zadania dotyczące zmiennych o rozkładzie normalny. Wymagana jest wiedza na temat własności rozkładu normalnego, CTG oraz warunkowych wartości oczekiwanych..

Bardziej szczegółowo

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną Wydział: Zarządzanie i Finanse Nazwa kierunku kształcenia: Finanse i Rachunkowość Rodzaj przedmiotu: podstawowy Opiekun: prof. nadzw. dr hab. Tomasz Kuszewski Poziom studiów (I lub II stopnia): II stopnia

Bardziej szczegółowo

Jednowymiarowa zmienna losowa

Jednowymiarowa zmienna losowa 1 Jednowymiarowa zmienna losowa Przykład Doświadczenie losowe - rzut kostką do gry. Obserwujemy ilość wyrzuconych oczek. Teoretyczny model eksperymentu losowego - przestrzeń probabilistyczna (Ω, S, P ),

Bardziej szczegółowo

Opis przedmiotu: Probabilistyka I

Opis przedmiotu: Probabilistyka I Opis : Probabilistyka I Kod Nazwa Wersja TR.SIK303 Probabilistyka I 2012/13 A. Usytuowanie w systemie studiów Poziom Kształcenia Stopień Rodzaj Kierunek studiów Profil studiów Specjalność Jednostka prowadząca

Bardziej szczegółowo

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu Kod przedmiotu TR.SIK303 Nazwa przedmiotu Probabilistyka I Wersja przedmiotu 2015/16 A. Usytuowanie przedmiotu w systemie studiów Poziom kształcenia Studia I stopnia Forma i tryb prowadzenia studiów Stacjonarne

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład XIV: Metody Monte Carlo 19 stycznia 2016 Przybliżone obliczanie całki oznaczonej Rozważmy całkowalną funkcję f : [0, 1] R. Chcemy znaleźć przybliżoną wartość liczbową całki 1 f (x) dx. 0 Jeden ze

Bardziej szczegółowo

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Akademicka 15, p.211a bud. Agro II, e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych Rozdział 1 Zmienne losowe, ich rozkłady i charakterystyki 1.1 Definicja zmiennej losowej Niech Ω będzie przestrzenią zdarzeń elementarnych. Definicja 1 Rodzinę S zdarzeń losowych (zbiór S podzbiorów zbioru

Bardziej szczegółowo

Przestrzeń probabilistyczna

Przestrzeń probabilistyczna Przestrzeń probabilistyczna (Ω, Σ, P) Ω pewien niepusty zbiór Σ rodzina podzbiorów tego zbioru P funkcja określona na Σ, zwana prawdopodobieństwem. Przestrzeń probabilistyczna (Ω, Σ, P) Ω pewien niepusty

Bardziej szczegółowo

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty Agata Boratyńska Agata Boratyńska Rachunek prawdopodobieństwa, wykład 4 / 9 Przekształcenia zmiennej losowej X

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 11 i 12 1 / 41 TESTOWANIE HIPOTEZ - PORÓWNANIE

Bardziej szczegółowo

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej Kod przedmiotu TR.NIK304 Nazwa przedmiotu Probabilistyka I Wersja przedmiotu 2015/16 A. Usytuowanie przedmiotu w systemie studiów Poziom kształcenia Studia I stopnia Forma i tryb prowadzenia studiów Niestacjonarne

Bardziej szczegółowo

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA Piotr Wiącek ROZKŁAD PRAWDOPODOBIEŃSTWA Jest to miara probabilistyczna określona na σ-ciele podzbiorów borelowskich pewnej przestrzeni metrycznej. σ-ciało podzbiorów

Bardziej szczegółowo

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie METODY ESTYMACJI PUNKTOWEJ X 1,..., X n - próbka z rozkładu P θ, θ Θ, θ jest nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie P θ. Definicja. Estymatorem

Bardziej szczegółowo

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić). Egzamin ze Statystyki Matematycznej, WNE UW, wrzesień 016, zestaw B Odpowiedzi i szkice rozwiązań 1. Zbadano koszt 7 noclegów dla 4-osobowej rodziny (kwatery) nad morzem w sezonie letnim 014 i 015. Wylosowano

Bardziej szczegółowo

1.1 Wstęp Literatura... 1

1.1 Wstęp Literatura... 1 Spis treści Spis treści 1 Wstęp 1 1.1 Wstęp................................ 1 1.2 Literatura.............................. 1 2 Elementy rachunku prawdopodobieństwa 2 2.1 Podstawy..............................

Bardziej szczegółowo

Biostatystyka, # 3 /Weterynaria I/

Biostatystyka, # 3 /Weterynaria I/ Biostatystyka, # 3 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, p. 221 bud. CIW, e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu: Rachunek prawdopodobieństwa Probability theory Kierunek: Rodzaj przedmiotu: obowiązkowy dla wszystkich specjalności Rodzaj zajęć: wykład, ćwiczenia Matematyka Poziom kwalifikacji: I stopnia

Bardziej szczegółowo

Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu.

Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu. Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu. A Teoria Definicja A.1. Niech (Ω, F, P) będzie przestrzenią probabilistyczną. Zmienną losową określoną na przestrzeni Ω nazywamy dowolną

Bardziej szczegółowo

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15 Sylabus do programu kształcenia obowiązującego od roku akademickiego 0/5 () Nazwa Rachunek prawdopodobieństwa i statystyka () Nazwa jednostki prowadzącej Wydział Matematyczno - Przyrodniczy przedmiot ()

Bardziej szczegółowo

Prawdopodobieństwo i statystyka Wykład I: Przestrzeń probabilistyczna

Prawdopodobieństwo i statystyka Wykład I: Przestrzeń probabilistyczna 9 października 2018 Zasady zaliczenia przedmiotu: Zaliczenie ćwiczeń rachunkowych. Zdanie egzaminu ustnego z treści wykładu. Literatura J. Jakubowski i R. Sztencel, Wstęp do teorii prawdopodobieństwa.

Bardziej szczegółowo

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy Załącznik nr 7 do Zarządzenia Rektora nr../12 z dnia.... 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2017/2018 STATYSTYKA

Bardziej szczegółowo

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1. Opracowała: Joanna Kisielińska ZMIENNE LOSOWE Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R tzn. X: R. Realizacją zmiennej losowej

Bardziej szczegółowo

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n) MODELE STATYSTYCZNE Punktem wyjścia w rozumowaniu statystycznym jest zmienna losowa (cecha) X i jej obserwacje opisujące wyniki doświadczeń bądź pomiarów. Zbiór wartości zmiennej losowej X (zbiór wartości

Bardziej szczegółowo

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe Statystyka i opracowanie danych W4 Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Rozkład normalny wykres funkcji gęstości

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe

Bardziej szczegółowo

Wnioskowanie statystyczne. Statystyka w 5

Wnioskowanie statystyczne. Statystyka w 5 Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających

Bardziej szczegółowo

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014 Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014 Zmienne losowe i ich rozkłady Doświadczenie losowe: Rzut monetą Rzut kostką Wybór losowy n kart z talii 52 Gry losowe

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Komputerowa Analiza Danych Doświadczalnych

Komputerowa Analiza Danych Doświadczalnych Komputerowa Analiza Danych Doświadczalnych Prowadząca: dr inż. Hanna Zbroszczyk e-mail: gos@if.pw.edu.pl tel: +48 22 234 58 51 konsultacje: poniedziałek, 10-11, środa: 11-12 www: http://www.if.pw.edu.pl/~gos/students/kadd

Bardziej szczegółowo

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem

Bardziej szczegółowo

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa Marek Kubiak Instytut Informatyki Politechnika Poznańska Plan wykładu Podstawowe pojęcia rachunku prawdopodobieństwa Rozkład

Bardziej szczegółowo

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania SIMR 7/8, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania. Dana jest gęstość prawdopodobieństwa zmiennej losowej ciągłej X : { a( x) dla x [, ] f(x) = dla pozostałych x Znaleźć: i) Wartość parametru

Bardziej szczegółowo

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym. Hipotezy proste Zadanie 1. Niech X ma funkcję gęstości f a (x) = (1 + a)x a, dla 0 < x < 1, Testujemy H 0 : a = 1 przeciwko H 1 : a = 2. Dysponujemy pojedynczą obserwacją X. Wyznaczyć obszar krytyczny

Bardziej szczegółowo

Statystyka w przykładach

Statystyka w przykładach w przykładach Tomasz Mostowski Zajęcia 10.04.2008 Plan Estymatory 1 Estymatory 2 Plan Estymatory 1 Estymatory 2 Własności estymatorów Zazwyczaj w badaniach potrzebujemy oszacować pewne parametry na podstawie

Bardziej szczegółowo

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów Wykład 6 Estymatory efektywne. Własności asymptotyczne estymatorów Wrocław, 30 listopada 2016r Powtórzenie z rachunku prawdopodobieństwa Zbieżność Definicja 6.1 Niech ciąg {X } n ma rozkład o dystrybuancie

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA Zał. nr 4 do ZW WYDZIAŁ ELEKTRONIKI KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA MATEMATYCZNA Nazwa w języku angielskim Mathematical Statistics Kierunek studiów (jeśli dotyczy): Specjalność (jeśli

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE Ryszard Zieliński, IMPAN Warszawa O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE XXXIX Ogólnopolska Konferencja Zastosowań Matematyki Zakopane-Kościelisko 7-14 września 2010 r Model statystyczny pomiaru: wynik pomiaru

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Rozkłady prawdopodobieństwa

Rozkłady prawdopodobieństwa Tytuł Spis treści Wersje dokumentu Instytut Matematyki Politechniki Łódzkiej 10 grudnia 2011 Spis treści Tytuł Spis treści Wersje dokumentu 1 Wartość oczekiwana Wariancja i odchylenie standardowe Rozkład

Bardziej szczegółowo

1.1 Statystyka matematyczna Literatura Model statystyczny Preliminaria... 3

1.1 Statystyka matematyczna Literatura Model statystyczny Preliminaria... 3 Spis treści Spis treści 1 Wstęp 1 1.1 Statystyka matematyczna...................... 1 1.2 Literatura.............................. 1 1.3 Model statystyczny......................... 2 1.4 Preliminaria.............................

Bardziej szczegółowo

1 Elementy kombinatoryki i teorii prawdopodobieństwa

1 Elementy kombinatoryki i teorii prawdopodobieństwa 1 Elementy kombinatoryki i teorii prawdopodobieństwa 1.1 Elementy kombinatoryki W rozwiązywaniu pewnych problemów związanych z obliczaniem prawdopodobieństwa o skończonej liczbie zdażeń elementarnych bardzo

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 4 1 / 23 ZAGADNIENIE ESTYMACJI Zagadnienie

Bardziej szczegółowo

Zmienne losowe ciągłe i ich rozkłady

Zmienne losowe ciągłe i ich rozkłady Statystyka i opracowanie danych W3 Zmienne losowe ciągłe i ich rozkłady Dr Anna ADRIAN Paw B5, pok47 adan@agh.edu.pl Plan wykładu Rozkład Poissona. Zmienna losowa ciągła Dystrybuanta i funkcja gęstości

Bardziej szczegółowo

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna. Wykład 4 Rozkłady i ich dystrybuanty Dwa typy zmiennych losowych Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Bardziej szczegółowo

KARTA PRZEDMIOTU. Forma prowadzenia zajęć. Odniesienie do efektów dla kierunku studiów K1A_W02

KARTA PRZEDMIOTU. Forma prowadzenia zajęć. Odniesienie do efektów dla kierunku studiów K1A_W02 (pieczęć wydziału) KARTA PRZEDMIOTU Z1-PU7 WYDANIE N1 Strona 1 z 5 1. Nazwa przedmiotu: RACHUNEK PRAWDOPODOBIEŃSTWA 2. Kod przedmiotu: RPr 3. Karta przedmiotu ważna od roku akademickiego: 20182019 4. Forma

Bardziej szczegółowo

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych 1. [E.A 5.10.1996/zad.4] Funkcja gęstości dana jest wzorem { 3 x + 2xy + 1 y dla (x y) (0 1) (0 1) 4 4 P (X > 1 2 Y > 1 2 ) wynosi:

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Nierówność Czebyszewa Niech X będzie zmienną losową o skończonej wariancji V ar(x). Wtedy wartość oczekiwana E(X) też jest skończona i

Bardziej szczegółowo