Statystyka i eksploracja danych

Podobne dokumenty
Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

Statystyka i eksploracja danych

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka

STATYSTYKA

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Procesy stochastyczne

Procesy stochastyczne

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Spis treści 3 SPIS TREŚCI

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Szkice do zajęć z Przedmiotu Wyrównawczego

Prawa wielkich liczb, centralne twierdzenia graniczne

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Ważne rozkłady i twierdzenia c.d.

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Wykład 3 Jednowymiarowe zmienne losowe

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Weryfikacja hipotez statystycznych

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Rozkłady statystyk z próby

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych.

5 Przegląd najważniejszych rozkładów

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Weryfikacja hipotez statystycznych

1 Gaussowskie zmienne losowe

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Jednowymiarowa zmienna losowa

Opis przedmiotu: Probabilistyka I

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Prawdopodobieństwo i statystyka

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Przestrzeń probabilistyczna

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

1.1 Wstęp Literatura... 1

Biostatystyka, # 3 /Weterynaria I/

PRZEWODNIK PO PRZEDMIOCIE

Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu.

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15

Prawdopodobieństwo i statystyka Wykład I: Przestrzeń probabilistyczna

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Wnioskowanie statystyczne. Statystyka w 5

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Statystyka matematyczna dla leśników

Komputerowa Analiza Danych Doświadczalnych

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Statystyka w przykładach

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

STATYSTYKA MATEMATYCZNA

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

Testowanie hipotez statystycznych.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Rozkłady prawdopodobieństwa

1.1 Statystyka matematyczna Literatura Model statystyczny Preliminaria... 3

1 Elementy kombinatoryki i teorii prawdopodobieństwa

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Zmienne losowe ciągłe i ich rozkłady

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

KARTA PRZEDMIOTU. Forma prowadzenia zajęć. Odniesienie do efektów dla kierunku studiów K1A_W02

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Transkrypt:

Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki Statystyka i eksploracja danych Treść wykładów Adam Jakubowski UMK Toruń 2011 Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

Spis treści Wstęp 1 1 Formalizm teorii prawdopodobieństwa 3 Po co nam formalizm matematyczny?................... 3 Co to jest...................................... 3 Przestrzeń probabilistyczna........................ 4 Przykłady przestrzeni probabilistycznych............... 7 Przestrzeń statystyczna........................... 8 2 Zmienne losowe i charakterystyki ich rozkładów 9 Zmienna losowa i jej rozkład........................ 9 Wartość oczekiwana zmiennej losowej.................. 10 Dystrybuanta zmiennej losowej...................... 11 Rozkłady dyskretne i absolutnie ciągłe................. 12 Momenty, wariancja, odchylenie standardowe............. 13 Mediana, kwantyle............................... 14 3 Wektory losowe i charakterystyki ich rozkładów 15 Wektory losowe................................ 15 Macierz kowariancji wektora losowego................. 16 Współczynnik korelacji........................... 17 4 Niezależność 19 Brak korelacji a niezależność zmiennych losowych......... 19 Niezależność zmiennych losowych..................... 21 Kryteria niezależności............................ 22 Niezależność zdarzeń............................. 23 Niezależność parami.............................. 24 5 Estymatory 25 Jak wyliczyć współczynnik korelacji?.................. 25 Próba prosta z populacji........................... 26 Estymator nieobciążony........................... 27 Zgodność ciągu estymatorów........................ 29 i

ii Spis treści 6 Estymatory II 31 Estymatory największej wiarogodności................. 31 Estymatory minimalnej wariancji..................... 33 Rodziny wykładnicze rozkładów...................... 34 Estymatory nieobciążone minimalnej wariancji............ 36 7 Przedziały ufności 39 Obszar ufności................................. 39 Przedział ufności................................ 40 Rozkład t-studenta.............................. 41 Rozkład chi-kwadrat............................. 42 Rozkład F -Snedecora............................. 43 Asymptotyczne przedziały ufności..................... 44 8 Prognoza. Warunkowa wartość oczekiwana 47 Zagadnienie prognozowania......................... 47 Warunkowa wartość oczekiwana...................... 48 Prognoza liniowa................................ 50 Procesy gaussowskie.............................. 51 9 Testowanie hipotez statystycznych 53 Test hipotezy, poziom istotności, moc testu.............. 53 Lemat Neymana-Pearsona.......................... 55 Konkluzje.................................... 57 10 Testowanie hipotez - przykłady 59 Dystrybuanta empiryczna i tw. Gniedenki-Cantellego........ 59 Test zgodności Kołmogorowa........................ 60 Porównywanie średnich............................ 62 Test χ 2 Pearsona................................ 63 11 Metoda najmniejszych kwadratów i regresja liniowa 65 Model liniowy i regresja liniowa..................... 65 Metoda najmniejszych kwadratów..................... 66 Twierdzenie Gaussa-Markowa........................ 67 12 Redukcja wymiaru danych 69 Procedura standaryzacji danych..................... 69 Analiza składowych głównych....................... 71 Analiza czynnikowa.............................. 72 Literatura 75

Wstęp Plan studiów na kierunku Informatyka na Wydziale Matematyki i Informatyki Uniwersytetu Mikołaja Kopernika w Toruniu przewiduje na pierwszym roku studiów drugiego stopnia obowiązkowy blok statystyczno-probabilistyczny, składający się z przedmiotów Statystyka i eksploracja danych i Metody i modele probabilistyczne. Według założeń programowych realizacja tego bloku ma stanowić podstawę do szerokiego stosowania metod stochastycznych, w zagadnieniach algorytmicznych, obliczeniowych i w modelowaniu systemów złożonych. Przedmiot Statystyka i analiza danych prowadzony jest w semestrze zimowym, w wymiarze 30 godzin wykładu i 30 godzin ćwiczeń rachunkowo-laboratoryjnych, w dużej mierze wykorzystujących najnowsze wersje pakietu SPSS. Zaliczenie przedmiotu polega na uzyskaniu zaliczenia ćwiczeń rachunkowo-laboratoryjnych oraz zdaniu dwuczęściowego egzaminu, składającego się z egzaminu praktycznego w laboratorium (wykonanie analizy przykładowych danych) oraz egzaminu ustnego z teorii. Do wykładu prowadzone są kursy wyrównawcze, podczas których osoby mające trudności z podstawowymi pojęciami teorii prawdopodobieństwa lub rachunkami mogą uzupełnić swoje umiejętności. Podstawą zajęć wyrównawczych jest materiał dydaktyczny Adam Jakubowski Statystyka i eksploracja danych. Repetytorium z teorii prawdopodobieństwa, Toruń 2011. Należy podkreślić, że podczas egzaminu wiadomości zawarte w Repetytorium są bezwzględnie wymagane. Ćwiczenia dydaktyczne prowadzone są w oparciu o materiały dydaktyczne Joanna Karłowska-Pik Statystyka i eksploracja danych. Ćwiczenia i zadania, Toruń 2011. Niniejsze opracowanie zawiera treści przekazywane w trakcie wykładów. Najważniejsze definicje i twierdzenia przedstawiane są w postaci zrzutu ekranowego odpowiedniej transparencji. Podstawowy materiał uzupełniany jest komentarzami i przykładami. Zagadnienia omawiane na wykładach, wraz z ewentualnymi uzupełnieniami, są dostępne na: https://plas.mat.umk.pl/moodle/ w kategorii Studia stacjonarne/statystyka i eksploracja danych. Całość materiału podzielono na 12 jednostek, z grubsza odpowiadających dwugodzinnemu wykładowi. Istotne poszerzenie zakresu materiału wydaje się mało prawdopodobne, ze względu na konieczność wyrównania poziomu podczas pierwszych wykładów. 1

2 Wstęp Doświadczenie wskazuje bowiem, że studenci drugiego stopnia Informatyki posiadają bardzo różne przygotowanie w zakresie metod probabilistycznych, często ograniczające się do elementarnego rachunku prawdopodobieństwa wykładanego w ramach Matematyki dyskretnej. Należy podkreślić, że pewne aspekty analizy danych (np. metody bayesowskie) są przekazywane w ramach przedmiotu Metody i modele probabilistyczne, po systematycznej prezentacji dynamicznych metod Monte Carlo (MCMC). Literatura podstawowa przedmiotu zawiera książki: W. Niemiro Rachunek prawdopodobieństwa i statystyka matematyczna, Szkoła Nauk Ścisłych, Warszawa 1999, oraz D.T. Larose Metody i modele eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2008. Jako literatura uzupełniająca zalecane są ksiązki: J. Jakubowski i R. Sztencel Wstęp do teorii prawdopodobieństwa, Script, Warszawa 2004, D.T. Larose Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2006, oraz R. Zieliński Siedem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa 1990. Adam Jakubowski

1. Formalizm teorii prawdopodobieństwa Po co nam formalizm matematyczny? Podstawa porozumienia - aby skutecznie porozumiewać się z innymi przy realizacji projektów lub w trakcie rozwiązywania problemów. Możliwość uzyskania pomocy - aby umieć postawić specjalistom problem do rozwiązania. Lepsze zrozumienie materii - np. naturalnych ograniczeń stosowanych narzędzi. Co to jest... Rachunek prawdopodobieństwa to sztuka (umiejętność) obliczania prawdopodobieństw zdarzeń. Teoria prawdopodobieństwa to dział matematyki, na którym opierają się praktyczne obliczenia dokonywane w rachunku prawdopodobieństwa. Statystyka to sztuka (umiejętność) wnioskowania na podstawie próby losowej. Statystyka matematyczna to dział matematyki, który rozwija metody uzasadniające poprawność wnioskowania statystycznego. Eksploracja danych (drążenie danych, ekstrakcja danych) to umiejętność wydobywania użytecznych informacji z dużych zbiorów danych. Uwaga: Przyjmuje się, że twórcą matematycznego formalizmu teorii prawdopodobieństwa był rosyjski matematyk A.N. Kołmogorow (1903-1987), który w 1933 roku opublikował książkę Grundbegriffe der Wahrscheinlichkeitsrechnung. 3

4 1. Formalizm teorii prawdopodobieństwa Przestrzeń probabilistyczna Uwaga: Pojęcia występujące w definicji przestrzeni probabilistycznej można interpretować w sposób następujący: Ω to zbiór wszystkich możliwych wyników eksperymentu losowego. Zdarzenia (elementy F) reprezentują fakty, których zajście możemy stwierdzić, tzn. dla A F zawsze możemy powiedzieć, czy wynik ω A, czy ω A. W ten sposób F reprezentuje całość wiedzy, którą możemy uzyskać w wyniku realizacji eksperymentu losowego. F nigdy nie może zajść (jest zdarzeniem niemożliwym ), więc P ( ) = 0. Ale idziemy dalej: P (A) = 0 oznacza, że zdarzenie A jest niemożliwe, choć może być A. Ω F zachodzi zawsze (jest zdarzeniem pewnym ), więc P (Ω) = 1. Podobnie: P (A) = 1 oznacza, że zdarzenie A jest pewne, choć A może być właściwym podzbiorem Ω.

Przestrzeń probabilistyczna 5

6 1. Formalizm teorii prawdopodobieństwa

Przykłady przestrzeni probabilistycznych 7 Przykłady przestrzeni probabilistycznych Klasyczna definicja prawdopodobieństwa. Niech Ω będzie zbiorem skończonym i niech F = 2 Ω. Określamy P (A) = #A #Ω. ( Zasada racji dostatecznej Laplace a.) Prawdopodobieństwo dyskretne. Niech Ω 0 = {ω 1, ω 2,...} będzie podzbiorem przeliczalnym zbioru Ω. Niech p 1, p 2,... 0, j p j = 1. Przyjmując z definicji 0, określamy P (A) = p j. (F = 2 Ω!) {j : ω j A} Niech Ω = R 1 i p(x) 0 będzie funkcją na R 1 taką, że + p(x) dx = 1. Określamy: P ((a, b]) = b a p(x) dx, a < b, a, b R 1. Uwaga: Jak wygląda F? To problem badany przez teorię miary i całki Lebesgue a. Można pokazać, że nie istnieje prawdopodobieństwo Q : 2 R1 [0, 1] pokrywające się z P na odcinkach.

8 1. Formalizm teorii prawdopodobieństwa Z drugiej strony istnieje σ-algebra B 1 (tzw. zbiorów borelowskich) na którą można rozszerzyć funkcję P, tak aby spełnione były własności prawdopodobieństwa. Przestrzeń statystyczna

2. Zmienne losowe i charakterystyki ich rozkładów Zmienna losowa i jej rozkład 9

10 2. Zmienne losowe Wartość oczekiwana zmiennej losowej Uwaga: zmienna losowa X ma skończoną wartość oczekiwaną dokładnie wtedy, gdy E X < +. Mówimy również, że zmienna X jest całkowalna i piszemy X L 1 (P ). 2.1 Twierdzenie (Własności wartości oczekiwanej) 1. Jeżeli X 0, to EX 0. Jeżeli X 0 i EX = 0, to P (X = 0) = 1. 2. EX E X. 3. Jeżeli E X < + i E Y < +, to dla dowolnych liczb α, β R 1 funkcja αx + βy jest zmienna losową i ma miejsce równość: E (αx + βy ) = αex + βey. 4. Jeżeli Y X, to EY EX pod warunkiem, że wartości oczekiwane istnieją.

Dystrybuanta zmiennej losowej 11 Dystrybuanta zmiennej losowej 2.2 Twierdzenie (Własności dystrybuanty zmiennej losowej) 1. Jeżeli u v, to F X (u) F X (v) (monotoniczność). 2. F X jest funkcją prawostronnie ciągłą. 3. lim F X (u) = 0, u lim F X (u) = 1. u + 2.3 Twierdzenie Twierdzenie (O dystrybuantach) Jeżeli funkcja F : R 1 [0, 1] spełnia warunki 1-3 z powyższego twierdzenia, to istnieje zmienna losowa X taka, że F = F X.

12 2. Zmienne losowe Rozkłady dyskretne i absolutnie ciągłe 2.4 Fakt (Skoki dystrybuanty) P X {x} = P (X = x) > 0 wtedy i tylko wtedy, gdy dystrybuanta F X ma skok w punkcie x i F X (x) F X (x ) = P (X = x). 2.5 Twierdzenie (Gęstość a pochodna dystrybuanty) Każda dystrybuanta F jest l-prawie wszędzie różniczkowalna i pochodna F (określona l-prawie wszędzie) spełnia warunek F (x) F (x) dx. (,x] Uwaga: Może się zdarzyć, że R 1 F (x) dx < 1. 2.6 Twierdzenie Jeżeli R 1 F (x) dx = 1, to rozkład odpowiadający dystrybuancie F jest absolutnie ciągły z gęstością p(x) = F (x). 2.7 Twierdzenie (Obliczanie EX dla rozkładu dyskretnego) Jeżeli X ma rozkład dyskretny, to dla dowolnej funkcji f : R 1 R 1 Ef(X) = f(x i )P (X = x i ) = f(x i )p i, i=1 i=1

Momenty, wariancja, odchylenie standardowe 13 przy czym Ef(X) istnieje dokładnie wtedy, gdy f(x i ) p i < +. i=1 2.8 Twierdzenie (Obliczanie EX dla rozkładu absolutnie ciągłego) Jeżeli X ma rozkład absolutnie ciągły o gęstości p(x), to dla dowolnej funkcji (borelowskiej) f : R 1 R 1 Ef(X) = + f(x)p(x) dx, przy czym Ef(X) istnieje dokładnie wtedy, gdy + f(x) p(x) dx < +. Momenty, wariancja, odchylenie standardowe

14 2. Zmienne losowe Mediana, kwantyle

3. Wektory losowe i charakterystyki ich rozkładów Wektory losowe Podobnie jak w przypadku zmiennych losowych, dystrybuantą wektora losowego X nazywamy funkcję F X : IR d [0, 1], zadaną wzorem F X (a 1, a 2,..., a d ) := P X ({X 1 a 1, X 2 a 2,..., X d a d }). Uwaga: dystrybuanta wektora losowego określa rozkład wektora losowego. W jaki sposób? Uwaga: nie każda funkcja na IR d, która jest niemalejąca po współrzędnych, zadaje dystrybuantę! (Przykład!) 15

16 3. Wektory losowe Macierz kowariancji wektora losowego 80 80

Współczynnik korelacji 17 3.1 Twierdzenie (Równoważna definicja wartości oczekiwanej) Niech E X < +. Wartość oczekiwana wektora X to jedyny wektor m IR d taki, że E x, X = x, m, x IR d. 3.2 Twierdzenie (Równoważna definicja macierzy kowariancji) Niech E X 2 < +. Macierz kowariancji wektora X jest jedyną symetryczną macierzą Σ wymiaru d d wyznaczoną przez formę kwadratową E x, X E X 2 = Var ( x, X ) = x, Σ x, x IR d. Cov ( X) jest więc jedyną macierzą Σ spełniającą związek E x, X E X y, X E X = cov ( x, X, y, X ) = x, Σ y, x, y IR d. 3.3 Twierdzenie (Charakteryzacja macierzy kowariancji) Macierz kowariancji wektora losowego X jest symetryczna i nieujemnie określona. Na odwrót, dla dowolnej symetrycznej i nieujemnie określonej macierzy Σ rozmiaru d d istnieje d-wymiarowy wektor losowy X taki, że Cov ( X) = Σ. Współczynnik korelacji 3.4 Twierdzenie (Interpretacja wspólczynnika korelacji) r(x, Y ) = 1 wtedy, i tylko wtedy, gdy istnieją stałe α, β takie, że X = αy + β lub Y = αx + β.

18 3. Wektory losowe

4. Niezależność Brak korelacji a niezależność zmiennych losowych Niech zmienne losowe X i Y będą jak na stronie 18. Rozważmy zmienne X 2 i Y 2. 19

20 4. Niezależność

Niezależność zmiennych losowych 21 Niezależność zmiennych losowych Uwaga: Jeżeli rodzina {X i } i II jest niezależna, to niezależna jest również każda rodzina postaci {g i (X i )} i II. 4.1 Twierdzenie (Niezależność pociąga nieskorelowanie) Jeżeli zmienne losowe X i Y są niezależne i całkowalne, to iloczyn XY jest całkowalną zmienną losową i EXY = EX EY. W szczególności niezależne zmienne losowe są nieskorelowane. Uwaga: Bez założenia o niezależności warunek dostateczny dla całkowalności iloczynu XY odwołuje się do nierówności Höldera. E XY (E X p ) 1/p (E Y q ) 1/q, 1 p + 1 q = 1. 4.2 Wniosek (Mnożenie wartości oczekiwanych) Niech X 1, X 2,..., X d będą niezależne. Jeżeli funkcje f i sa takie, że f 1 (X 1 ), f 2 (X 2 ),..., f d (X d ) są całkowalnymi zmiennymi losowymi, tj. E f i (X i ) < +, i = 1, 2,..., d, to Ef 1 (X 1 )f 2 (X 2 ) f d (X d ) = Ef 1 (X 1 ) Ef 2 (X 2 ) Ef d (X d ).

22 4. Niezależność Kryteria niezależności 4.3 Twierdzenie Zmienne losowe X 1, X 2,..., X d są niezależne wtedy, i tylko wtedy, gdy dla dowolnych liczb a 1, a 2,..., a d ma miejsce równość Innymi słowy P (X 1 a 1, X 2 a 2,..., X d a d ) = P (X 1 a 1 )P (X 2 a 2 )... P (X d a d ). F (X1,X 2,...,X d )(a 1, a 2,..., a d ) = F X1 (a 1 ) F X2 (a 2 )... F Xd (a d ), tzn. dystrybuanta rozkładu łącznego jest iloczynem dystrybuant brzegowych. 4.4 Przykład (Klasyczne prawdopodobieństwo na produkcie) Niech wyniki i- tego eksperymentu będą elementami skończonej przestrzeni Ω i. Połóżmy Ω = Ω 1 Ω 2... Ω d. Niech P będzie klasycznym prawdopodobieństwem na Ω. Wtedy dla dowolnych funkcji f i : Ω i IR 1, zmienne losowe są stochastycznie niezależne. X i (ω 1, ω 2,..., ω d ) = f i (ω i ) Uwaga: W tym szczególnym przypadku niezależność stochastyczna pokrywa się z niezależnością funkcyjną (zmienne X i w istocie są funkcjami różnych argumentów). Przewaga niezależności stochastycznej polega na uwolnieniu tej własności od konkretnej przestrzeni funkcyjnej.

Niezależność zdarzeń 23 4.5 Twierdzenie (Niezależność dyskretnych zmiennych losowych) Niech rozkłady zmiennych X 1, X 2,..., X d będą dyskretne. Zmienne losowe X 1, X 2,..., X d są niezależne dokładnie wtedy, gdy dla dowolnych x 1, x 2,..., x d IR 1 ma miejsce związek P (X 1 = x 1, X 2 = x 2,..., X d = x d ) = P (X 1 = x 1 )P (X 2 = x 2 ) P (X d = x d ). 4.6 Twierdzenie (Niezależność absolutnie ciągłych zmiennych losowych) Niech rozkłady zmiennych X 1, X 2,..., X d będą absolutnie ciągłe z gęstościami p 1 (x), p 2 (x),..., p d (x). Zmienne losowe X 1, X 2,..., X d są niezależne dokładnie wtedy, gdy rozkład łączny tych zmiennych jest absolutnie ciągły (tzn. posiada gęstość względem miary Lebesgue a na IR d ) i jego gęstość ma postać p X (x 1, x 2,..., x d ) = p 1 (x 1 )p 2 (x 2 ) p d (x d ). Niezależność zdarzeń

24 4. Niezależność Niezależność parami

5. Estymatory Jak wyliczyć współczynnik korelacji? W przykładach podanych na poprzednim wykładzie dane maja postać chmury punktów (wektorów dwuwymiarowych). Na podstawie danych, za pomocą odpowiedniego wzoru, wyliczamy liczbę, która stanowi pewną charakterystykę zbioru danych. Nasuwają się następujące naturalne pytania: Skąd wiemy, że to, co policzyliśmy, odpowiada naszym oczekiwaniom? Jaka jest jakość uzyskanego wyniku? A raczej: Jak mierzyć jakość naszego wyniku? Jak znajdować odpowiednie wzory? 5.1 Przykład (n-krotny pomiar jednym przyrządem) X k = m + ε k, gdzie m - rzeczywista wartość pomiaru, a ε k - błąd k-tego pomiaru. Co przyjąć za wynik pomiaru? Dlaczego? Prawo wielkich liczb stwierdza, że X n = X 1 + X 2 +... + X n. n ε 1 + ε 2 +... + ε n n Eε 1, gdzie Eε 1 = 0 dla przyrządu poprawnie skalibrowanego ( brak błędu systematycznego ). Powyżej korzystamy z modelu błędu pomiaru w postaci ciągu niezależnych zmiennych losowych o jednakowym rozkładzie, z wartością oczekiwaną zero. Inne spojrzenie: E X n = m, jeśli brak jest błędu systematycznego (obciążenia). 25

26 5. Estymatory Próba prosta z populacji 5.2 Przykład (Losowanie ze zwracaniem) Jesteśmy zainteresowani rozkładem danej cechy U w populacji Ω. Losujemy (ze zwracaniem) N osobników i badamy wartości cechy. Jak określić odpowiednią przestrzeń statystyczną (X, B, {P θ } θ Θ )? Niech X 0 = {U(ω) : ω Ω} IR d. Kładziemy: X = (X 0 ) N ; B =? (jak wynika z kontekstu); Θ = P(X 0 ) (zbiór wszystkich rozkładów prawdopodobieństwa na X 0 ); P θ = θ θ... θ. }{{} N razy

Estymator nieobciążony 27 Estymator nieobciążony

28 5. Estymatory 5.3 Przykład (Estymator wartości oczekiwanej) Θ = {θ P(IR 1 ) : E Y < +, jeśli Y θ}, g(θ) = EY, jeśli Y θ. ĝ(x 1, X 2,..., X N ) = X N = X 1 + X 2 +... + X N N 5.4 Przykład (Nieobciążony estymator wariancji) Θ = {θ P(IR 1 ) : EY 2 < +, jeśli Y θ}, g(θ) = Var (Y ) = EY 2 (EY ) 2, jeśli Y θ. ĝ(x 1, X 2,..., X N ) = S 2 N = = (X 1 X N ) 2 + (X 2 X N ) 2 +... + (X N X N ) 2. N 1 5.5 Przykład (Nieobciążony estymator wariancji przy znanej wartości oczekiwanej) Θ = {θ P(IR 1 ) : EY 2 < +, EY = µ, jeśli Y θ}, g(θ) = Var (Y ) = EY 2 µ 2, jeśli Y θ. ĝ(x 1, X 2,..., X N ) = (X 1 µ) 2 + (X 2 µ) 2 +... + (X N µ) 2. N 5.6 Przykład (Estymator prawdopodobieństwa sukcesu w schemacie Bernoullego) Θ = {rozkład dwupunktowy, P (Y = 1) = θ = 1 P (Y = 0)},.

Zgodność ciągu estymatorów 29 g(θ) = θ. ĝ(x 1, X 2,..., X N ) = X 1 + X 2 +... + X N N. 5.7 Przykład (Dwa estymatory dla P (X = 0) z rozkładu Poissona) Θ = {rozkład Poissona z parametrem θ IR + }, g(θ) = e θ (= P θ (Y = 0)). ĝ 1 (X 1, X 2,..., X N ) = 1I {{X 1 =0}} + 1I {{X2 =0}} +... + 1I {{XN =0}}. N ĝ 2 (X 1, X 2,..., X N ) = ( 1 1 N ) X1 +X 2 +...+X N. Zgodność ciągu estymatorów Uwaga: Jeśli ciąg {ĝ n } jest mocno zgodny, to jest słabo zgodny. Jeśli ciąg {ĝ n } jest zgodny w sensie L 2, to jest słabo zgodny. 5.8 Przykład Jeśli istnieją drugie momenty, to ciąg estymatorów { X n } jest zgodny w sensie L 2.

30 5. Estymatory 5.9 Wniosek Ciąg estymatorów { X n } jest mocno zgodny. Zgodność obu ciągów estymatorów wariancji. Zgodność ciągu estymatorów prawdopodobieństwa sukcesu w schemacie Bernoullego. Zgodność obu ciągów estymatorów dla P (Y = 0) z rozkładu Poissona.

6. Estymatory II Estymatory największej wiarogodności Uwaga: Na poprzednim wykładzie pojawiło się wiele wzorów, które miały rozmaite dobre własności. Czy istnieje metoda znajdowania takich wzorów? Uwaga: gdy wszystkie rozkłady P θ są dyskretne i skoncentrowane na tym samym zbiorze przeliczalnym X 0, jako miarę referencyjną możemy wybrać miarę liczącą: Λ(A) = #A, A X 0. Wtedy gęstość w punkcie x X 0 jest dana wzorem p θ (x) = P θ ({x}). 31

32 6. Estymatory II Uwagi: ENW nie musi być nieobciążony. ENW może nie istnieć. ENW może nie być określony jednoznacznie lub jego wyznaczenie może być bardzo trudne. 6.1 Przykłady ENW dla prawdopodobieństwa sukcesu w schemacie N prób Bernoullego. ˆp(X 1, X 2,..., X N ) = X 1 + X 2 +... + X N N ENW dla wartości oczekiwanej i wariancji dla próby prostej gaussowskiej długości N. ˆµ = X 1 + X 2 +... + X N ( ) = XN. N ˆσ 2 = (X 1 X N ) 2 + (X 2 X N ) 2 +... + (X N X N ) 2 N. ( = N 1 ) N S N 2.

Estymatory minimalnej wariancji 33 Estymatory minimalnej wariancji 6.2 Przykład (Porównywanie estymatorów) Przypomnijmy dwa estymatory dla P (X = 0) z rozkładu Poissona Θ = {rozkład Poissona z parametrem θ IR + }, g(θ) = e θ (= P θ (X = 0)). ĝ 1 (X 1, X 2,..., X N ) = 1I {{X 1 =0}} + 1I {{X2 =0}} +... + 1I {{XN =0}}. N ĝ 2 (X 1, X 2,..., X N ) = ( 1 1 N ) X1 +X 2 +...+X N. Który jest lepszy i w jakim sensie? Var θ (ĝ 2 ) < Var θ (ĝ 1 )! Uwaga: Istnieje piękna teoria, równie pięknie przedstawiona w książce R. Zieliński, Siedem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa 1990, która pojęcie estymator nieobciążony minimalnej wariancji analizuje z punktu widzenia tzw. statystyk dostatecznych (tzn. zawierających pełną informację o modelu statystycznym). Na wykładzie podamy tylko najważniejsze zastosowanie tej teorii.

34 6. Estymatory II Rodziny wykładnicze rozkładów 6.3 Przykład Rozkład dwupunktowy (Bernoullego) P θ {1} = θ = 1 P θ {0} ma gęstość na {0, 1} ( ) θ p θ (x) = exp x ln 1 θ + ln(1 θ). W reprezentacji k p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy: T 1 (x) = x, c 1 (θ) = ln ( θ/(1 θ) ), b(θ) = ln(1 θ), h(x) 1. 6.4 Przykład Rozkład normalny N (µ, σ 2 ) ma gęstość na IR 1 ( p µ,σ (x) = exp 1 2σ 2 x2 + µ ) σ 2 x [ µ2 2σ 2 + ln(σ 2π)]. j=1 ( kj=1 ) W reprezentacji p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy θ = (µ, σ 2 ) oraz:

Rodziny wykładnicze rozkładów 35 T 1 (x) = x 2, c 1 (θ) = 1/(2σ 2 ), T 2 (x) = x, c 2 (θ) = µ/σ 2, b(θ) = µ 2 /(2σ 2 ) + ln(σ 2π), h(x) 1. 6.5 Przykład Rozkład gamma Γ(α, λ), α > 1, γ > 0 ma gęstość na IR 1 ( p α,λ (x) = exp 1 ) λ x + (α 1) ln x ln[λα Γ(α)] 1I {[0, )} (x). ( kj=1 ) W reprezentacji p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy θ = (α, γ) oraz: T 1 (x) = x, c 1 (θ) = 1/λ, T 2 (x) = ln x, c 2 (θ) = α 1, b(θ) = ln ( λ α Γ(α) ), h(x) = 1I {[0, )} (x).. 6.6 Przykład Rozkład Poissona z parametrem λ ma gęstość na IN p λ (x) = exp (ln λ x λ) 1 x!. ( kj=1 ) W reprezentacji p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy (θ = λ): T 1 (x) = x, c 1 (λ) = ln λ, b(λ) = λ, h(x) = 1/x!. 6.7 Przykład Próba prosta długości N z rozkładu Bernoullego z prawdopodobieństwem sukcesu θ (0, 1) ma gęstość na przestrzeni {0, 1} N p N θ (x 1, x 2,..., x N ) = p θ (x 1 ) p θ (x 2 )... p θ (x N ) ( = exp (x 1 + x 2 +... x N ) ln ) θ 1 θ + N ln(1 θ). ( W reprezentacji p N θ (x) = exp kj=1 ) c j (θ)t j (x) b(θ) h(x) mamy więc:

36 6. Estymatory II T 1 (x 1, x 2,..., x N ) = x 1 + x 2 +... + x N, c 1 (θ) = ln ( θ/(1 θ) ), b(θ) = N ln(1 θ), h(x) 1. Podobnie transformują się gęstości dla prób prostych z innych rodzin wykładniczych. Estymatory nieobciążone minimalnej wariancji 6.8 Przykłady Populacja normalna, µ znane. ENMW (σ 2 ) = (X 1 µ) 2 + (X 2 µ) 2 +... + (X N µ) 2. N Populacja normalna, µ znane. ENMW (σ) = Γ( n 2 ) 2Γ( n+1 2 ) (X 1 µ) 2 + (X 2 µ) 2 +... + (X N µ) 2.

Estymatory nieobciążone minimalnej wariancji 37 Populacja normalna, σ znane. Populacja normalna, µ i σ nie są znane. Populacja normalna, µ i σ nie są znane. ENMW (µ) = X N. ENMW (µ) = X N. ENMW (σ 2 ) = (X 1 X N ) 2 + (X 2 X N ) 2 +... + (X N X N ) 2. (N 1) Populacja normalna, µ i σ nie są znane. Estymator kwantyla rzędu p (0, 1), tzn. liczby u p spełniającej relację p = Φ µ,σ (u p ) lub u p = µ + σ Φ 1 (p). gdzie σ N = ENMW (u p ) = X N + Γ( N 1 2 ) 2Γ( N 2 ) σ N Φ 1 (p), (X 1 X N ) 2 + (X 2 X N ) 2 +... + (X N X N ) 2. Uwaga: Estymatory nieobciążone nie zawsze istnieją. ENMW może nie istnieć, mimo że istnieją estymatory nieobciążone. ENMW może mieć większy błąd średniokwadratowy (funkcję ryzyka) R(ˆδ, θ) = E θ (ˆδ g(θ)) 2 od estymatora obciążonego. ENMW może być zupełnie nieprzydatny.

38 6. Estymatory II

7. Przedziały ufności Obszar ufności Problem: jak ocenić jakość ) przybliżenia parametru przez estymator? Niech (X, B, {P θ } θ Θ będzie modelem statystycznym i niech ĝ : X IR d będzie estymatorem parametru g : Θ IR d. W modelach ciągłych (tzn. P θ ({x}) = 0 dla każdego x X i θ Θ) najczęściej mamy P θ (ĝ = y0 ) = 0. Tymczasem na podstawie estymacji przyjmujemy g(θ) = y 0. Na ile można ufać takiej ocenie wartości parametru? Wyjściem może być stosowanie estymatorów jako odwzorowań przestrzeni próbek o wartościach w masywnych zbiorach. 39

40 7. Przedziały ufności Przedział ufności 7.1 Przykład (Przedział ufności dla średniej ze znaną wariancją) Niech X 1, X 2,..., X N będzie próbą prostą z rozkładu N (µ, σ 2 ). Zakładamy, że σ 2 jest znane (np. dokonujemy pomiaru skalibrowanym przyrządem o znanej dokładności). Jeśli położymy X N = X 1+X 2 +...+X N N N (µ, σ2 N ), to X N µ σ/ N N (0, 1). Niech ζ = ζ 1 α/2 będzie takie, że Φ( ζ) = 1 Φ(ζ) = α/2. Wtedy P µ ( XN σ ζ 1 α/2 N µ X N + σ ζ 1 α/2 N ) = 1 α. Piszemy: µ = X N ± σ ζ 1 α/2 N.

Rozkład t-studenta 41 Rozkład t-studenta 7.2 Przykład (Przedział ufności dla średniej z nieznaną wariancją) Niech X 1, X 2,..., X N będzie próbą prostą z rozkładu N (µ, σ 2 ). Nie znamy ani µ, ani σ 2. Niech (X 1 S N = X N ) 2 + (X 2 X N ) 2 +... + (X N X N ) 2. N 1 7.3 Twierdzenie Zmienna losowa t N 1 = X N µ S N / N ma rozkład t-studenta z N 1 stopniami swobody. 7.4 Wniosek Jeżeli F tn 1 (τ 1 α/2 ) = 1 α/2, to na poziomie ufności α µ = X N ± S N τ 1 α/2 N.

42 7. Przedziały ufności Rozkład chi-kwadrat 7.5 Przykład (Przedział ufności dla wariancji) Podobnie jak poprzednio X 1, X 2,..., X N jest próbą prostą z rozkładu N (µ, σ 2 ), gdzie µ i σ 2 nie są znane. 7.6 Twierdzenie Zmienna losowa χ 2 N 1 = (N 1) S 2 N σ 2 ma rozkład chi-kwadrat z N 1 stopniami swobody. 7.7 Wniosek Jeśli F χ 2 N 1 (ξ α/2 ) = α/2 i F χ 2 N 1 (ξ 1 α/2 ) = 1 α/2, to przedziałem ufności dla σ 2 na poziomie ufności α jest [ (N 1) S2 N ξ 1 α/2, (N 1) S 2 N ξ α/2 ].

Rozkład F -Snedecora 43 Rozkład F -Snedecora 7.8 Przykład (Przedział ufności dla ilorazu wariancji) Niech X 1, X 2,..., X N będzie próbą prostą z rozkładu N (µ X, σx 2 ), a Y 1, Y 2,..., Y M próbą prostą z rozkładu N (µ Y, σy 2 ), gdzie nie znamy ani µ X i σx 2, ani µ Y i σy 2. Niech S X 2 będzie statystyką S N 2 zbudowaną na próbce {X k}, a S Y 2 będzie statystyką S M 2 zbudowaną na próbce {Y k}. 7.9 Twierdzenie Zmienna losowa F N 1,M 1 = S X 2 σ2 Y S Y 2, σ2 X ma rozkład F -Snedecora z N 1 stopniami swobody licznika i M 1 stopniami swobody mianownika. 7.10 Wniosek Niech F FN 1,M 1 (φ α/2 ) = α/2, F FN 1,M 1 (φ 1 α/2 ) = 1 α/2. Przedziałem ufności dla σ 2 Y /σ2 X na poziomie ufności α jest [ S2 φ Y S2 α/2 S X 2, φ Y 1 α/2 S X 2 ].

44 7. Przedziały ufności Asymptotyczne przedziały ufności 7.11 Przykład (Przedziały ufności dla prawdopodobieństwa sukcesu w schemacie Bernoullego) Niech X 1, X 2,... będzie schematem Bernoullego z prawdopodobieństwem sukcesu θ (0, 1), a S N liczbą sukcesów w N próbach. Rozkład S N jest znany (dwumianowy). Teoretycznie znamy więc również rozkład zmiennej standaryzowanej N /N θ S. W praktyce lepiej jednak używać przybliżenia danego przez sławne θ(1 θ)/ N twierdzenie de Moivre a-laplace a. 7.12 Wniosek Jeśli Φ(ζ 1 α/2 ) = 1 α/2, mamy asymptotycznie : P θ ( ζ 2 1 α/2 θ(1 θ) N (S N /N θ ) 2 ) 1 α. W szczególności na przybliżonym poziomie ufności α θ = S N + ζ 2 1 α/2 /N N + ζ 2 1 α/2 ± ζ 1 α/2 S N (N S N ) N N + ζ 2 1 α/2 + ζ2 1 α/2 4. 7.13 Przykład (Nieparametryczne przedziały ufności dla kwantyli) Niech X 1, X 2,... będzie próbą prostą z rozkładu o dystrybuancie F = F X1. Niech ξ p będzie kwantylem rzędu p rozkładu F (zakładamy, że F jest ciągła i ściśle rosnąca w otoczeniu ξ p, więc ξ p

Asymptotyczne przedziały ufności 45 jest określony jednoznacznie). Połóżmy N L N = 1I {{Xj ξ p}}. j=1 Zmienna L N ma rozkład dwumianowy! Z twierdzenia de Moivre a-laplace a wynika, że ( ( LN /N p ) ) lim P ζ 1 α/2 ζ 1 α/2 N p(1 p)n = Φ(ζ 1 α/2 ) Φ( ζ 1 α/2 ) = 1 α. Wtedy Niech k N i k N będą takie, że lim N lub równoważnie k N /N p p(1 p)/n = ζ 1 α/2, lim N ( ) lim P F kn L N k N = 1 α, N k N /N p p(1 p)/n = ζ 1 α/2. ) lim P F (X kn :N ξ p X kn :N = 1 α, N gdzie X k:n jest k-tą statystyką porządkową z próby prostej N-elementowej. Uwaga: Szczególny charakter rozkładu normalnego najbardziej widoczny jest w centralnym twierdzeniu granicznym.

46 7. Przedziały ufności

8. Prognoza. Warunkowa wartość oczekiwana Zagadnienie prognozowania Przypuśćmy, że mamy dany ciąg liczb x 1, x 2,..., x n, stanowiących wyniki pomiaru pewnej zmiennej w czasie wielkości x, w chwilach t 1 < t 2 <... < t n. Inaczej mówiąc, mamy dany szereg czasowy. Zagadnienie prognozowania: Niech T > t n. Jaką wartość przyjmie badana wielkość w chwili T? Jeżeli x jest funkcją tylko czasu t, tzn. x k = f(t k ), k = 1, 2,..., t n, możemy próbować odgadnąć postać funkcji f, np. znajdując współczynniki wielomianu interpolacyjnego, lub amplitudę, częstość i przesunięcie sygnału sinusoidalnego, lub parametry przekształcenia S, którego kolejne iteracje S(t 0 ), S 2 (t 0 ),... S n (t 0 ) dają nam kolejne wartości x 1, x 2,..., x n. To jest jednak rzadka sytuacja. Na ogół musimy zakładać, że liczby x 1, x 2,..., x n są wartościami ciągu zmiennych losowych. 47

48 8. Prognoza. Warunkowa wartość oczekiwana Warunkowa wartość oczekiwana Niech Y i Z będą wektorami losowymi o wartościach w IR m i IR n, określonymi na tej samej przestrzeni probabilistycznej (Ω, F, P ). Jeżeli P ( Z = z) > 0, to rozkładem warunkowym wektora Y gdy Z = z nazywamy prawdopodobieństwo IR m A P Y Z= z (A) = P ( Y A Z = z) ( = P ( Y A, Z = z) P ( Z = z) ). Pytanie: jak określić rozkład warunkowy w ogólnym przypadku? Jeżeli P (Y,Z) jest absolutnie ciągły z gęstością p Y,Z (y, z), to można określić gęstość rozkładu P Y Z=z za pomocą wzoru p Y,Z (y,z) p Y Z=z (y) =, jeśli + p Y,Z (u, z) du > 0 p Y,Z(u,z) du 1I {[0,1]} (y), jeśli. p Y,Z (u, z) du = 0

Warunkowa wartość oczekiwana 49 Uwaga: w terminach przestrzeni Hilberta L 2 (Ω, F, P ) warunkowa wartość oczekiwana jest rzutem ortogonalnym na podprzestrzeń funkcji postaci {h( Z)}, czyli funkcji σ( Z)- mierzalnych. W tym kontekście (niemal) oczywiste są następujące fakty:

50 8. Prognoza. Warunkowa wartość oczekiwana Jeżeli E Y < + i g : IR n IR m, to ( E E(Y Z) g( Z) ) = E(Y g( Z)). Jeżeli Z jest funkcją stałą, to E(Y Z) = EY. Co by było, gdybyśmy minimalizowali E Y h( Z)? Prognoza liniowa

Procesy gaussowskie 51 Procesy gaussowskie Wnioski z definicji: Biorąc α = (0,..., 0, 1, 0,..., 0)T, otrzymujemy rozkład normalny dla składowych X k N (m k, σk 2 ). W ogólności, m α = E(α 1 X 1 + α 2 X 2 + + α n X n ) = E α, X = α, E X. Podobnie σ 2 α = Var ( α, X ) = α, Cov ( X) α. 8.1 Twierdzenie (Transformacja liniowa zmiennych gaussowskich) Jeżeli wektor losowy X = (X 1, X 2,..., X n ) T ma składowe gaussowskie, przy czym EX = m i Cov (X) = Σ) i jezeli A : IR n IR m jest odwzorowaniem liniowym, to składowe wektora A( X) też są gaussowskie, przy czym EA( X) = A( m), Cov (A( X)) = AΣA T. 8.2 Twierdzenie (Konstrukcja zmiennych gaussowskich) Jeżeli m IR n i Σ jest macierzą n n, symetryczną i nieujemnie określoną, to istnieje wektor losowy X o składowych gaussowskich, który spełnia związki E X = m, Cov ( X) = Σ. 8.3 Twierdzenie (Charakterystyka rozkładu łącznego zmiennych gaussowskich) Rozkład łączny zmiennych losowych gaussowskich (X 1, X 2,..., X n ) (nazywany n-wymiarowym rozkładem normalnym) jest w pełni określony przez swoja wartość oczekiwaną m i macierz kowariancji Σ. Piszemy X N (m, Σ).

52 8. Prognoza. Warunkowa wartość oczekiwana 8.4 Twierdzenie (Absolutna ciągłość rozkładu normalnego) Rozkład normalny jest absolutnie ciągły dokładnie wtedy, gdy macierz Σ jest nieosobliwa (det(σ) 0). W takim przypadku gęstość zadana jest wzorem: p m,σ ( x) = 1 ( 2π) d 1 det Σ exp ( 1 2 x m, Σ 1 ( x m) ). 8.5 Twierdzenie (Niezależność zmiennych gaussowskich) Zmienne gaussowskie X 1, X 2,..., X n są niezależne dokładnie wtedy, gdy są nieskorelowane: cov (X i, X j ) = 0, i, j = 1, 2,..., n, i j.

9. Testowanie hipotez statystycznych Test hipotezy, poziom istotności, moc testu 53

54 9. Testowanie hipotez statystycznych

Lemat Neymana-Pearsona 55 Lemat Neymana-Pearsona

56 9. Testowanie hipotez statystycznych 9.1 Przykład (za R. Zielińskim Siedem wykładów... ) Niech X = IN. Rozważmy hipotezę prostą H 0 = {B(10; 0, 1)} (rozkład dwumianowy: liczba sukcesów 10, p-stwo sukcesu 0, 01) przeciw hipotezie prostej H 1 = {P o(1)} (rozkład Poissona z parametrem 1). x B(10; 0, 1) P o(1) P o(1) B(10;0,1) 0 0,3468 0, 36788 1,05506 1 0,38742 0,36788 0,94956 2 0,19371 0,18394 0,94956 3 0,05739 0,06131 1,06830 4 0,01116 0,01533 1,37366 5 0,00149 0,00307 2,06040 6 0,00014 0,00051 3,64286 7 0,00001 0,00007 7,0000 8 0,00000 0,00001 + obszar krytyczny K P H0 (K) P H1 (K) {x : x 8} 0,00000 0,00001 {x : x 7} 0,00001 0,00008 {x : x 6} 0,00015 0,00059 {x : x 5} 0,00164 0,00366 {x : x 4} 0,01280 0,01899 {x : x 3} 0,07019 0,08030 Test niezrandomizowany na poziomie istotności α = 0, 05: { 1, gdy x 4 φ(x) = 0, gdy x < 4. Rozmiar testu E PH0 φ = P H0 {x : x 4} = 0, 01280. Jeśli γ = 0, 6482, to P H0 {x : x 4} + γp H0 {x : x = 3} = 0, 05. Test zrandomizowany na poziomie istotności α = 0, 05 1, gdy x 4 φ(x) = 0, 6482 gdy x = 3 0, gdy x 2. ma również rozmiar 0, 05. Jaka jest moc tego testu? Tylko 0, 05873! Interpretacja: prawdopodobieństwo nieodrzucenia weryfikowanej hipotezy H 0 = {B(10; 0, 1)}, gdy prawdziwa jest hipoteza alternatywna H 1 = {P o(1)}, wynosi 0,94127.

Konkluzje 57 Konkluzje W przypadku hipotez złożonych teorię Neymana-Pearsona można przenieść na tzw. modele z monotonicznym ilorazem wiarogodności. Teoria porównywania testów ma ograniczone znaczenie praktyczne.

58 9. Testowanie hipotez statystycznych

10. Testowanie hipotez - przykłady Dystrybuanta empiryczna i tw. Gniedenki-Cantellego 59

60 10. Testowanie hipotez - przykłady Test zgodności Kołmogorowa Przypuścmy, że X 1, X 2,..., X N jest próba prostą z nieznanego rozkładu. Rozważmy hipotezę H 0 : zmienne maja rozkład o dystrybuancie F, przeciw alternatywie H 1 : zmienne mają inny rozkład o dystrybuancie G F. Jak przetestować tę hipotezę? Niech zmienne będą miały rozkład G i niech G N będzie odpowiednią dystrybuantą empiryczną. Określamy statystykę D N = sup x IR 1 G N (x) F (x). Jeżeli G = F, to statystyka powinna przyjmować małe wartości; jeżeli G F, to wartości powinny być znacząco większe. Określamy więc zbiór krytyczny dla poziomu istotności α wzorem gdzie P F (K DN,α) α. K DN,α = {D N > D N (α)}, Problem: P F (K DN,α) zależy od F! Jak obliczyć to prawdopodobieństwo dla każdego F? Na szczęście w obszernej klasie rozkładów P F (K DN,α) nie zależy od F! Jeżeli f jest funkcją niemalejącą, to dla dowolnej zmiennej losowej X i t IR 1 {f(x) < f(t)} {X t} {f(x) f(t)}.

Test zgodności Kołmogorowa 61 Niech F będzie dystrybuantą zmiennej losowej X. Jeśli F jest ciągła, to F (X) U(0, 1). Niech X 1, X 2,..., X N będzie próbką prostą z F. Jeżeli F jest ciągła, to F (X 1 ), F (X 2 ),... jest próbką prostą z rozkładu U(0, 1).

62 10. Testowanie hipotez - przykłady Porównywanie średnich Przypomnijmy, że rozkładem t-studenta o k stopniach swobody nazywamy rozkład

Test χ 2 Pearsona 63 zmiennej losowej T = Z 0 Z 2 1 + Z2 2 +... Z2 k gdzie Z 0, Z 1,... Z k są niezależne o rozkładzie N (0, 1). Test χ 2 Pearsona Niech niezależne zmienne losowe X 1, X 2,..., X N przyjmują wartości a i z prawdopodobieństwem p i > 0, p 1 +... + p k = 1. k, Określamy: N ν i = 1I {{Xj =a i }}. j=1 Jeśli n 1 + n 2 +... n k = N i spełnione są pewne inne założenia, to P (ν 1 = n 1, ν 2 = n 2,..., ν k = n k ) = (rozkład wielomianowy). N! n 1!n 2!... n k! pn 1 1 pn 2 2... pn k k. Przypomnijmy, że rozkład χ 2 z k-stopniami swobody to rozkład zmiennej losowej χ 2 k X 2 1 + X 2 2 +... + X 2 k,

64 10. Testowanie hipotez - przykłady gdzie X 1, X 2,..., X k są niezależne o rozkładzie N (0, 1). Rozkład χ 2 k Gamma(k/2, 1/2). jest rozkładem

11. Metoda najmniejszych kwadratów i regresja liniowa Model liniowy i regresja liniowa 65

66 11. Metoda najmniejszych kwadratów i regresja liniowa Metoda najmniejszych kwadratów

Twierdzenie Gaussa-Markowa 67 Twierdzenie Gaussa-Markowa

68 11. Metoda najmniejszych kwadratów i regresja liniowa

12. Redukcja wymiaru danych Procedura standaryzacji danych 12.1 Definicja (Standaryzacja zmiennej losowej) Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X). Uwaga: EZ = 0, Var (Z) = 1. Uwaga: Jeżeli X = (X1, X 2,..., X d ) T jest wektorem losowym o macierzy kowariancji Σ, to wektor standaryzowany (po współrzędnych) Z ma wartość oczekiwaną EZ = 0 i macierz kowariancji R = [r ij ] równą macierzy KORELACJI wektora X, tj. r ij = ρ ij = cov (X i, X j ). Var (X i )Var (X j ) Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja niektórych pól = ciąg wartości wektorów X n (rekordów), których składowe mierzone są na ogół w różnych jednostkach. Wartości poszczególnych pól (współrzędnych rekordów), nawet jeśli mają podobny charakter, mogą być mierzone w różnych jednostkach, co powoduje, że w analizie dominować mogą wielkości marginalne. Z tego powodu przed rozpoczęciem statystycznej analizy danych przeprowadza się standaryzację lub normalizację. 12.2 Definicja (Empiryczna standaryzacja ciągu wektorów losowych) Niech X n = (X n1, X n2,..., X nd ) T, n = 1, 2,..., N będzie ciągiem wektorów losowych. Niech X j = 1 N Nn=1 N (X nj X nj, S j = X j ) 2. N 1 n=1 Standaryzacją ciągu { X n } nazywamy ciąg wektorów losowych Z n o składowych Z nj = (X nj X j ) S j. 69

70 12. Redukcja wymiaru danych

Analiza składowych głównych 71 Analiza składowych głównych Uwaga: Innymi słowy, w analizie składowych głównych (PCA) szukamy:

72 12. Redukcja wymiaru danych k możliwie małego (w stosunku do d), które spełnia warunek λ i /d + λ 2 /d +... + λ k /d > α, i dla którego odpowiednie kombinacje liniowe zmiennych wyjściowych posiadają sensowną interpretację. Analiza czynnikowa W szczególności: Σ = E( X E X)( X E X) T = E(L F + ε)(l F + ε) T = E(L F F T L T ) + E(L F ε T ) + E( ε F T L T ) + E( ε ε T ) = LL T + Λ ε. Rozwiązanie powyższego równania oraz poszukiwanie czynników F przeprowadza się numerycznie. Uwagi: Niech ( F, L) będzie rozwiązaniem dla modelu analizy czynnikowej. Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas (B F, LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa analiza i wybór odpowiedniej rotacji czynników.

Analiza czynnikowa 73 Analiza czynnikowa, mimo bogatej literatury i mnogości algorytmów pozostaje zawsze narzędziem bardzo kontrowersyjnym.

74 12. Redukcja wymiaru danych

Literatura Literatura podstawowa 1. W. Niemiro Rachunek prawdopodobieństwa i statystyka matematyczna, Szkoła Nauk Ścisłych, Warszawa 1999. 2. D.T. Larose Metody i modele eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2008. Literatura uzupełniająca 1. J. Jakubowski i R. Sztencel Wstęp do teorii prawdopodobieństwa, Script, Warszawa 2000, 2001, 2004. 2. D.T. Larose Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2006. 3. R. Zieliński Siedem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa 1990. 75