Statystyka i eksploracja danych

Transkrypt

1 Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych realizowany w ramach Poddziałania Programu Operacyjnego Kapitał Ludzki Statystyka i eksploracja danych Treść wykładów Adam Jakubowski UMK Toruń 2011 Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

2

3 Spis treści Wstęp 1 1 Formalizm teorii prawdopodobieństwa 3 Po co nam formalizm matematyczny? Co to jest Przestrzeń probabilistyczna Przykłady przestrzeni probabilistycznych Przestrzeń statystyczna Zmienne losowe i charakterystyki ich rozkładów 9 Zmienna losowa i jej rozkład Wartość oczekiwana zmiennej losowej Dystrybuanta zmiennej losowej Rozkłady dyskretne i absolutnie ciągłe Momenty, wariancja, odchylenie standardowe Mediana, kwantyle Wektory losowe i charakterystyki ich rozkładów 15 Wektory losowe Macierz kowariancji wektora losowego Współczynnik korelacji Niezależność 19 Brak korelacji a niezależność zmiennych losowych Niezależność zmiennych losowych Kryteria niezależności Niezależność zdarzeń Niezależność parami Estymatory 25 Jak wyliczyć współczynnik korelacji? Próba prosta z populacji Estymator nieobciążony Zgodność ciągu estymatorów i

4 ii Spis treści 6 Estymatory II 31 Estymatory największej wiarogodności Estymatory minimalnej wariancji Rodziny wykładnicze rozkładów Estymatory nieobciążone minimalnej wariancji Przedziały ufności 39 Obszar ufności Przedział ufności Rozkład t-studenta Rozkład chi-kwadrat Rozkład F -Snedecora Asymptotyczne przedziały ufności Prognoza. Warunkowa wartość oczekiwana 47 Zagadnienie prognozowania Warunkowa wartość oczekiwana Prognoza liniowa Procesy gaussowskie Testowanie hipotez statystycznych 53 Test hipotezy, poziom istotności, moc testu Lemat Neymana-Pearsona Konkluzje Testowanie hipotez - przykłady 59 Dystrybuanta empiryczna i tw. Gniedenki-Cantellego Test zgodności Kołmogorowa Porównywanie średnich Test χ 2 Pearsona Metoda najmniejszych kwadratów i regresja liniowa 65 Model liniowy i regresja liniowa Metoda najmniejszych kwadratów Twierdzenie Gaussa-Markowa Redukcja wymiaru danych 69 Procedura standaryzacji danych Analiza składowych głównych Analiza czynnikowa Literatura 75

5 Wstęp Plan studiów na kierunku Informatyka na Wydziale Matematyki i Informatyki Uniwersytetu Mikołaja Kopernika w Toruniu przewiduje na pierwszym roku studiów drugiego stopnia obowiązkowy blok statystyczno-probabilistyczny, składający się z przedmiotów Statystyka i eksploracja danych i Metody i modele probabilistyczne. Według założeń programowych realizacja tego bloku ma stanowić podstawę do szerokiego stosowania metod stochastycznych, w zagadnieniach algorytmicznych, obliczeniowych i w modelowaniu systemów złożonych. Przedmiot Statystyka i analiza danych prowadzony jest w semestrze zimowym, w wymiarze 30 godzin wykładu i 30 godzin ćwiczeń rachunkowo-laboratoryjnych, w dużej mierze wykorzystujących najnowsze wersje pakietu SPSS. Zaliczenie przedmiotu polega na uzyskaniu zaliczenia ćwiczeń rachunkowo-laboratoryjnych oraz zdaniu dwuczęściowego egzaminu, składającego się z egzaminu praktycznego w laboratorium (wykonanie analizy przykładowych danych) oraz egzaminu ustnego z teorii. Do wykładu prowadzone są kursy wyrównawcze, podczas których osoby mające trudności z podstawowymi pojęciami teorii prawdopodobieństwa lub rachunkami mogą uzupełnić swoje umiejętności. Podstawą zajęć wyrównawczych jest materiał dydaktyczny Adam Jakubowski Statystyka i eksploracja danych. Repetytorium z teorii prawdopodobieństwa, Toruń Należy podkreślić, że podczas egzaminu wiadomości zawarte w Repetytorium są bezwzględnie wymagane. Ćwiczenia dydaktyczne prowadzone są w oparciu o materiały dydaktyczne Joanna Karłowska-Pik Statystyka i eksploracja danych. Ćwiczenia i zadania, Toruń Niniejsze opracowanie zawiera treści przekazywane w trakcie wykładów. Najważniejsze definicje i twierdzenia przedstawiane są w postaci zrzutu ekranowego odpowiedniej transparencji. Podstawowy materiał uzupełniany jest komentarzami i przykładami. Zagadnienia omawiane na wykładach, wraz z ewentualnymi uzupełnieniami, są dostępne na: w kategorii Studia stacjonarne/statystyka i eksploracja danych. Całość materiału podzielono na 12 jednostek, z grubsza odpowiadających dwugodzinnemu wykładowi. Istotne poszerzenie zakresu materiału wydaje się mało prawdopodobne, ze względu na konieczność wyrównania poziomu podczas pierwszych wykładów. 1

6 2 Wstęp Doświadczenie wskazuje bowiem, że studenci drugiego stopnia Informatyki posiadają bardzo różne przygotowanie w zakresie metod probabilistycznych, często ograniczające się do elementarnego rachunku prawdopodobieństwa wykładanego w ramach Matematyki dyskretnej. Należy podkreślić, że pewne aspekty analizy danych (np. metody bayesowskie) są przekazywane w ramach przedmiotu Metody i modele probabilistyczne, po systematycznej prezentacji dynamicznych metod Monte Carlo (MCMC). Literatura podstawowa przedmiotu zawiera książki: W. Niemiro Rachunek prawdopodobieństwa i statystyka matematyczna, Szkoła Nauk Ścisłych, Warszawa 1999, oraz D.T. Larose Metody i modele eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa Jako literatura uzupełniająca zalecane są ksiązki: J. Jakubowski i R. Sztencel Wstęp do teorii prawdopodobieństwa, Script, Warszawa 2004, D.T. Larose Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2006, oraz R. Zieliński Siedem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa Adam Jakubowski

7 1. Formalizm teorii prawdopodobieństwa Po co nam formalizm matematyczny? Podstawa porozumienia - aby skutecznie porozumiewać się z innymi przy realizacji projektów lub w trakcie rozwiązywania problemów. Możliwość uzyskania pomocy - aby umieć postawić specjalistom problem do rozwiązania. Lepsze zrozumienie materii - np. naturalnych ograniczeń stosowanych narzędzi. Co to jest... Rachunek prawdopodobieństwa to sztuka (umiejętność) obliczania prawdopodobieństw zdarzeń. Teoria prawdopodobieństwa to dział matematyki, na którym opierają się praktyczne obliczenia dokonywane w rachunku prawdopodobieństwa. Statystyka to sztuka (umiejętność) wnioskowania na podstawie próby losowej. Statystyka matematyczna to dział matematyki, który rozwija metody uzasadniające poprawność wnioskowania statystycznego. Eksploracja danych (drążenie danych, ekstrakcja danych) to umiejętność wydobywania użytecznych informacji z dużych zbiorów danych. Uwaga: Przyjmuje się, że twórcą matematycznego formalizmu teorii prawdopodobieństwa był rosyjski matematyk A.N. Kołmogorow ( ), który w 1933 roku opublikował książkę Grundbegriffe der Wahrscheinlichkeitsrechnung. 3

8 4 1. Formalizm teorii prawdopodobieństwa Przestrzeń probabilistyczna Uwaga: Pojęcia występujące w definicji przestrzeni probabilistycznej można interpretować w sposób następujący: Ω to zbiór wszystkich możliwych wyników eksperymentu losowego. Zdarzenia (elementy F) reprezentują fakty, których zajście możemy stwierdzić, tzn. dla A F zawsze możemy powiedzieć, czy wynik ω A, czy ω A. W ten sposób F reprezentuje całość wiedzy, którą możemy uzyskać w wyniku realizacji eksperymentu losowego. F nigdy nie może zajść (jest zdarzeniem niemożliwym ), więc P ( ) = 0. Ale idziemy dalej: P (A) = 0 oznacza, że zdarzenie A jest niemożliwe, choć może być A. Ω F zachodzi zawsze (jest zdarzeniem pewnym ), więc P (Ω) = 1. Podobnie: P (A) = 1 oznacza, że zdarzenie A jest pewne, choć A może być właściwym podzbiorem Ω.

9 Przestrzeń probabilistyczna 5

10 6 1. Formalizm teorii prawdopodobieństwa

11 Przykłady przestrzeni probabilistycznych 7 Przykłady przestrzeni probabilistycznych Klasyczna definicja prawdopodobieństwa. Niech Ω będzie zbiorem skończonym i niech F = 2 Ω. Określamy P (A) = #A #Ω. ( Zasada racji dostatecznej Laplace a.) Prawdopodobieństwo dyskretne. Niech Ω 0 = {ω 1, ω 2,...} będzie podzbiorem przeliczalnym zbioru Ω. Niech p 1, p 2,... 0, j p j = 1. Przyjmując z definicji 0, określamy P (A) = p j. (F = 2 Ω!) {j : ω j A} Niech Ω = R 1 i p(x) 0 będzie funkcją na R 1 taką, że + p(x) dx = 1. Określamy: P ((a, b]) = b a p(x) dx, a < b, a, b R 1. Uwaga: Jak wygląda F? To problem badany przez teorię miary i całki Lebesgue a. Można pokazać, że nie istnieje prawdopodobieństwo Q : 2 R1 [0, 1] pokrywające się z P na odcinkach.

12 8 1. Formalizm teorii prawdopodobieństwa Z drugiej strony istnieje σ-algebra B 1 (tzw. zbiorów borelowskich) na którą można rozszerzyć funkcję P, tak aby spełnione były własności prawdopodobieństwa. Przestrzeń statystyczna

13 2. Zmienne losowe i charakterystyki ich rozkładów Zmienna losowa i jej rozkład 9

14 10 2. Zmienne losowe Wartość oczekiwana zmiennej losowej Uwaga: zmienna losowa X ma skończoną wartość oczekiwaną dokładnie wtedy, gdy E X < +. Mówimy również, że zmienna X jest całkowalna i piszemy X L 1 (P ). 2.1 Twierdzenie (Własności wartości oczekiwanej) 1. Jeżeli X 0, to EX 0. Jeżeli X 0 i EX = 0, to P (X = 0) = EX E X. 3. Jeżeli E X < + i E Y < +, to dla dowolnych liczb α, β R 1 funkcja αx + βy jest zmienna losową i ma miejsce równość: E (αx + βy ) = αex + βey. 4. Jeżeli Y X, to EY EX pod warunkiem, że wartości oczekiwane istnieją.

15 Dystrybuanta zmiennej losowej 11 Dystrybuanta zmiennej losowej 2.2 Twierdzenie (Własności dystrybuanty zmiennej losowej) 1. Jeżeli u v, to F X (u) F X (v) (monotoniczność). 2. F X jest funkcją prawostronnie ciągłą. 3. lim F X (u) = 0, u lim F X (u) = 1. u Twierdzenie Twierdzenie (O dystrybuantach) Jeżeli funkcja F : R 1 [0, 1] spełnia warunki 1-3 z powyższego twierdzenia, to istnieje zmienna losowa X taka, że F = F X.

16 12 2. Zmienne losowe Rozkłady dyskretne i absolutnie ciągłe 2.4 Fakt (Skoki dystrybuanty) P X {x} = P (X = x) > 0 wtedy i tylko wtedy, gdy dystrybuanta F X ma skok w punkcie x i F X (x) F X (x ) = P (X = x). 2.5 Twierdzenie (Gęstość a pochodna dystrybuanty) Każda dystrybuanta F jest l-prawie wszędzie różniczkowalna i pochodna F (określona l-prawie wszędzie) spełnia warunek F (x) F (x) dx. (,x] Uwaga: Może się zdarzyć, że R 1 F (x) dx < Twierdzenie Jeżeli R 1 F (x) dx = 1, to rozkład odpowiadający dystrybuancie F jest absolutnie ciągły z gęstością p(x) = F (x). 2.7 Twierdzenie (Obliczanie EX dla rozkładu dyskretnego) Jeżeli X ma rozkład dyskretny, to dla dowolnej funkcji f : R 1 R 1 Ef(X) = f(x i )P (X = x i ) = f(x i )p i, i=1 i=1

17 Momenty, wariancja, odchylenie standardowe 13 przy czym Ef(X) istnieje dokładnie wtedy, gdy f(x i ) p i < +. i=1 2.8 Twierdzenie (Obliczanie EX dla rozkładu absolutnie ciągłego) Jeżeli X ma rozkład absolutnie ciągły o gęstości p(x), to dla dowolnej funkcji (borelowskiej) f : R 1 R 1 Ef(X) = + f(x)p(x) dx, przy czym Ef(X) istnieje dokładnie wtedy, gdy + f(x) p(x) dx < +. Momenty, wariancja, odchylenie standardowe

18 14 2. Zmienne losowe Mediana, kwantyle

19 3. Wektory losowe i charakterystyki ich rozkładów Wektory losowe Podobnie jak w przypadku zmiennych losowych, dystrybuantą wektora losowego X nazywamy funkcję F X : IR d [0, 1], zadaną wzorem F X (a 1, a 2,..., a d ) := P X ({X 1 a 1, X 2 a 2,..., X d a d }). Uwaga: dystrybuanta wektora losowego określa rozkład wektora losowego. W jaki sposób? Uwaga: nie każda funkcja na IR d, która jest niemalejąca po współrzędnych, zadaje dystrybuantę! (Przykład!) 15

20 16 3. Wektory losowe Macierz kowariancji wektora losowego 80 80

21 Współczynnik korelacji Twierdzenie (Równoważna definicja wartości oczekiwanej) Niech E X < +. Wartość oczekiwana wektora X to jedyny wektor m IR d taki, że E x, X = x, m, x IR d. 3.2 Twierdzenie (Równoważna definicja macierzy kowariancji) Niech E X 2 < +. Macierz kowariancji wektora X jest jedyną symetryczną macierzą Σ wymiaru d d wyznaczoną przez formę kwadratową E x, X E X 2 = Var ( x, X ) = x, Σ x, x IR d. Cov ( X) jest więc jedyną macierzą Σ spełniającą związek E x, X E X y, X E X = cov ( x, X, y, X ) = x, Σ y, x, y IR d. 3.3 Twierdzenie (Charakteryzacja macierzy kowariancji) Macierz kowariancji wektora losowego X jest symetryczna i nieujemnie określona. Na odwrót, dla dowolnej symetrycznej i nieujemnie określonej macierzy Σ rozmiaru d d istnieje d-wymiarowy wektor losowy X taki, że Cov ( X) = Σ. Współczynnik korelacji 3.4 Twierdzenie (Interpretacja wspólczynnika korelacji) r(x, Y ) = 1 wtedy, i tylko wtedy, gdy istnieją stałe α, β takie, że X = αy + β lub Y = αx + β.

22 18 3. Wektory losowe

23 4. Niezależność Brak korelacji a niezależność zmiennych losowych Niech zmienne losowe X i Y będą jak na stronie 18. Rozważmy zmienne X 2 i Y 2. 19

24 20 4. Niezależność

25 Niezależność zmiennych losowych 21 Niezależność zmiennych losowych Uwaga: Jeżeli rodzina {X i } i II jest niezależna, to niezależna jest również każda rodzina postaci {g i (X i )} i II. 4.1 Twierdzenie (Niezależność pociąga nieskorelowanie) Jeżeli zmienne losowe X i Y są niezależne i całkowalne, to iloczyn XY jest całkowalną zmienną losową i EXY = EX EY. W szczególności niezależne zmienne losowe są nieskorelowane. Uwaga: Bez założenia o niezależności warunek dostateczny dla całkowalności iloczynu XY odwołuje się do nierówności Höldera. E XY (E X p ) 1/p (E Y q ) 1/q, 1 p + 1 q = Wniosek (Mnożenie wartości oczekiwanych) Niech X 1, X 2,..., X d będą niezależne. Jeżeli funkcje f i sa takie, że f 1 (X 1 ), f 2 (X 2 ),..., f d (X d ) są całkowalnymi zmiennymi losowymi, tj. E f i (X i ) < +, i = 1, 2,..., d, to Ef 1 (X 1 )f 2 (X 2 ) f d (X d ) = Ef 1 (X 1 ) Ef 2 (X 2 ) Ef d (X d ).

26 22 4. Niezależność Kryteria niezależności 4.3 Twierdzenie Zmienne losowe X 1, X 2,..., X d są niezależne wtedy, i tylko wtedy, gdy dla dowolnych liczb a 1, a 2,..., a d ma miejsce równość Innymi słowy P (X 1 a 1, X 2 a 2,..., X d a d ) = P (X 1 a 1 )P (X 2 a 2 )... P (X d a d ). F (X1,X 2,...,X d )(a 1, a 2,..., a d ) = F X1 (a 1 ) F X2 (a 2 )... F Xd (a d ), tzn. dystrybuanta rozkładu łącznego jest iloczynem dystrybuant brzegowych. 4.4 Przykład (Klasyczne prawdopodobieństwo na produkcie) Niech wyniki i- tego eksperymentu będą elementami skończonej przestrzeni Ω i. Połóżmy Ω = Ω 1 Ω 2... Ω d. Niech P będzie klasycznym prawdopodobieństwem na Ω. Wtedy dla dowolnych funkcji f i : Ω i IR 1, zmienne losowe są stochastycznie niezależne. X i (ω 1, ω 2,..., ω d ) = f i (ω i ) Uwaga: W tym szczególnym przypadku niezależność stochastyczna pokrywa się z niezależnością funkcyjną (zmienne X i w istocie są funkcjami różnych argumentów). Przewaga niezależności stochastycznej polega na uwolnieniu tej własności od konkretnej przestrzeni funkcyjnej.

27 Niezależność zdarzeń Twierdzenie (Niezależność dyskretnych zmiennych losowych) Niech rozkłady zmiennych X 1, X 2,..., X d będą dyskretne. Zmienne losowe X 1, X 2,..., X d są niezależne dokładnie wtedy, gdy dla dowolnych x 1, x 2,..., x d IR 1 ma miejsce związek P (X 1 = x 1, X 2 = x 2,..., X d = x d ) = P (X 1 = x 1 )P (X 2 = x 2 ) P (X d = x d ). 4.6 Twierdzenie (Niezależność absolutnie ciągłych zmiennych losowych) Niech rozkłady zmiennych X 1, X 2,..., X d będą absolutnie ciągłe z gęstościami p 1 (x), p 2 (x),..., p d (x). Zmienne losowe X 1, X 2,..., X d są niezależne dokładnie wtedy, gdy rozkład łączny tych zmiennych jest absolutnie ciągły (tzn. posiada gęstość względem miary Lebesgue a na IR d ) i jego gęstość ma postać p X (x 1, x 2,..., x d ) = p 1 (x 1 )p 2 (x 2 ) p d (x d ). Niezależność zdarzeń

28 24 4. Niezależność Niezależność parami

29 5. Estymatory Jak wyliczyć współczynnik korelacji? W przykładach podanych na poprzednim wykładzie dane maja postać chmury punktów (wektorów dwuwymiarowych). Na podstawie danych, za pomocą odpowiedniego wzoru, wyliczamy liczbę, która stanowi pewną charakterystykę zbioru danych. Nasuwają się następujące naturalne pytania: Skąd wiemy, że to, co policzyliśmy, odpowiada naszym oczekiwaniom? Jaka jest jakość uzyskanego wyniku? A raczej: Jak mierzyć jakość naszego wyniku? Jak znajdować odpowiednie wzory? 5.1 Przykład (n-krotny pomiar jednym przyrządem) X k = m + ε k, gdzie m - rzeczywista wartość pomiaru, a ε k - błąd k-tego pomiaru. Co przyjąć za wynik pomiaru? Dlaczego? Prawo wielkich liczb stwierdza, że X n = X 1 + X X n. n ε 1 + ε ε n n Eε 1, gdzie Eε 1 = 0 dla przyrządu poprawnie skalibrowanego ( brak błędu systematycznego ). Powyżej korzystamy z modelu błędu pomiaru w postaci ciągu niezależnych zmiennych losowych o jednakowym rozkładzie, z wartością oczekiwaną zero. Inne spojrzenie: E X n = m, jeśli brak jest błędu systematycznego (obciążenia). 25

30 26 5. Estymatory Próba prosta z populacji 5.2 Przykład (Losowanie ze zwracaniem) Jesteśmy zainteresowani rozkładem danej cechy U w populacji Ω. Losujemy (ze zwracaniem) N osobników i badamy wartości cechy. Jak określić odpowiednią przestrzeń statystyczną (X, B, {P θ } θ Θ )? Niech X 0 = {U(ω) : ω Ω} IR d. Kładziemy: X = (X 0 ) N ; B =? (jak wynika z kontekstu); Θ = P(X 0 ) (zbiór wszystkich rozkładów prawdopodobieństwa na X 0 ); P θ = θ θ... θ. }{{} N razy

31 Estymator nieobciążony 27 Estymator nieobciążony

32 28 5. Estymatory 5.3 Przykład (Estymator wartości oczekiwanej) Θ = {θ P(IR 1 ) : E Y < +, jeśli Y θ}, g(θ) = EY, jeśli Y θ. ĝ(x 1, X 2,..., X N ) = X N = X 1 + X X N N 5.4 Przykład (Nieobciążony estymator wariancji) Θ = {θ P(IR 1 ) : EY 2 < +, jeśli Y θ}, g(θ) = Var (Y ) = EY 2 (EY ) 2, jeśli Y θ. ĝ(x 1, X 2,..., X N ) = S 2 N = = (X 1 X N ) 2 + (X 2 X N ) (X N X N ) 2. N Przykład (Nieobciążony estymator wariancji przy znanej wartości oczekiwanej) Θ = {θ P(IR 1 ) : EY 2 < +, EY = µ, jeśli Y θ}, g(θ) = Var (Y ) = EY 2 µ 2, jeśli Y θ. ĝ(x 1, X 2,..., X N ) = (X 1 µ) 2 + (X 2 µ) (X N µ) 2. N 5.6 Przykład (Estymator prawdopodobieństwa sukcesu w schemacie Bernoullego) Θ = {rozkład dwupunktowy, P (Y = 1) = θ = 1 P (Y = 0)},.

33 Zgodność ciągu estymatorów 29 g(θ) = θ. ĝ(x 1, X 2,..., X N ) = X 1 + X X N N. 5.7 Przykład (Dwa estymatory dla P (X = 0) z rozkładu Poissona) Θ = {rozkład Poissona z parametrem θ IR + }, g(θ) = e θ (= P θ (Y = 0)). ĝ 1 (X 1, X 2,..., X N ) = 1I {{X 1 =0}} + 1I {{X2 =0}} I {{XN =0}}. N ĝ 2 (X 1, X 2,..., X N ) = ( 1 1 N ) X1 +X X N. Zgodność ciągu estymatorów Uwaga: Jeśli ciąg {ĝ n } jest mocno zgodny, to jest słabo zgodny. Jeśli ciąg {ĝ n } jest zgodny w sensie L 2, to jest słabo zgodny. 5.8 Przykład Jeśli istnieją drugie momenty, to ciąg estymatorów { X n } jest zgodny w sensie L 2.

34 30 5. Estymatory 5.9 Wniosek Ciąg estymatorów { X n } jest mocno zgodny. Zgodność obu ciągów estymatorów wariancji. Zgodność ciągu estymatorów prawdopodobieństwa sukcesu w schemacie Bernoullego. Zgodność obu ciągów estymatorów dla P (Y = 0) z rozkładu Poissona.

35 6. Estymatory II Estymatory największej wiarogodności Uwaga: Na poprzednim wykładzie pojawiło się wiele wzorów, które miały rozmaite dobre własności. Czy istnieje metoda znajdowania takich wzorów? Uwaga: gdy wszystkie rozkłady P θ są dyskretne i skoncentrowane na tym samym zbiorze przeliczalnym X 0, jako miarę referencyjną możemy wybrać miarę liczącą: Λ(A) = #A, A X 0. Wtedy gęstość w punkcie x X 0 jest dana wzorem p θ (x) = P θ ({x}). 31

36 32 6. Estymatory II Uwagi: ENW nie musi być nieobciążony. ENW może nie istnieć. ENW może nie być określony jednoznacznie lub jego wyznaczenie może być bardzo trudne. 6.1 Przykłady ENW dla prawdopodobieństwa sukcesu w schemacie N prób Bernoullego. ˆp(X 1, X 2,..., X N ) = X 1 + X X N N ENW dla wartości oczekiwanej i wariancji dla próby prostej gaussowskiej długości N. ˆµ = X 1 + X X N ( ) = XN. N ˆσ 2 = (X 1 X N ) 2 + (X 2 X N ) (X N X N ) 2 N. ( = N 1 ) N S N 2.

37 Estymatory minimalnej wariancji 33 Estymatory minimalnej wariancji 6.2 Przykład (Porównywanie estymatorów) Przypomnijmy dwa estymatory dla P (X = 0) z rozkładu Poissona Θ = {rozkład Poissona z parametrem θ IR + }, g(θ) = e θ (= P θ (X = 0)). ĝ 1 (X 1, X 2,..., X N ) = 1I {{X 1 =0}} + 1I {{X2 =0}} I {{XN =0}}. N ĝ 2 (X 1, X 2,..., X N ) = ( 1 1 N ) X1 +X X N. Który jest lepszy i w jakim sensie? Var θ (ĝ 2 ) < Var θ (ĝ 1 )! Uwaga: Istnieje piękna teoria, równie pięknie przedstawiona w książce R. Zieliński, Siedem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa 1990, która pojęcie estymator nieobciążony minimalnej wariancji analizuje z punktu widzenia tzw. statystyk dostatecznych (tzn. zawierających pełną informację o modelu statystycznym). Na wykładzie podamy tylko najważniejsze zastosowanie tej teorii.

38 34 6. Estymatory II Rodziny wykładnicze rozkładów 6.3 Przykład Rozkład dwupunktowy (Bernoullego) P θ {1} = θ = 1 P θ {0} ma gęstość na {0, 1} ( ) θ p θ (x) = exp x ln 1 θ + ln(1 θ). W reprezentacji k p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy: T 1 (x) = x, c 1 (θ) = ln ( θ/(1 θ) ), b(θ) = ln(1 θ), h(x) Przykład Rozkład normalny N (µ, σ 2 ) ma gęstość na IR 1 ( p µ,σ (x) = exp 1 2σ 2 x2 + µ ) σ 2 x [ µ2 2σ 2 + ln(σ 2π)]. j=1 ( kj=1 ) W reprezentacji p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy θ = (µ, σ 2 ) oraz:

39 Rodziny wykładnicze rozkładów 35 T 1 (x) = x 2, c 1 (θ) = 1/(2σ 2 ), T 2 (x) = x, c 2 (θ) = µ/σ 2, b(θ) = µ 2 /(2σ 2 ) + ln(σ 2π), h(x) Przykład Rozkład gamma Γ(α, λ), α > 1, γ > 0 ma gęstość na IR 1 ( p α,λ (x) = exp 1 ) λ x + (α 1) ln x ln[λα Γ(α)] 1I {[0, )} (x). ( kj=1 ) W reprezentacji p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy θ = (α, γ) oraz: T 1 (x) = x, c 1 (θ) = 1/λ, T 2 (x) = ln x, c 2 (θ) = α 1, b(θ) = ln ( λ α Γ(α) ), h(x) = 1I {[0, )} (x) Przykład Rozkład Poissona z parametrem λ ma gęstość na IN p λ (x) = exp (ln λ x λ) 1 x!. ( kj=1 ) W reprezentacji p θ (x) = exp c j (θ)t j (x) b(θ) h(x), mamy (θ = λ): T 1 (x) = x, c 1 (λ) = ln λ, b(λ) = λ, h(x) = 1/x!. 6.7 Przykład Próba prosta długości N z rozkładu Bernoullego z prawdopodobieństwem sukcesu θ (0, 1) ma gęstość na przestrzeni {0, 1} N p N θ (x 1, x 2,..., x N ) = p θ (x 1 ) p θ (x 2 )... p θ (x N ) ( = exp (x 1 + x x N ) ln ) θ 1 θ + N ln(1 θ). ( W reprezentacji p N θ (x) = exp kj=1 ) c j (θ)t j (x) b(θ) h(x) mamy więc:

40 36 6. Estymatory II T 1 (x 1, x 2,..., x N ) = x 1 + x x N, c 1 (θ) = ln ( θ/(1 θ) ), b(θ) = N ln(1 θ), h(x) 1. Podobnie transformują się gęstości dla prób prostych z innych rodzin wykładniczych. Estymatory nieobciążone minimalnej wariancji 6.8 Przykłady Populacja normalna, µ znane. ENMW (σ 2 ) = (X 1 µ) 2 + (X 2 µ) (X N µ) 2. N Populacja normalna, µ znane. ENMW (σ) = Γ( n 2 ) 2Γ( n+1 2 ) (X 1 µ) 2 + (X 2 µ) (X N µ) 2.

41 Estymatory nieobciążone minimalnej wariancji 37 Populacja normalna, σ znane. Populacja normalna, µ i σ nie są znane. Populacja normalna, µ i σ nie są znane. ENMW (µ) = X N. ENMW (µ) = X N. ENMW (σ 2 ) = (X 1 X N ) 2 + (X 2 X N ) (X N X N ) 2. (N 1) Populacja normalna, µ i σ nie są znane. Estymator kwantyla rzędu p (0, 1), tzn. liczby u p spełniającej relację p = Φ µ,σ (u p ) lub u p = µ + σ Φ 1 (p). gdzie σ N = ENMW (u p ) = X N + Γ( N 1 2 ) 2Γ( N 2 ) σ N Φ 1 (p), (X 1 X N ) 2 + (X 2 X N ) (X N X N ) 2. Uwaga: Estymatory nieobciążone nie zawsze istnieją. ENMW może nie istnieć, mimo że istnieją estymatory nieobciążone. ENMW może mieć większy błąd średniokwadratowy (funkcję ryzyka) R(ˆδ, θ) = E θ (ˆδ g(θ)) 2 od estymatora obciążonego. ENMW może być zupełnie nieprzydatny.

42 38 6. Estymatory II

43 7. Przedziały ufności Obszar ufności Problem: jak ocenić jakość ) przybliżenia parametru przez estymator? Niech (X, B, {P θ } θ Θ będzie modelem statystycznym i niech ĝ : X IR d będzie estymatorem parametru g : Θ IR d. W modelach ciągłych (tzn. P θ ({x}) = 0 dla każdego x X i θ Θ) najczęściej mamy P θ (ĝ = y0 ) = 0. Tymczasem na podstawie estymacji przyjmujemy g(θ) = y 0. Na ile można ufać takiej ocenie wartości parametru? Wyjściem może być stosowanie estymatorów jako odwzorowań przestrzeni próbek o wartościach w masywnych zbiorach. 39

44 40 7. Przedziały ufności Przedział ufności 7.1 Przykład (Przedział ufności dla średniej ze znaną wariancją) Niech X 1, X 2,..., X N będzie próbą prostą z rozkładu N (µ, σ 2 ). Zakładamy, że σ 2 jest znane (np. dokonujemy pomiaru skalibrowanym przyrządem o znanej dokładności). Jeśli położymy X N = X 1+X X N N N (µ, σ2 N ), to X N µ σ/ N N (0, 1). Niech ζ = ζ 1 α/2 będzie takie, że Φ( ζ) = 1 Φ(ζ) = α/2. Wtedy P µ ( XN σ ζ 1 α/2 N µ X N + σ ζ 1 α/2 N ) = 1 α. Piszemy: µ = X N ± σ ζ 1 α/2 N.

45 Rozkład t-studenta 41 Rozkład t-studenta 7.2 Przykład (Przedział ufności dla średniej z nieznaną wariancją) Niech X 1, X 2,..., X N będzie próbą prostą z rozkładu N (µ, σ 2 ). Nie znamy ani µ, ani σ 2. Niech (X 1 S N = X N ) 2 + (X 2 X N ) (X N X N ) 2. N Twierdzenie Zmienna losowa t N 1 = X N µ S N / N ma rozkład t-studenta z N 1 stopniami swobody. 7.4 Wniosek Jeżeli F tn 1 (τ 1 α/2 ) = 1 α/2, to na poziomie ufności α µ = X N ± S N τ 1 α/2 N.

46 42 7. Przedziały ufności Rozkład chi-kwadrat 7.5 Przykład (Przedział ufności dla wariancji) Podobnie jak poprzednio X 1, X 2,..., X N jest próbą prostą z rozkładu N (µ, σ 2 ), gdzie µ i σ 2 nie są znane. 7.6 Twierdzenie Zmienna losowa χ 2 N 1 = (N 1) S 2 N σ 2 ma rozkład chi-kwadrat z N 1 stopniami swobody. 7.7 Wniosek Jeśli F χ 2 N 1 (ξ α/2 ) = α/2 i F χ 2 N 1 (ξ 1 α/2 ) = 1 α/2, to przedziałem ufności dla σ 2 na poziomie ufności α jest [ (N 1) S2 N ξ 1 α/2, (N 1) S 2 N ξ α/2 ].

47 Rozkład F -Snedecora 43 Rozkład F -Snedecora 7.8 Przykład (Przedział ufności dla ilorazu wariancji) Niech X 1, X 2,..., X N będzie próbą prostą z rozkładu N (µ X, σx 2 ), a Y 1, Y 2,..., Y M próbą prostą z rozkładu N (µ Y, σy 2 ), gdzie nie znamy ani µ X i σx 2, ani µ Y i σy 2. Niech S X 2 będzie statystyką S N 2 zbudowaną na próbce {X k}, a S Y 2 będzie statystyką S M 2 zbudowaną na próbce {Y k}. 7.9 Twierdzenie Zmienna losowa F N 1,M 1 = S X 2 σ2 Y S Y 2, σ2 X ma rozkład F -Snedecora z N 1 stopniami swobody licznika i M 1 stopniami swobody mianownika Wniosek Niech F FN 1,M 1 (φ α/2 ) = α/2, F FN 1,M 1 (φ 1 α/2 ) = 1 α/2. Przedziałem ufności dla σ 2 Y /σ2 X na poziomie ufności α jest [ S2 φ Y S2 α/2 S X 2, φ Y 1 α/2 S X 2 ].

48 44 7. Przedziały ufności Asymptotyczne przedziały ufności 7.11 Przykład (Przedziały ufności dla prawdopodobieństwa sukcesu w schemacie Bernoullego) Niech X 1, X 2,... będzie schematem Bernoullego z prawdopodobieństwem sukcesu θ (0, 1), a S N liczbą sukcesów w N próbach. Rozkład S N jest znany (dwumianowy). Teoretycznie znamy więc również rozkład zmiennej standaryzowanej N /N θ S. W praktyce lepiej jednak używać przybliżenia danego przez sławne θ(1 θ)/ N twierdzenie de Moivre a-laplace a Wniosek Jeśli Φ(ζ 1 α/2 ) = 1 α/2, mamy asymptotycznie : P θ ( ζ 2 1 α/2 θ(1 θ) N (S N /N θ ) 2 ) 1 α. W szczególności na przybliżonym poziomie ufności α θ = S N + ζ 2 1 α/2 /N N + ζ 2 1 α/2 ± ζ 1 α/2 S N (N S N ) N N + ζ 2 1 α/2 + ζ2 1 α/ Przykład (Nieparametryczne przedziały ufności dla kwantyli) Niech X 1, X 2,... będzie próbą prostą z rozkładu o dystrybuancie F = F X1. Niech ξ p będzie kwantylem rzędu p rozkładu F (zakładamy, że F jest ciągła i ściśle rosnąca w otoczeniu ξ p, więc ξ p

49 Asymptotyczne przedziały ufności 45 jest określony jednoznacznie). Połóżmy N L N = 1I {{Xj ξ p}}. j=1 Zmienna L N ma rozkład dwumianowy! Z twierdzenia de Moivre a-laplace a wynika, że ( ( LN /N p ) ) lim P ζ 1 α/2 ζ 1 α/2 N p(1 p)n = Φ(ζ 1 α/2 ) Φ( ζ 1 α/2 ) = 1 α. Wtedy Niech k N i k N będą takie, że lim N lub równoważnie k N /N p p(1 p)/n = ζ 1 α/2, lim N ( ) lim P F kn L N k N = 1 α, N k N /N p p(1 p)/n = ζ 1 α/2. ) lim P F (X kn :N ξ p X kn :N = 1 α, N gdzie X k:n jest k-tą statystyką porządkową z próby prostej N-elementowej. Uwaga: Szczególny charakter rozkładu normalnego najbardziej widoczny jest w centralnym twierdzeniu granicznym.

50 46 7. Przedziały ufności

51 8. Prognoza. Warunkowa wartość oczekiwana Zagadnienie prognozowania Przypuśćmy, że mamy dany ciąg liczb x 1, x 2,..., x n, stanowiących wyniki pomiaru pewnej zmiennej w czasie wielkości x, w chwilach t 1 < t 2 <... < t n. Inaczej mówiąc, mamy dany szereg czasowy. Zagadnienie prognozowania: Niech T > t n. Jaką wartość przyjmie badana wielkość w chwili T? Jeżeli x jest funkcją tylko czasu t, tzn. x k = f(t k ), k = 1, 2,..., t n, możemy próbować odgadnąć postać funkcji f, np. znajdując współczynniki wielomianu interpolacyjnego, lub amplitudę, częstość i przesunięcie sygnału sinusoidalnego, lub parametry przekształcenia S, którego kolejne iteracje S(t 0 ), S 2 (t 0 ),... S n (t 0 ) dają nam kolejne wartości x 1, x 2,..., x n. To jest jednak rzadka sytuacja. Na ogół musimy zakładać, że liczby x 1, x 2,..., x n są wartościami ciągu zmiennych losowych. 47

52 48 8. Prognoza. Warunkowa wartość oczekiwana Warunkowa wartość oczekiwana Niech Y i Z będą wektorami losowymi o wartościach w IR m i IR n, określonymi na tej samej przestrzeni probabilistycznej (Ω, F, P ). Jeżeli P ( Z = z) > 0, to rozkładem warunkowym wektora Y gdy Z = z nazywamy prawdopodobieństwo IR m A P Y Z= z (A) = P ( Y A Z = z) ( = P ( Y A, Z = z) P ( Z = z) ). Pytanie: jak określić rozkład warunkowy w ogólnym przypadku? Jeżeli P (Y,Z) jest absolutnie ciągły z gęstością p Y,Z (y, z), to można określić gęstość rozkładu P Y Z=z za pomocą wzoru p Y,Z (y,z) p Y Z=z (y) =, jeśli + p Y,Z (u, z) du > 0 p Y,Z(u,z) du 1I {[0,1]} (y), jeśli. p Y,Z (u, z) du = 0

53 Warunkowa wartość oczekiwana 49 Uwaga: w terminach przestrzeni Hilberta L 2 (Ω, F, P ) warunkowa wartość oczekiwana jest rzutem ortogonalnym na podprzestrzeń funkcji postaci {h( Z)}, czyli funkcji σ( Z)- mierzalnych. W tym kontekście (niemal) oczywiste są następujące fakty:

54 50 8. Prognoza. Warunkowa wartość oczekiwana Jeżeli E Y < + i g : IR n IR m, to ( E E(Y Z) g( Z) ) = E(Y g( Z)). Jeżeli Z jest funkcją stałą, to E(Y Z) = EY. Co by było, gdybyśmy minimalizowali E Y h( Z)? Prognoza liniowa

55 Procesy gaussowskie 51 Procesy gaussowskie Wnioski z definicji: Biorąc α = (0,..., 0, 1, 0,..., 0)T, otrzymujemy rozkład normalny dla składowych X k N (m k, σk 2 ). W ogólności, m α = E(α 1 X 1 + α 2 X α n X n ) = E α, X = α, E X. Podobnie σ 2 α = Var ( α, X ) = α, Cov ( X) α. 8.1 Twierdzenie (Transformacja liniowa zmiennych gaussowskich) Jeżeli wektor losowy X = (X 1, X 2,..., X n ) T ma składowe gaussowskie, przy czym EX = m i Cov (X) = Σ) i jezeli A : IR n IR m jest odwzorowaniem liniowym, to składowe wektora A( X) też są gaussowskie, przy czym EA( X) = A( m), Cov (A( X)) = AΣA T. 8.2 Twierdzenie (Konstrukcja zmiennych gaussowskich) Jeżeli m IR n i Σ jest macierzą n n, symetryczną i nieujemnie określoną, to istnieje wektor losowy X o składowych gaussowskich, który spełnia związki E X = m, Cov ( X) = Σ. 8.3 Twierdzenie (Charakterystyka rozkładu łącznego zmiennych gaussowskich) Rozkład łączny zmiennych losowych gaussowskich (X 1, X 2,..., X n ) (nazywany n-wymiarowym rozkładem normalnym) jest w pełni określony przez swoja wartość oczekiwaną m i macierz kowariancji Σ. Piszemy X N (m, Σ).

56 52 8. Prognoza. Warunkowa wartość oczekiwana 8.4 Twierdzenie (Absolutna ciągłość rozkładu normalnego) Rozkład normalny jest absolutnie ciągły dokładnie wtedy, gdy macierz Σ jest nieosobliwa (det(σ) 0). W takim przypadku gęstość zadana jest wzorem: p m,σ ( x) = 1 ( 2π) d 1 det Σ exp ( 1 2 x m, Σ 1 ( x m) ). 8.5 Twierdzenie (Niezależność zmiennych gaussowskich) Zmienne gaussowskie X 1, X 2,..., X n są niezależne dokładnie wtedy, gdy są nieskorelowane: cov (X i, X j ) = 0, i, j = 1, 2,..., n, i j.

57 9. Testowanie hipotez statystycznych Test hipotezy, poziom istotności, moc testu 53

58 54 9. Testowanie hipotez statystycznych

59 Lemat Neymana-Pearsona 55 Lemat Neymana-Pearsona

60 56 9. Testowanie hipotez statystycznych 9.1 Przykład (za R. Zielińskim Siedem wykładów... ) Niech X = IN. Rozważmy hipotezę prostą H 0 = {B(10; 0, 1)} (rozkład dwumianowy: liczba sukcesów 10, p-stwo sukcesu 0, 01) przeciw hipotezie prostej H 1 = {P o(1)} (rozkład Poissona z parametrem 1). x B(10; 0, 1) P o(1) P o(1) B(10;0,1) 0 0,3468 0, , , , , , , , , , , , , , , , , , , , , , , , , obszar krytyczny K P H0 (K) P H1 (K) {x : x 8} 0, ,00001 {x : x 7} 0, ,00008 {x : x 6} 0, ,00059 {x : x 5} 0, ,00366 {x : x 4} 0, ,01899 {x : x 3} 0, ,08030 Test niezrandomizowany na poziomie istotności α = 0, 05: { 1, gdy x 4 φ(x) = 0, gdy x < 4. Rozmiar testu E PH0 φ = P H0 {x : x 4} = 0, Jeśli γ = 0, 6482, to P H0 {x : x 4} + γp H0 {x : x = 3} = 0, 05. Test zrandomizowany na poziomie istotności α = 0, 05 1, gdy x 4 φ(x) = 0, 6482 gdy x = 3 0, gdy x 2. ma również rozmiar 0, 05. Jaka jest moc tego testu? Tylko 0, 05873! Interpretacja: prawdopodobieństwo nieodrzucenia weryfikowanej hipotezy H 0 = {B(10; 0, 1)}, gdy prawdziwa jest hipoteza alternatywna H 1 = {P o(1)}, wynosi 0,94127.

61 Konkluzje 57 Konkluzje W przypadku hipotez złożonych teorię Neymana-Pearsona można przenieść na tzw. modele z monotonicznym ilorazem wiarogodności. Teoria porównywania testów ma ograniczone znaczenie praktyczne.

62 58 9. Testowanie hipotez statystycznych

63 10. Testowanie hipotez - przykłady Dystrybuanta empiryczna i tw. Gniedenki-Cantellego 59

64 Testowanie hipotez - przykłady Test zgodności Kołmogorowa Przypuścmy, że X 1, X 2,..., X N jest próba prostą z nieznanego rozkładu. Rozważmy hipotezę H 0 : zmienne maja rozkład o dystrybuancie F, przeciw alternatywie H 1 : zmienne mają inny rozkład o dystrybuancie G F. Jak przetestować tę hipotezę? Niech zmienne będą miały rozkład G i niech G N będzie odpowiednią dystrybuantą empiryczną. Określamy statystykę D N = sup x IR 1 G N (x) F (x). Jeżeli G = F, to statystyka powinna przyjmować małe wartości; jeżeli G F, to wartości powinny być znacząco większe. Określamy więc zbiór krytyczny dla poziomu istotności α wzorem gdzie P F (K DN,α) α. K DN,α = {D N > D N (α)}, Problem: P F (K DN,α) zależy od F! Jak obliczyć to prawdopodobieństwo dla każdego F? Na szczęście w obszernej klasie rozkładów P F (K DN,α) nie zależy od F! Jeżeli f jest funkcją niemalejącą, to dla dowolnej zmiennej losowej X i t IR 1 {f(x) < f(t)} {X t} {f(x) f(t)}.

65 Test zgodności Kołmogorowa 61 Niech F będzie dystrybuantą zmiennej losowej X. Jeśli F jest ciągła, to F (X) U(0, 1). Niech X 1, X 2,..., X N będzie próbką prostą z F. Jeżeli F jest ciągła, to F (X 1 ), F (X 2 ),... jest próbką prostą z rozkładu U(0, 1).

66 Testowanie hipotez - przykłady Porównywanie średnich Przypomnijmy, że rozkładem t-studenta o k stopniach swobody nazywamy rozkład

67 Test χ 2 Pearsona 63 zmiennej losowej T = Z 0 Z Z Z2 k gdzie Z 0, Z 1,... Z k są niezależne o rozkładzie N (0, 1). Test χ 2 Pearsona Niech niezależne zmienne losowe X 1, X 2,..., X N przyjmują wartości a i z prawdopodobieństwem p i > 0, p p k = 1. k, Określamy: N ν i = 1I {{Xj =a i }}. j=1 Jeśli n 1 + n n k = N i spełnione są pewne inne założenia, to P (ν 1 = n 1, ν 2 = n 2,..., ν k = n k ) = (rozkład wielomianowy). N! n 1!n 2!... n k! pn 1 1 pn pn k k. Przypomnijmy, że rozkład χ 2 z k-stopniami swobody to rozkład zmiennej losowej χ 2 k X X X 2 k,

68 Testowanie hipotez - przykłady gdzie X 1, X 2,..., X k są niezależne o rozkładzie N (0, 1). Rozkład χ 2 k Gamma(k/2, 1/2). jest rozkładem

69 11. Metoda najmniejszych kwadratów i regresja liniowa Model liniowy i regresja liniowa 65

70 Metoda najmniejszych kwadratów i regresja liniowa Metoda najmniejszych kwadratów

71 Twierdzenie Gaussa-Markowa 67 Twierdzenie Gaussa-Markowa

72 Metoda najmniejszych kwadratów i regresja liniowa

73 12. Redukcja wymiaru danych Procedura standaryzacji danych 12.1 Definicja (Standaryzacja zmiennej losowej) Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X). Uwaga: EZ = 0, Var (Z) = 1. Uwaga: Jeżeli X = (X1, X 2,..., X d ) T jest wektorem losowym o macierzy kowariancji Σ, to wektor standaryzowany (po współrzędnych) Z ma wartość oczekiwaną EZ = 0 i macierz kowariancji R = [r ij ] równą macierzy KORELACJI wektora X, tj. r ij = ρ ij = cov (X i, X j ). Var (X i )Var (X j ) Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja niektórych pól = ciąg wartości wektorów X n (rekordów), których składowe mierzone są na ogół w różnych jednostkach. Wartości poszczególnych pól (współrzędnych rekordów), nawet jeśli mają podobny charakter, mogą być mierzone w różnych jednostkach, co powoduje, że w analizie dominować mogą wielkości marginalne. Z tego powodu przed rozpoczęciem statystycznej analizy danych przeprowadza się standaryzację lub normalizację Definicja (Empiryczna standaryzacja ciągu wektorów losowych) Niech X n = (X n1, X n2,..., X nd ) T, n = 1, 2,..., N będzie ciągiem wektorów losowych. Niech X j = 1 N Nn=1 N (X nj X nj, S j = X j ) 2. N 1 n=1 Standaryzacją ciągu { X n } nazywamy ciąg wektorów losowych Z n o składowych Z nj = (X nj X j ) S j. 69

74 Redukcja wymiaru danych

75 Analiza składowych głównych 71 Analiza składowych głównych Uwaga: Innymi słowy, w analizie składowych głównych (PCA) szukamy:

76 Redukcja wymiaru danych k możliwie małego (w stosunku do d), które spełnia warunek λ i /d + λ 2 /d λ k /d > α, i dla którego odpowiednie kombinacje liniowe zmiennych wyjściowych posiadają sensowną interpretację. Analiza czynnikowa W szczególności: Σ = E( X E X)( X E X) T = E(L F + ε)(l F + ε) T = E(L F F T L T ) + E(L F ε T ) + E( ε F T L T ) + E( ε ε T ) = LL T + Λ ε. Rozwiązanie powyższego równania oraz poszukiwanie czynników F przeprowadza się numerycznie. Uwagi: Niech ( F, L) będzie rozwiązaniem dla modelu analizy czynnikowej. Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas (B F, LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa analiza i wybór odpowiedniej rotacji czynników.

77 Analiza czynnikowa 73 Analiza czynnikowa, mimo bogatej literatury i mnogości algorytmów pozostaje zawsze narzędziem bardzo kontrowersyjnym.

78 Redukcja wymiaru danych

79 Literatura Literatura podstawowa 1. W. Niemiro Rachunek prawdopodobieństwa i statystyka matematyczna, Szkoła Nauk Ścisłych, Warszawa D.T. Larose Metody i modele eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa Literatura uzupełniająca 1. J. Jakubowski i R. Sztencel Wstęp do teorii prawdopodobieństwa, Script, Warszawa 2000, 2001, D.T. Larose Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa R. Zieliński Siedem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa