Klasyfikacja i dyskryminacja

Wielkość: px
Rozpocząć pokaz od strony:

Download "Klasyfikacja i dyskryminacja"

Transkrypt

1 2018

2 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Wstęp Definicja klasyfikacji i dyskryminacji Dyskriminacja i klasyfikacja są wielowymiarowymi metodami zajmującymi się rozdzielaniem na zbiory obiektów(obserwacji) i przyporządkowywaniem nowych obiektów(obserwacji) do wcześniej zdefiniowanych zbiorów. Dyskryminacja Dyskryminacja jest procedurą rozpoznawczą, służącą do zbadania zaobserwowanych różnic w obiektach, kiedy prawdziwe zależności nie są jeszcze do końca znane. Klasyfikacja Klasyfikacja jest natomiast procedurą tworzącą zdefiniowane reguły za pomocą których można przydzielać obiekty do zbiorów. P. Kowalik, D. Jóźwicki

3 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Cele dyskryminacji Opisanie graficzne (w przypadku 3 lub mniej wymiarowym) bądź algebraiczne, cech różniących poszczególne obiekty z kilku znanych zbiorów. Cele klasyfikacji Przydzielenie obiektów do kilku określonych klas oraz uzyskanie dzięki temu reguły, które pozwoli optymalnie przypisywać nowe obiekty do poszczególnych klas. P. Kowalik, D. Jóźwicki

4 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Dyskryminacja i klasyfikacja dla dwóch populacji Aby pokazać jak działają te metody, omówimy sytuację, w której chcemy rozdzielić zbiór na dwie klasy obiektów albo przyporządować nowy obiekt do jednej z dwóch klas (lub obydwu). Oznaczymy klasy jako π 1 i π 2. Pierwotnie obiekty (obserwacje) są zwykle rozdzielane lub klasyfikowane na podstawie pomiarów, np. na podstawie p zmiennych losowych, powiązanych ze sobą X = [X1, X2,..., Xp]. Zaobserwowane wartości X różnią się w pewnym stopniu między klasami. Wszystkie wartości pochodzące z pierwszej klasy możemy traktować jako populację π 1 o wartościach x, a dla tych pochodzących z klasy drugiej, jako populację pi 2 o wartościach x P. Kowalik, D. Jóźwicki

5 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Te dwie populacje mogą być opisane przez funkcje gęstości f 1 (x) oraz f 2 (x), a tym samym, możemy mówić o przypisywaniu obserwacji do populacji (albo równoważnie obiektów do klas). P. Kowalik, D. Jóźwicki

6 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Analizując przykład 7, zauważamy, że obiekt (klienci banku starający się o kredyt) został rozdzielony na dwie klasy (pozytywne ryzyko kredytowe i negatywne ryzyko kredytowe) na podstawie cech (dochody, wiek, ilość kart kredytowych, wielkość rodziny). Używając terminologii obserwacji i populacji, chcieliśmy podzielić obserwacje postaci: x 0 = [x 1 (dochody), x 2 (wiek), x 3 (ilość kart kredytowych), x 4 (wielkość rodziny)] na π 1 (pozytywne ryzyko kredytowe) i populację π 2 (negatywne ryzyko kredytowe). P. Kowalik, D. Jóźwicki

7 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Zazwyczaj zbiór wszystkich wyników dzieli się na dwa regiony R 1 i R 2, takie że, jeżeli nowa obserwacja wpadnie do R 1 to jest przypisywana do populacji π 1, a jeżeli do R 2 to jest przypisywana do populacji π 2. P. Kowalik, D. Jóźwicki

8 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Problemy w klasyfikacji Klasyfikacja stwarza kilka komplikacji, jako że aby ją wykonać musza być spełnione pewne warunki: Niepewność w prawidłowości przyszłych wyników Sytuacja w której, ktoś chciałby ocenić jaką szansę mają dani studenci na zostanie architektami, po egzaminach wstępnych na kierunek, podczas gdy na studiach sytuacja, może ulec wielkiej zmianie Całkowicie pewna informacja sprawia, że obiekt jej dotyczący ulega zniszczeniu Bateria w kalkulatorze, o której wiemy kiedy się zużyje dopiero, gdy dojdzie do faktu, czyli kalkulator będzie niezdatny do użytku, lub klocek drewna, który wiemy po ilu ciosach siekierą da się przeciąć, dopiero gdy to zrobimy P. Kowalik, D. Jóźwicki

9 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Niedostępne lub drogie informacje Zakłada się, ze niektóre artykuły i eseje z tzw. Federalist Papers zostały napisane przez Jamesa Madisona i Alexandra Hamiltona, ponieważ podpisali je. Jednakże niektóre artykuły i eseje były niepodpisane. Przedmiotem zainteresowania jest, który z dwóch autorów napisał niepodpisane dokumenty. Oczywiście, nie możemy ich zapytać. Częstotliwość słów i długości zdań mogą pomóc klasyfikować sporne dokumenty. Uwaga Zasady klasyfikacji nie mogą zazwyczaj zapewnić bezbłędnej metody przydziału. Wynika to z tego, że nie może być wyraźnych różnic między mierzonymi cechami populacji, to znaczy, że grupy mogą się pokrywać. Jest więc możliwe, na przykład, nieprawidłowe klasyfikowanie obiektu z π 2 jako należące do π 1 lub obiektu z π 1 jako należące do π 2. P. Kowalik, D. Jóźwicki

10 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Przykład - kosiarki Rozpatrzymy dwie grupy mieszkanców pewnego miasta. Jedną z tych grup są mieszkańcy posiadający kosiarki, a drugą mieszkańcy, którzy nie posiadają kosiarek. Aby wyznaczyć perspektywy sprzedaży, firma produkująca kosiarki jest zainteresowana podziałem mieszkańcow na potencjalnych klientów oraz tych, którzy nie będą zainteresowani zakupem. W tym celu weźmiemy pod uwage dwie zmienne: x1 -przychód x2 -wielkość działki. Próba losowa zawiera 12 obserwacji dla pierwszej populacji oraz 12 dla drugiej. Dane zostały przedstawione w tabeli oraz na wykresie. P. Kowalik, D. Jóźwicki

11 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji P. Kowalik, D. Jóźwicki

12 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Tak więc próbkowa funkcja klasyfikacji podzieliła obserwacje na następujące regiony: Uwaga Procedura klasyfikacji powinna spowodować dosłownie kilka błędnych klasyfikacji (prawdopodobieństwo błędnej klasyfikacji powinno być małe.) P. Kowalik, D. Jóźwicki

13 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Miara oceny skuteczności próbkowej funkcji klasyfikacyjnej Macierz pomyłek Dla n 1 obserwacji z π 1 oraz n 2 z π 2, macierz pomyłek ma postać: gdzie: n 1C, n 2C - liczba obserwacji poprawnie sklasyfikowanych odpowiednio z populacji π 1 i π 2 n 1M, n 2M - liczba obserwacji niepoprawnie sklasyfikowanych odpowiednio z populacji π 1 i π 2 P. Kowalik, D. Jóźwicki

14 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Wskaźnik błędów pozornych - APER (Apparent Error Rate) APER zdefiniowany jest jako procent obserwacji z próbki uczącej, które są błędnie sklasyfikowane przez próbkową funkcję klasyfikującą i może być policzony z macierzy pomyłek: AP ER = n 1M +n 2M n 1 +n 2 APER nie zależy od postaci populacji jest możliwy do obliczenia dla wszystkich procedur klasyfikacyjnych P. Kowalik, D. Jóźwicki

15 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Miara oceny skuteczności próbkowej funkcji klasyfikacyjnej Macierz pomyłek - przykład Kosiarki Dla przykładu z kosiarkami, macierz pomyłek ma postać: APER AP ER = n 1M +n 2M n 1 +n 2 100% = % = 16, 7% P. Kowalik, D. Jóźwicki

16 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Optymalna reguła klasyfikacji Optymalna reguła klasyfikacji powinna posiadać następujące cechy: bierze pod uwagę prawdopodobieństwa a priori uwzględnia (w miarę możliwości) koszty związane z błędną klasyfikacją P. Kowalik, D. Jóźwicki

17 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Prawdopodobieństwo Niech: f 1 (x), f 2 (x) funkcje gęstości prawdopodobieństwa związane z wektorem px1 zmiennej losowe X dla populacji, odpowiednio: π 1, π 2. ω przestrzeń próby czyli zbiór wszystkich możliwych obserwacji x R 1 zbiór wartości x dla których klasyfikujemy obiekty jako populacje π 1 R 2 = ωr 1 zbiór wartości x, da których klasyfikujemy obiekty jako π 2. Każdy obiekt musi być przypisany jednej i tylko jednej z dwóch populacji. Zbiory R 1 i R 2 wykluczają się wzajemnie i wyczerpują. P. Kowalik, D. Jóźwicki

18 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Prawdopodobieństwo warunkowe P (2 1), czyli klasyfikacji obiektu jako π 2, kiedy w rzeczywistości należy do π1 dane jest wzorem: P (2 1) = P (X R 2 π 1 ) = f 1 (x)dx R+2=ω R 1 podobnie definiujemy prawdopodobieństwo warunkowe P (1 2), czyli klasyfikacje obiektu jako π 1 kiedy w rzeczywistości pochodzi z π 2 : P (1 2) = P (X R 1 π 2 ) = f 2 (x)dx R 1 P. Kowalik, D. Jóźwicki

19 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Znak całki we wzorach oznacza objętość utworzoną przez funkcję gęstości f 1 (x) na regionie R 2 oraz objętość utworzoną przez funkcję gęstości f 2 (x), na regionie R 1. Ilustruje to wykres poniżej (dla p = 1). P. Kowalik, D. Jóźwicki

20 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Nasze p 1 to będzie prawdopodobieństwo a priori dla π 2 oraz p 2 będzie prawdopodobieństwem a priori dla π 1, gdzie p 1 + p 2 = 1. Następnie całkowite prawdopodobieństwa poprawnie lub niepoprawnie klasyfikowanych obiektów można uzyskać jako produkt wcześniejszych i warunkowych prawdopodobieństw klasyfikacyjnych: P(obserwacja pochodzi z π 1, i jest poprawnie sklasyfikowana jako π 1 ) == P (X R 1 π 1 )P (π 1 ) = P (1 1)p 1 P(obserwacja pochodzi z π 2, i jest poprawnie sklasyfikowana jako π 2 ) == P (X R 2 π 2 )P (π 2 ) = P (2 2)p 2 P(obserwacja pochodzi z π 2, i jest błędnie sklasyfikowana jako π 1 ) == P (X R 1 π 2 )P (π 2 ) = P (1 2)p 2 P(obserwacja pochodzi z π 1, i jest błędnie sklasyfikowana jako π 2 ) == P (X R 2 π 1 )P (π 1 ) = P (2 1)p 1 P. Kowalik, D. Jóźwicki

21 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Koszt błędnej klasyfikacji Koszt błędnej klasyfikacji może być zdefiniowany przez macierz kosztów : Analiza macierzy koszty wynoszą 0 dla poprawnej klasyfikacji koszt wynosi c(1 2), gdy obserwacja z π 2 jest niepoprawnie sklasyfikowana jako π 1 koszt wynosi c(2 1), gdy obserwacja z π 1 jest niepoprawnie sklasyfikowana jako π 2 P. Kowalik, D. Jóźwicki

22 Oczekiwany koszty błędnej klasyfikacji (ECM) jest wyznaczony poprzez pomnożenie anty-diagonalnych wyrazów (z macierzy kosztów ) przez ich prawdopodobieństwa klasyfikacyjne. W konsekwencji otrzymujemy: ECM = c(2 1)P (2 1)p 1 + c(1 2)P (1 2)p 2 Regiony R 1 i R 2, które minimalizują ECM są zdefiniowane przez następujące nierówności: R 1 : f 1(x) f 2 (x) c(1 2) c(2 1) (współczynnik gęstości) (współczynnik kosztu)(współczynnik prawdop. a priori) R 2 : f 1(x) f 2 (x) < c(1 2) c(2 1) p 2 p 1 p 2 p 1 D. Jóźwicki, P. Kowalik

23 Wyznaczenie regionów R 1 oraz R 2 dla szczególnych przypadków: p 2 p 1 = 1 (prawdopodobieństwa a priori są równe) R 1 : f 1(x) c(1 2) f 2 (x) c(2 1) R 2 : f 1(x) f 2 (x) < c(1 2) c(2 1) c(1 2) c(2 1) = 1 (koszty błędnych klasyfikacji są równe) R 1 : f 1(x) f 2 c(1 2) c(2 1) = p 2 p 1 = 1 c(1 2) c(2 1) R 2 : f 1(x) f 2 (x) < p 2 p 1 R 1 : f 1(x) f 2 (x) 1 R 2 : f 1(x) f 2 (x) < 1 D. Jóźwicki, P. Kowalik

24 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Klasyfikowanie nowego obiektu do jednej z dwóch populacji Załóżmy również, że dla nowej obserwacji x0 funkcje gęstości P. Kowalik, D. Jóźwicki Przykład Załóżmy, że badacz ma wystarczająco dużo danych, aby oszacować funkcję gęstości f 1 (x) i f 2 (x) związanych odpowiednio z populacjami π 1 i π 2. Załóżmy, ze c(2 1) = 5 i c(1 2) = 10. Ponadto, wiadomo, że ok. 20% obiektów z całej populacji (dla których pomiary x były odnotowane) należy do π 2. A zatem, nasze prawdopodobieństwa a priori wynoszą odpowiednio: p 1 = 0.8 i p 2 = 0.2. Znając prawdopodobieństwa a priori i koszty błędnej klasyfikacji, możemy wyznaczyć regiony klasyfikacji R 1 i R 2. R 1 : f 1(x) f 2 (x) = 0.5 R 2 : f 1(x) f 2 (x) < = 0.5

25 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Pytanie: Czy sklasyfikowałbyś nową obserwację x 0 do populacji π 1, czy do populacji π 1? Odpowiedź Wyliczamy współczynnik gęstości f 1 (x) f 2 (x) = = 0.75 i porównujemy to z wynikami otrzymanymi wcześniej, czyli: f 1 (x) f 2 (x) = c(1 2) p 2 = 0.75 > = 0.5 c(2 1) p 1 Wniosek: Otrzymujemy, że x 0 R 1 i klasyfikujemy nową obserwację x 0 do populacji π 1. P. Kowalik, D. Jóźwicki

26 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Całkowite prawdopodobieństwo błędnej klasyfikacji - TPM Rozważmy inne kryterium uzyskania optymalnej reguły klasyfikacji, niż oczekiwany koszt błędnej klasyfikacji (ECM). Ignorując koszty błędnej klasyfikacji i wybierając regiony R 1 i R 2, tak aby zminimalizować, tzw. całkowite prawdopodobieństwo błędnej klasyfikacji (TPM Total Probability of Misclassification), otrzymamy wzór: Uwaga T P M = P (obs. z π 1, błędnie sklasyfikowana) + + P (obs. z π 2, błędnie sklasyfikowana) = = p 1 f 1 (x)dx + p 2 f 2 (x)dx R 2 R 1 Matematycznie problem ten jest równoważny minimalizacji oczekiwanego kosztu błędnej klasyfikacji (ECM) kiedy koszty błędnej klasyfikacji są równe. W związku z tym, optymalne P. Kowalik, D. Jóźwicki

27 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Ocena funkcji klasyfikacyjnych Jednym z ważniejszych sposobów oceny metod klasyfikacyjnych jest obliczenie ich wskaźnika błędów bądź prawdopodobieństwa błędnej klasyfikacji. Prawdopodobieństwo błędnej klasyfikacji jest proste do wyznaczenia, gdy postacie populacji macierzystych są całkowicie znane, jest to niestety rzadko spotykane, dlatego zazwyczaj większą wagą przywiązuje się do znalezienia wskaźnika błędów powiązanego z próbkową funkcją klasyfikującą. P. Kowalik, D. Jóźwicki

28 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Najmniejszą wartość całkowitego prawdopodobieństwa błędnej klasyfikacji (TPM), uzyskaną poprzez odpowiedni dobór obszarów R 1 oraz R 2 nazywamy najlepszym wskaźnikiem błędów (OER). Najlepszy wskaźnik błędów (OER Optimum Error Rate) OER = (minimum TPM) = p 1 R 2 f 1 (x)dx + p 2 R 1 f 2 (x)dx gdzie, jest on uzyskany poprzez odpowiedni dobór obszarów R 1 oraz R 2. Wskaźnik ten wskazuje jaki procent składników będzie niepoprawnie przydzielonych, po zastosowaniu najlepszej reguły klasyfikacji. P. Kowalik, D. Jóźwicki

29 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Przykład Jeśli mamy dwie populacje i znamy ich parametry to możemy policzyć OER, załóżmy, że wyniósł on: OER = (minimum TPM) = oznacza to, że najlepsza reguła klasyfikacji niepoprawnie przydzieli ok. 21% obserwacji. Wskaźnik ten jest łatwy do policzenia, gdy funkcje gęstości są znane. Jednak zwykle, niektóre parametry populacji muszą być oszacowane z próbki, wtedy ocena wskaźnika błędów nie jest już tak prosta. P. Kowalik, D. Jóźwicki

30 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Wskaźnikiem który nie zależy od postaci populacji jest wskaźnik błędów pozornych (APER), który był przedstawiony w przykładzie 1. Wskaźnik błędów pozornych (APER) jest dość łatwy do wyznaczenia, jednakże posiada także niestety swoje wady. Mianowicie ten sposób oceny funkcji klasyfikacyjnych posiada skłonność do niedoszacowywania innego wskaźnika, jakim jest tzw. wskaźnik błędów rzeczywistych (AER). Wadę tą możemy obejść dopiero biorąc bardzo duże wielkości próbek n 1 i n 2. Jednak, to optymistyczne szacowanie występuje, ponieważ dane, które służą do budowy funkcji klasyfikacyjnych również są stosowane do jej ocenienia. P. Kowalik, D. Jóźwicki

31 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Szacunki dotyczące wskaźników błędów mogą być lepiej skonstruowane niż wskaźnik błedów pozornych (APER) i dodatkowo mogą pozostać dość łatwe do obliczenia i nie wymagać założeń odnośnie rozkładu. Pierwszym ze sposobów jest rozdzielenie całej próbki na próbkę uczącą i próbką testową. Próbka ucząca służy do skonstruowania funkcji klasyfikacyjnej, próbka testowa służy do oceny jej wyników. Wskaźnik błędów jest określony jako udział błędnie sklasyfikowanych danych w próbce testowej. Pomimo, że ta metoda radzi sobie z problemem stronniczości, nie stosując tych samych danych do konstruowania i oceny funkcji klasyfikacyjnej, to posiada dwie zasadnicze wady: wymaga dużych próbek jeśli do konstrukcji funkcji klasyfikacyjnej nie zostaną użyte wszystkie dane, to ważne informacje mogą zostać utracone. P. Kowalik, D. Jóźwicki

32 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Metoda wydzielania Algorytm działania tzw. sprawdzania krzyżowego jest następujący: 1 Rozpocznij z grupą obserwacji z π 1. Pomiń jedną obserwację z tej grupy i opracuj funkcję klasyfikacyjną opartą na pozostałych n 1 1 oraz n 2 obserwacjach. 2 Sklasyfikuj wydzieloną obserwację, używając funkcji skonstruowanej w kroku 1. 3 Powtarzaj kroki 1 i 2 dla pozostałych obserwacji z π 1. (Niech n H 1M będzie liczbą tych obserwacji wydzielonych (ozn. H), które błędnie sklasyfikowano w tej grupie (π 1 ). 4 Powtarzaj kroki 1 do 3 dla obserwacji z π 2. (Niech n H będzie liczbą tych obserwacji wydzielonych, które błędnie sklasyfikowano w tej grupie π 2. P. Kowalik, D. Jóźwicki

33 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Drugie podejście, to tzw. metoda (algorytm) sprawdzania krzyżowego (metoda wydzielania Lachenbruch a), dzięki której możemy oszacować tzw. rzeczywisty wskaźnik błędów (AER). Skuteczność próbkowych funkcji klasyfikacyjnych zasadniczo może być poddana ocenie przez obliczenie rzeczywistego wskaźnika błędów (AER): Wskaźnik błędów rzeczywistych (AER Actual Error Rate) AER = p 1 f 1 (x)dx + p 2 f 2 (x)dx R 2 R 1 gdzie, R 1 oraz R 2 reprezentują obszary klasyfikacyjne wyznaczone odpowiednio przez próby o rozmiarach n 1 i n 2. Wskaźnik ten wskazuje jak próbkowa funkcja klasyfikacyjna będzie zmieniała się dla przyszłych próbek. P. Kowalik, D. Jóźwicki

34 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Wskaźnik błędów rzeczywistych Dzięki metodzie wydzielania możemy otrzymać estymator AER: Wartość oczekiwana wskaźnika błędów rzeczywistych (E(AER) Expected Actual Error Rate) Nieobciążony estymator wartości oczekiwanej wskaźnika błędów rzeczywistych (AER), wynosi: Ê(AER) = Ĥ1M + n H 2M n 1 + n 2 Aby można było ten wskaźnik policzyć, metoda ta musi występować gdy wykorzystywana jest liniowa funkcja klasyfikacyjna. P. Kowalik, D. Jóźwicki

35 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Przykład Załóżmy, że n 1 = n 2 = 3, dwuwymiarowe obserwacje zostały wybrane losowo z dwóch populacji π 1 oraz π 2 o wspólnej macierzy kowariancji. x 1 = x 1 = [ ] x 2 = 4 7 [ 3 10 S 1 = S 2 = ] x 2 = [ Zilustrujemy procedurę wydzielania oraz wyznaczymy wskaźnik błędów dla równych kosztów i prawdopodobieństw a priori. ] P. Kowalik, D. Jóźwicki

36 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Procedura Wydzielania Wydzielamy pierwszą obserwację: x H = [ 2 12 ] Następnie liczymy statystyki dla macierzy bez tej obserwacji: X 1H = [ ] [ x 1H = 3, 5 9 ] S 1H = [ 0, ] P. Kowalik, D. Jóźwicki

37 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Nowa połączona macierz kowariancji: S H,pooled = 1 3 (S 1H + 2S 2 ) = 1 3 [ 2, ] Macierz do niej odwrotna jest postaci: 1 8 S 1 H,pooled = [ , 5 ] Zadaniem jest przydzielenie wydzielonej obserwacji x H do populacji π1 albo π2. P. Kowalik, D. Jóźwicki

38 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Procedura wydzielania Wydzieloną obserwację x H najłatwiej sklasyfikować na podstawie jej kwadratu odległości od średniej grup x 1H oraz x 2 kwadrat odległości od x 1H : (x H x 1H S 1 H,pooled (x H x 1H ) = [ 1, 5 3 ] 1 8 [ , 5 ] [ 1, 5 3 ] = 4, 5 kwadrat odległości od x 2 : (x H x 2H ) S 1 H,pooled (x H x 2H ) = [ 2 5 ] 1 8 [ , 5 ] [ 2 5 ] = 10, 3 P. Kowalik, D. Jóźwicki

39 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Zauważmy, że odległość od x 1H jest mniejsza niż odległość od x 2, zatem klasyfikujemy x H jako obserwację z populacji π 1. Tak więc w tym przypadku klasyfikacja jest poprawna. P. Kowalik, D. Jóźwicki

40 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Analogicznie przeprowadzamy procedurę dla 2 i 3 obserwacji z populacji π 1. Dla obserwacji x H = [ 4 10 ] oraz dla x H = [ 3 8 ] procedura prowadzi do niepoprawnego przydzielenia tych obserwacji do populacji π 2. Zatem n H 1M = 2 Podobnie robimy dla drugiej grupy, w tej grupie tylko dla obserwacji drugiej x H = [ 3 9 ] procedura prowadzi do niepoprawnego przydzielenia tej obserwacji do populacji π 1. P. Kowalik, D. Jóźwicki

41 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Klasyfikacja dla dwóch populacji o rozkładzie normalnym Procedury klasyfikacji oparte na populacjach o rozkładzie normalnym przeważają w praktyce statystycznej z uwagi na swoją prostotę oraz efektywnosc w różnych modelach. Zakładamy, że funkcje f 1 (x) i f 2 (x) są wielowymiarowymi funkcjami gęstosci z rozkładu normalnego z wektorach srednich i macierzy kowariancji odpowiednio: µ 1, Σ 1 oraz µ 2, Σ 2. Gęstosć Zakładamy, że gęstosć łączna X = [X 1, X 2,..., X p ] dla populacji π 1 i π 2 jest dana wzorem [ 1 f i (x) = (2π) p/2 exp 1 ] Σ 1/2 2 (x µ i) Σ 1 i (x µ i ) dla i = 1, Piotr 2. Kowalik, Dominik Jóźwicki

42 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Klasyfikacja normalych populacji gdy Σ 1 = Σ 2 = Σ Założmy, że µ 1, µ 2, Σ są znane. Wtedy po skróceniu wyrażeń (2π) p/2 Σ 1/2 otrzymujemy minimalne regiony klasyfikacji (ECM): [ R 1 : exp 1 2 (x µ 1) Σ 1 (x µ 1 ) + 1 ] 2 (x µ 2) Σ 1 (x µ 2 ) ( ) ( ) c(1 2) p2 c(2 1) p 1 R 2 : [ exp 1 2 (x µ 1) Σ 1 (x µ 1 ) + 1 ] 2 (x µ 2) Σ 1 (x µ 2 ) < ( c(1 2) c(2 1) ) ( p2 p 1 ).

43 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Pozwala to na skonstruowanie następującej reguły klasyfikacji minimalizującej ECM. Reguła klasyfikacji dla rozkładu normalnego Przypisujemy x 0 do π 1, jesli (µ 1 µ 2 ) Σ 1 x (µ 1 µ 2 ) Σ 1 (µ 1 + µ 2 ) [( ) ( )] c(1 2) p2 ln. c(2 1) W przeciwnym przypadku przypisujemy x 0 do π 2. p 1

44 Próbka Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 W większosci sytuacji parametry populacji µ 1, µ 2 i Σ są nieznane, więc powyższą regułę należy zmodyfikować. Dokonano tego poprzez zastąpienie parametrów populacji przez odpowiedniki próbkowe. Załóżmy, że mamy n 1 obserwacji wielowymiarowej zmiennej losowej X = [X 1, X 2,..., X p ] z π 1 oraz n 2 obserwacji z π 2, gdzie n 1 + n 2 2 p. Z obserwacji otrzymujemy następujące macierze: X 1 = (n 1 p) x 11 x 12., X 2 = (n 2 p) x 21 x 22.. x 1n 1 x 2n 2

45 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Próbkowe wektory srednich oraz macierze kowariancji są okreslone następująco: x 1 p 1 x 2 p 1 = 1 n 1 n 1 j=1 = 1 n 2 n 2 j=1 x 1j, S 1 = 1 p p n 1 1 x 2j, S 2 = 1 p p n 2 1 n 1 (x 1j x 1 )(x 1j x 1 ) j=1 n 2 (x 2j x 2 )(x 2j x 2 ) j=1 Następnie łącząc S 1 i S 1 otrzymujemy nieobciążony estymator nieznanej macierzy kowariancji Σ Nieobciążony estymator macierzy kowariancji [ S pooled = n 1 1 (n 1 1) + (n 2 1) ] [ S 1 + n 2 1 (n 1 1) + (n 2 1) ] S 2.

46 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Biorąc x 1 za µ 1, x 2 za µ 2 oraz S pooled za Σ otrzymujemy następującą próbkową regułę klasyfikacji. Reguła klasyfikacji dla próbki Przypisujemy x 0 do π 1, jesli (x 1 x 2 ) Spooled 1 x (x 1 + x 2 ) Spooled 1 (x 1 + x 2 ) [( ) ( )] c(1 2) p2 ln. c(2 1) p 1 W przeciwnym przypadku przypisujemy x 0 do π 2.

47 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 ( ) ( ) c(1 2) p2 Jeżeli = 1, to ln(1) = 0 i estymacyjna reguła c(2 1) p 1 minimalizacji ECM dla dwóch normalnych populacji sprowadza się do porównania zmiennej skalarnej: oszacowanej w x 0, z liczbą ŷ = (x 1 x 2 ) S 1 pooled x = â x ˆm = 1 2 (x 1 x 2 ) S 1 pooled (x 1 + x 2 ) = 1 2 (ŷ 1 + ŷ 2 ), gdzie ŷ 1 = (x 1 x 2 ) S 1 pooled x 1 = â x 1, ŷ 2 = (x 1 x 2 ) S 1 pooled x 2 = â x 2.

48 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Oznacza to, ze estymacyjna metoda minimalizacji ECM dla dwóch normalnych populacji jest równoznaczna z tworzeniem dwóch jednowymiarowych populacji dla wartosci y poprzez wziecie odpowiedniej kombinacji liniowej obserwacji pochodzacych z populacji π 1 i π 2 a nastepnie przypisaniu nowej obserwacji x 0 : do populacji π 1, jesli ŷ 0 = â x 0 ˆm (punkt srodkowy miedzy dwoma jednowymiarowymi srednimi y 1, y 2, do populacji π 2, jesli ŷ 0 = â x 0 < ˆm.

49 Przykład 1 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Bankructwo Dane opisują firmy, które zbankrutowały (0:populacja π 1 ) w przybliżeniu 2 lata przed bankructwem oraz firmy stabilne finansowo (1:populacja π 2 ) mniej więcej w tym samym okresie czasu. Zbiór zawiera 4 zmienne: x1 = (przepływy pięniężne)/(całkowite zadłużenie), x2 =(dochód netto)/(aktywa ogółem), x3 =(aktywa obrotowe)/(zobowiązania krótkoterminowe), x4 = (aktywa obrotowe)/(sprzedaż netto).

50 Wykres (x1, x2) Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2

51 Wykres (x1, x3) Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2

52 Wykres (x1, x4) Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2

53 Rezultaty SAS Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Wektory srednich, macierz odwrotna do S pooled. Załóżmy, że mamy obserwację x 0 = (0.17, 0.04, 2.45, 0.14) dotyczącą jakiejs nowej, innej firmy. Dzięki klasyfikacji możemy próbować Piotr przewidywać Kowalik, Dominikjej Jóźwicki przyszły Klasyfikacja los. i dyskryminacja

54 Rezultaty SAS Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Obserwacja x 0 = (0.17, 0.04, 2.45, 0.14) została przypisana do ( populacji ) ( π 2 na ) podstawie reguły klasyfikacji dla próbki, gdy c(1 2) p2 = 1, czyli firma której dotyczy ta obserwacja c(2 1) p 1 prawodopodobnie Piotr Kowalik, nie Dominik zbankrutuje. Jóźwicki

55 Przykład 2 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Hemofilia Przykład jest związany z wykrywaniem nosicieli hemofilii typu A. Do stworzenia procedury wykrywania potencjalnych nosicieli, próbki krwi pobrano od dwóch grup kobiet i zmierzono następujące dwie zmienne: X1 = log 1 0(AHF activity), X2 = log 1 0(AHF likeantigen), AHF - czynnik przeciwhemofilowy. Pierwsza grupa o licznosci n 1 = 30 kobiet została wybrana z populacji kobiet, które nie są nosicielkami genu hemofilii typu A (populacja π 1 ). Grupę tę będziemy nazywać normalni. Druga grupa licznosci n 2 = 22 kobiet została wybrana z populacji kobiet z rozpoznaną hemofilią typu A (populacja π 2 ). Tę grupę będziemy nazywać nosiciele. Sprawdzimy jak zaklasyfikwana zostanie nowa osoba x 0 = ( 0.21, 0.044).

56 Wykres Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2

57 Rezultaty SAS Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Czyli obserwacja Piotr Kowalik, xdominik 0 = ( 0.21, Jóźwicki 0.044) Klasyfikacja dotyczy i dyskryminacja prawodpodobnie

58 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Klasyfikacja normalych populacji gdy Σ 1 Σ 2 W przypadku kiedy macierze kowariancji nie są równe, reguły klasyfikacji okazują się bardziej skomplikowane. Rozważmy wielowymiarowe gęstosci normalne z σ i, i = 1, 2. Wtedy macierze kowariancji tak samo jak wektory wartosci oczekiwanych są różne dla każdej z dwóch populacji. Tak jak zauważylismy wczesniej, obszary minimum ECM oraz minimum całkowitego prawodpodobienstwa błędnej klasyfikacji TPM zależą od stosunku dwóch gęstosci f 1 (x)/f 2 (x) lub równoważnie logarytmu naturalnego ln[f 1 (x)/f 2 (x)] = ln[f 1 (x)] ln[f 2 (x)]. Jesli gęstosci wielowymiarowego rozkładu normalnego mają różne struktury kowariancji, to odpowiednie składniki w rozważanym stosunku gęstosci zawierające Σ i 1/2 nie skracają się tak jak ma to miejsce, gdy Σ 1 = Σ 2.

59 Regiony klasyfikacji Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Zastępując gęstosci wielowymiarowego rozkładu normalnego macierzami kowariancji w R 1 : R 2 : ( f 1 (x) c(1 2) f 2 (x) c(2 1) ( f 1 (x) c(1 2) f 2 (x) < c(2 1) ) ( p2 p 1 ) ( p2 p 1 ), ), po zlogarytmowaniu i uproszczeniu otrzymujemy regiony klasyfikacji:

60 Regiony klasyfikacji Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 R 1 : 1 2 x (Σ 1 1 Σ 1 2 )x + (µ 1Σ 1 1 µ 2Σ 1 2 )x k [( ) ( )] c(1 2) p2 ln c(2 1) p 1 R 2 : 1 2 x (Σ 1 1 Σ 1 2 )x + (µ 1Σ 1 1 µ 2Σ 1 2 )x k [( ) ( )] c(1 2) p2 < ln, c(2 1) p 1 gdzie k = 1 ( ) 2 ln Σ1 + 1 Σ 2 2 (µ 1Σ 1 1 µ 1 µ 2Σ 1 2 µ 2).

61 Reguła klasyfikacji Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Niech populacje π 1, π 2 beda opisane wielowymiarowymi gestosciami normalnymi z wektorami wartosci oczekiwanych i macierzami kowariancji odpowiednio µ 1, Σ 1 oraz µ 2, Σ 2 Regula klasyfikacji, która minimalizuje oczekiwane koszty blednej klasyfikacji podana jest wzorem: Reguła klasyfikacji dla Σ 1 Σ 2 Przypisujemy x 0 do π 1, jesli 1 2 x 0 (Σ 1 1 Σ 1 2 )x 0 + x 0 (µ 1Σ 1 1 (µ 2Σ 1 2 ) k [( ) ( )] c(1 2) p2 ln. c(2 1) p 1 W przeciwnym przypadku przypisujemy x 0 do π 2.

62 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Regula kwadratowej klasyfikacji (Σ 1 Σ 2 ) W praktyce powyższa reguła jest stosowana poprzez zastąpienie µ 1, µ 2, Σ 1, Σ 2 przez odpowiedniki próbkowe x 1,x 2, S 1, S 2 : Regula kwadratowej klasyfikacji Przypisujemy x 0 do π 1, jesli 1 2 x 0 (S1 1 S2 1 )x 0 + x 0 (x 1S1 1 x 2S2 1 ) k [( ) ( )] c(1 2) p2 ln. c(2 1) p 1 W przeciwnym przypadku przypisujemy x 0 do π 2.

63 Σ 1 = Σ 2 = Σ Przykłady w SAS Σ 1 Σ 2 Klasyfikacja przy użyciu funkcji kwadratowych jest raczej niefortunnym wyborem w przypadku ilosci wymiarów wiekszej niz dwa i może ona prowadzic do nieco niezwykłych rezultatów. W szczególnosci jest to prawdziwe, gdy dane nie pochodza (zasadniczo) z wielowymiarowego rozkladu normalnego. Dzieje się, tak dlatego, że poważną slaboscią reguły kwadratowej jest fakt, ze jest ona wrazliwa na odstąpienia od normalnosci.

64 Klasyfikacja dla dwóch populacji według Fishera Podejscie Fishera opiera się na przekształceniu wielowymiarowych obserwacji x do jednowymiarowych obserwacji y w taki sposób, żeby obserwacje pochodzące z populacji π 1 i π 2 były rodzielone najbardziej jak to możliwe. W tym celu zasugerowano wzięcie liniowych kombinacji x w celu utworzenia y. Metoda Fishera nie zakłada normalnosci populacji. Jednak zakłada równosć macierzy kowariancji Σ 1 = Σ 2.

65 Kombinacja liniowa x bierze wartosci y 11, y 12,... y n1 za obserwacje z pierwszej populacji oraz wartosci y 21, y 22,..., y n2 za obserwacje z drugiej populacji. Separacja tych dwóch zbiorów jednowymiarowych y-ków jest oszacowana poprzez różnice między y 1, y 2 i wyrażona w standardowych jednostach odchylenia, czyli separacja = y n1 1 y 2, gdzie s 2 j=1 y = (y 1j y 1 ) 2 + n 2 j=1 (y 2j y 2 ) 2, s y n 1 + n 2 2 jest łącznym estymatorem wariancji. Celem jest wybór takiej kombinacji liniowej x, dla której osiągana jest maksymalna separacja srednich próbkowych y 1, y 2.

66 Maksymalizacja separacji Kombinacja liniowa ŷ = â x = (x 1 x 2 ) S 1 pooled maksymalizuje stosunek (y 1 y 2 ) 2 s 2 y = (â x 1 â x 2 ) 2 â S 1 pooledâ = (â d) 2 â S 1 pooledâ po wszystkich wektorach współczynników â, gdzie d = (x 1 x 2 ). Maksymalna wartosć tego stosunku to D 2 = (x 1 x 2 ) S 1 pooled (x 1 x 2 ).

67 Reguła klasyfikacji Podejscie Fishera może być także użyte do klasyfikowania nowych obserwacji. Reguła klasyfikacji oparta na wyróżniku Fishera Przypisujemy x 0 do π 1, jesli ŷ 0 = (x 1 x 2 ) S 1 pooled x 0 ˆm = 1 2 (x 1 x 2 ) S 1 pooled (x 1 + x 2 ). W przeciwnym przypadku przypisujemy x 0 do π 2.

68

69 Przykład 1 Przykład w SAS W teorii uogólnienie klasyfikacji do g 2 populacji jest całkiem proste. Jednakże niewiele wiadomo o własnosciach próbkowych funkcji klasyfikacyjnych, a zwłaszcza ich wskaźniki błędów nie są do końca poznane. Odpornosć statystyk liniowej klasyfikacji dla dwóch populacji, na przykład na nierówne kowariancje lub nienormalnosć rozkładu, może być zbadana za pomocą eksperymentów przeprowadzonych z komputerowymi generatorami próbek. Dla więcej niż dwóch populacji to podejscie nie prowadzi do ogólnych wniosków. Dzieje się tak, ponieważ własnosci populacji zależą od jej lokalizacji i tym samym jest zbyt dużo możliwosci konfiguracji, aby możliwe było ich dogodne zbadanie.

70 Przykład 1 Przykład w SAS Metoda Minimum Oczekiwanego Kosztu Błędnej Klasyfikacji Niech f i będzie funkcją gęstosci związaną z populacją π i, i = 1, 2,..., g. Niech p i = prawdopodobieństwo a priori dla populacji π i, c(k i) = koszt klasyfikacji obserwacji do π k, gdy w rzeczywistosci należy ona do π i. Dla k = i, c(k i) = 0. Niech R k oznacza zbiór x zaklasyfikowanych do π k oraz P (k i) = P (zaklasyfikowanie obserwacji do π k π i ) = f i (x)dx, R k P (i i) = 1 g P (k i). k=1 k i

71 Przykład 1 Przykład w SAS Warunkowy oczekiwany koszt błędnej klasyfikacji Warunkowy oczekiwany koszt błędnej klasyfikacji x z populacji π 1 do π 2 lub π 3... lub π g wynosi ECM(1) = P (2 1)c(2 1) + P (3 1)c(3 1) P (g 1)c(g 1) g = P (k 1)c(k 1). k=2 Ten koszt występuje z prawodopodobieństwem a priori p 1 związanym z populacją π 1.

72 Przykład 1 Przykład w SAS Oczekiwany koszt błędnej klasyfikacji W podobny sposób uzyskujemy warunkowe oczekiwane koszty błędnej klasyfikacji dla pozostałych populacji. Wymnożenie każdego warunkowego ECM(expected cost of misclassification) przez jego prawdopodobieństwo a priori, a następnie zsumowanie, daje nam całkowity ECM.

73 Przykład 1 Przykład w SAS Całkowity oczekiwany koszt błędnej klasyfikacji ECM ECM = p 1 ECM(1) + p 2 ECM(2) p g ECM(g) ( g ) g = p 1 P (k 1)c(k 1) + P (k 2)c(k 2) k=2 k=1 k 2 g 1 g g p g P (k g)c(k g) = p i P (k i)c(k i) k=1 i=1 k=1 k i

74 Przykład 1 Przykład w SAS Wyznaczenie najlepszej procedury klasyfikacyjnej sprowadza się do wybrania wzajemnie rozłącznych obszarów klasyfikacji R 1, R 2,..., R g, tak aby ECM był jak najmniejszy. Wynik 11.5 (Obszary minimalizujące ECM) Obszary klasyfikacji, które minimalizują ECM są okreslone przez przydzielenie x do tej populacji π k, k = 1, 2,..., g dla której suma g p i f i (x)c(k i) i=1 i k jest najmniejsza. Jeżeli istnieje więcej niż jedno rozwiązanie, x może zostać przydzielony do jakiejkolwiek z możliwych populacji.

75 Przykład 1 Przykład w SAS Załóżmy, że wszystkie koszty błędnej klasyfikacji są równe. Bez straty ogólnosci możemy założyć, że wynoszą one 1. Możemy w takim przypadku sformułować regułę klasyfikacji. Reguła minimum ECM przy równych kosztach błędnej klasyfikacji Przypisujemy x 0 do π k, jesli p k f k (x) > p i f i (x) dla wszystkich i k lub równoważnie, przypisujemy x 0 do π k, jesli ln p k f k (x) > ln p i f i (x) dla wszystkich i k.

76 Przykład 1 Przykład w SAS Uwaga Należy pamiętać, że ogólnie reguły minimum ECM mają trzy składniki: prawdopodobieństwa a priori, koszty błędnej klasyfikacji oraz funkcje gęstosci prawdopodobieństwa. Te elementy muszą zostać okreslone lub oszacowane przed zastosowaniem reguły.

77 Przykład 1 Przykład w SAS Przykład (Klasyfikacja nowej obserwacji do jednej z trzech znanych populacji) Przyporządkujmy obserwację x 0 do jednej z 3 populacji π 1, π 2, π 3 mając następujące hipotetyczne prawdopodobieństwa a priori, koszty błędnej klasyfikacji oraz wartosci gęstosci prawodpodobieństwa. Użyjemy metod minimum ECM.

78 Przykład 1 Przykład w SAS Obliczamy wartosci populacji. 3 p i f i (x 0 )c(k i) dla wszystkich trzech i=1 i k k = 1 : k = 2 : k = 3 : p 2 f 2 (x 0 )c(1 2) + p 3 f 3 (x 0 )c(1 3) = = 325 p 1 f 1 (x 0 )c(2 1) + p 3 f 3 (x 0 )c(2 3) = = p 1 f 1 x 0 )c(3 1) + p 2 f 2 (x 0 )c(3 2) = = Najmniejsza wartosc sumy jest dla k = 2, więc

79 Przykład 1 Przykład w SAS Jeżeli kolei wszystkie koszty błędnej klasyfikacji byłyby takie same, to przyporządkowujemy x 0 posługując się zasadą minimum ECM przy równych kosztach, która wymaga obliczenia następujących iloczynów p 1 f 1 (x 0 ) = = p 2 f 2 (x 0 ) = = p 3 f 3 (x 0 ) = = Ponieważ p 3 f 3 (x 0 ) = p i f i (x 0 ) dla i = 1, 2, powinnismy przyporządkować x 0 do π 3.

80 Przykład 1 Przykład w SAS Klasyfikacja populacji normalnych z Σ i, µ i Gęstosć f i (x) = gdzie i = 1, 2,..., g. ( 1 (2π) p/2 exp 1 ) Σ i 1/2 2 (x µ i) Σ 1 i (x µ i ), Jesli ponadto c(i i) = 0, c(k i) = 1, k i (lub równoważnie koszty błędnych klasyfikacji są równe), wówczas otrzymujemy regułę:

81 Przykład 1 Przykład w SAS Reguła dla normalnych populacji Przydziel x do π k jeżeli ln p k f k (x) = ln p k = max ln p i f i (x). i ( 1 2) ln(2π) ln Σ 1 2 (x µ k) Σ 1 k (x µ k) Stała (p/2) ln(2π) może zostać pominięta, ponieważ jest ona taka sama dla wszystkich populacji. Zdefiniujemy więc kwadratowy wynik dyskryminacji dla i-tej populacji jako:

82 Przykład 1 Przykład w SAS Kwadratowy wynik dyskryminacji Kwadratowy wynik dyskryminacji d Q i (x) = ln Σ i 1 2 (x µ i) Σ 1 i (x µ i ) + ln p i, gdzie i = 1, 2,..., g. d Q i (x) składa się z uogólnionej wariancji Σ i, prawdopodobieństw a priori p i oraz kwadratu odległosci x od sredniej populacji µ i.

83 Przykład 1 Przykład w SAS Używając kwadratowych wyników dyskryminacji, otrzymujemy następującą zasadę klasyfikacji: Zasada minimalnego całkowitego prawodpodobieństwa błędnej klasyfikacji (TPM) dla populacji normalnych - nierówne Σ i Przydziel x do π k, jeżeli: d Q k (x) = największy sposród dq 1 (x), dq 2 (x),..., dq g (x).

84 Przykład 1 Przykład w SAS W praktyce µ i, Σ i są nieznane, ale zbiór uczący poprawnie zaklasyfiowanych obserwacji jest często dostępny do budowy estymatorów. Dla populacji π okreslamy: x i = wektor srednich próbkowych S i = próbkowa macierz kowariancji n i = wielkosc próbki.

85 Przykład 1 Przykład w SAS Estymator kwadratowego wyniku dyskryminacji Wtedy otrzymujemy estymator kwadratowego wyniku dyskryminacji Estymator KWD ˆd Q i (x) = ln S i 1 2 (x x i) S 1 i (x x i ) + ln p i, gdzie i = 1, 2,..., g i zasada klasyfikacji oparta na próbie jest następująca.

86 Przykład 1 Przykład w SAS Estymacyjna zasada minimum (TMP) dla kilku populacji normalnych - nierówne Σ i Przydziel x do π k, jeżeli: ˆd Q k (x) = największy sposród ˆd Q 1 (x), ˆd Q 2 (x),..., ˆd Q g (x). Uproszczenie jest możliwe, gdy macierze kowariancji populacji Σ i są równe. Kiedy Σ i = Σ dla i = 1,..., g, wynik dyskryminacji przyjmuje postać d Q i (x) = ln Σ 1 2 x Σ 1 x + µ iσ 1 x 1 2 µ iσ 1 µ i + ln p i. Pierwsze dwa składniki są takie same dla d Q 1 (x), dq 2 (x),..., dq g (x), mogą więc zostać zignorowane. Pozostałe składniki składają się ze stałej c i = ln p i 1 2 µ iσ 1 µ i oraz liniowej kombinacji elementów x.

87 Liniowy wynik dyskryminacji Przykład 1 Przykład w SAS Następnie zdefiniujemy liniowy wynik dyskryminacji d i (x). Liniowy wynik dyskryminacji d i (x) = µ iσ 1 x 1 2 µ iσ 1 µ i + ln p i, dla i = 1,..., g. Estymator ˆd i (x) jest oparty na łącznym estymatorze macierzy kowariancji Σ, S pooled, S pooled = 1 n n g g ((n 1 1)S 1 +(n 2 1)S (n g 1)S g )

88 Przykład 1 Przykład w SAS i jest dany wzorem Estymator dla i = 1, 2,..., g. ˆd i (x) = x is 1 pooled x 1 2 x is 1 pooled x i + ln p i, W konsekwencji możemy sformułować regułę klasyfikacji. Estymacyjna zasada minimum (TMP) dla równych kowariancji populacji normalnych Przydziel x do π k jeżeli ˆd k (x) = największy sposród ˆd 1 (x), ˆd 2 (x),..., ˆd g (x).

89 Przykład 1 Przykład w SAS Wyrażenie d i (x) = µ iσ 1 x 1 2 µ iσ 1 µ i + ln p i jest wygodna funkcją liniową x. Równoważny klasyfikator dla przypadku równych macierzy kowariancji otrzymujemy z d Q i (x) = ln Σ i 1 2 (x µ i) Σ 1 i (x µ i ) + ln p i, poprzez zignorowanie stałego wyrazu 1 ln Σ. Wynik 2 wykorzystujący estymatory próbkowe zamiast nieznanych parametrów populacji, może być wyrażony przy pomocy kwadratowych odległosci D 2 i (x) = (x x i ) S 1 pooled (x x i) od x do wektora srednich z próbki x i. Reguła klasyfikacji jest następująca. Przypisz x do populacji π i, dla której wartosc 1 2 D2 i (x) + ln p i jest największa.

90 Przykład 1 Przykład w SAS Przykład - obliczanie wyników dyskryminacji mając wspólną macierz kowariancji Obliczymy liniowe wyniki dyskryminacji oparte na 3 populacjach zakładając, że pochodzą one z dwuwymiarowego rozkładu normalnego ze wspólna macierzą kowariancji. Losowe próbki z populacji oraz ich wektory srednich i macierze kowariancji są następujące.

91 Przykład 1 Przykład w SAS 2 5 π 1 : X 1 = 0 3, więc n 1 = 3, x 1 = π 2 : X 2 = 2 4, więc n 2 = 3, x 2 = π 3 : X 3 = 0 0, więc n 3 = 3, x 3 = 1 4 [ ] 1, S 3 1 = [ ] 1, S 4 2 = [ ] 0, S 4 3 = [ ] 1 1, 1 4 [ ] 1 1, 1 4 [ ]

92 Przykład 1 Przykład w SAS Mając p 1 = p 2 = 0.25 oraz p 3 = 0.50, zaklasyfikujemy obserwacje x 0 = [x 01, x 02 ] = [ 2, 1]. S pooled = = 2 6 [ ] [ ] = [ ] , 4 3 [ ] stąd S 1 pooled = 9 35 [ ] 36 3 =

93 Przykład 1 Przykład w SAS Następnie x 1S 1 pooled = [ 1 3] 1 35 [ ] 36 3 = 1 [ ] oraz więc x 1S 1 pooled x 1 == 1 [ ] [ ] = ˆd 1 (x 0 ) = ln p 1 + x 1S 1 pooled x x 1S 1 pooled x 1 = ln(0.25) x x

94 Przykład 1 Przykład w SAS Zauważmy, że liniowa forma ˆd i (x 0 ) = const + const x 01 + const x 02. Następnie obliczamy w podobny sposób [ ] 1 x 2S pooled [1 4] = x 2S 1 pooled x 2 = 1 [ ] [ ] = 1 [ ] = ˆd 2 (x 0 ) = ln(0.25) x x

95 Przykład 1 Przykład w SAS Ostatecznie x 3S 1 pooled = [0 2] 1 35 x 3S 1 pooled x 3 = 1 [ 6 35 [ ] 36 3 = 1 [ ] ] [ = ] 18 ˆd 3 (x 0 ) = ln(0.50) x x Podstawiamy wartosci x 01 = 2, x 02 = 1 i otrzymujemy ˆd 1 (x 0 ) = ˆd 2 (x 0 ) = ˆd 3 (x 0 ) = ( 2) + ( 1) = ( 2) + ( 1) = ( 2) + ( 1) =

96 Przykład 1 Przykład w SAS Ponieważ ˆd 3 (x 0 ) = jest największe, przydzielamy x 0 do populacji π 3.

97 Przykład 1 Przykład w SAS Przykład 2 z wykorzystaniem SAS Klasyfikacja potencjalnych absolwentów szkoły biznesowej Pracownik szkoły biznesowej wykorzystał indeks zawierający srednią z uzyskanych ocen (GPA) oraz wyniki testu końcowego (GMAT), które miały mu pomóc w podjęciu decyzji, którzy studenci mogą zostać dopuszczeni do egzaminów dyplomowych. Dane przedstawiają pary wartosci GPA oraz GMAT dla ostatnich aplikujących, którzy zostali podzieleni na trzy grupy: A (1) - dopuszczeni, B (2) - niedopuszczeni, C (3) - graniczący.

98 Wykres Przykład 1 Przykład w SAS

99 Przykład 1 Przykład w SAS

100 Przykład 1 Przykład w SAS Rozważmy nowego studenta o sredniej GPA=3.21 oraz wyniku GMAT=497. Zaklasyfikujemy go do jednej z trzech populacji przy założeniu równych prawdopodobieństw a priori. W tym celu obliczamy próbkowe odległosci kwadratowe D 2 i (x 0 ). Ponieważ odległosc od x 0 = [3.21, 497] do sredniej x 3 jest najmniejsza, przypisujemy tą osobę do populacji π 3 - graniczący.

101 Podsumowanie danych Przykład 1 Przykład w SAS

102 Macierze kowariancji Przykład 1 Przykład w SAS

103 Przykład 1 Przykład w SAS Macierz S pooled

104 Przykład 1 Przykład w SAS Liniowa funkcja rozróżniająca (liniowy wynik dyskryminacji) Liniowe funkcje rozróżniające ˆd i (x), gdzie stała = 1 2 x js 1 pooled x j + ln p j wektor współczynników = S 1 pooled x j

105 Przykład 1 Przykład w SAS Liniowe funkcje rozróżniające dla 3 populacji: ˆd admit = gpa gmat ˆd noadmit = gpa gmat ˆd borderline = gpa gmat

106 Przykład 1 Przykład w SAS Uogólniona odległosc kwadratowa Uogólniona odległosc kwadratowa: D 2 j (x) = (x x j ) S 1 pooled (x x j) Prawdopodobieństwo a posteriori: ( ) p(j x) = exp 1 2 D2 j (x) ) exp ( 1 2 D2 k (x) k

107 LISTERR Przykład 1 Przykład w SAS Opcja LISTERR pokazuje błędnie sklasyfikowane obserwacje

108 Przykład 1 Przykład w SAS

109 Często bywa, że zmienna objaśniana jest również zmienną dychotomiczną, czyli zmienną dwóch wartościach. Wykorzystywana jest ona do opisu na przykład członkostwa w dwóch grupach. W najprostszym przypadku zmienna zależna Y przyjmuje dwie wartości np. płeć człowieka (mężczyzna/kobieta).w przypadku opisowych zmiennych objaśnianych możemy zakodować te zmienne w postaci 0 1. Na przykład zdał= 1, nie zdał= 0.

110 Prawdopodobieństwo p uzyskania 1 jest parametrem korzyści. Reprezentuje on proporcję w populacji, która reprezentuje zakodowanych jako 1. Średnia rozkładu 0 1 również wynosi p, gdyż: srednia = 0 (1 p) + 1 p = p Proporcja zakodowanych jako 0 to 1 p. Wariancja tego rozkładu wynosi: wariancja = 0 2 (1 p) p p 2 = p(1 p)

111 Przyjmijmy, że zmienną dychotomiczną o wartościach 0 albo 1. Modelując prawdopodobieństwo uzyskania 1, używając modelu liniowego pojedynczej zmiennej objaśniającej możemy zapisać to w postaci: p = E(Y z) = β 0 + β 1 z i dodać wyrażenie błędu ɛ. Musimy pamiętać o niedogodnościach tego modelu Przewidywana wartość zmiennej zależnej Y nie musi przyjmować wartości oczekiwanej jest nieograniczone. Przy dokonywaniu analizy regresji zakładamy, że wariancja Y jest stała dla wszystkich wartości zmiennej objaśniającej Z, a w tym przypadku tak nie jest.

112 Logarytm naturalny ilorazu szans Zamiast modelowania prawdopodobieństwo p bezpośrednio modelem liniowym, wprowadzimy iloraz szans odds = p 1 p Jest on ilorazem prawdopodobieństwa uzyskania 1 albo 0. W przeciwieństwie do zwykłego prawdopodobieństwa, ilość szans może być większa niż 1. Na przykład jeżeli 8 na 10 osób spośród pasażerów nie ma sprawdzonego biletu, to p = 0.8, ale iloraz szans bycia nie sprawdzonym wynosi 0.8/0.2 = 3 lub 4 do 1, że nie jest sprawdzony. Jako, że bycie sprawdzonym to 0.2/0.8 = 1/4 widzimy tu brak symetrii. Jednak używając logarytmu naturalnego ln(4) = oraz ln(1/4) = widzimy, że wartości są dokładnymi przeciwieństwami.

113 Rozważmy teraz funkcję logarytmu naturalnego z rysunku. Kiedy odds x wynosi 1, czyli uzyskanie 0 i 1 jest równie prawdopodobne, logarytm naturalny x jest równy 0. Kiedy odds x jest większe od 1, logarytm naturalny wzrasta powoli tak jak wzrasta x. Jednakże, gdy odds x jest mniejsze od 1, logarytm naturalny maleje gwałtownie, zgodnie z x malejącym do zera.

114 W regresji naturalnej dla zmiennej binarnej modelujemy logarytm naturalny ilorazu szans, który nazywamy logit(p): p logit(p) = ln(odds) = ln( 1 p ) Funkcja logit jest funkcją prawdopodobieństwa p. W najprostszym modelu zakładamy, że logit reprezentuje prostą w zależności od zmiennej objaśniającej Z, czyli p logit(p) = ln(odds) = ln( 1 p ) = β 0 + β 1 z Innymi słowy, logarytm szans jest liniowo zależny od zmiennej objaśniającej.

115 Można zamienić logit lub logarytm szans na prawdopodobieństwo p. Używając funkcji eksponencjalnej dla p ln( 1 p ) = β 0 + β 1 z uzyskujemy odds(z) = p(z) 1 p(z) = exp(β 0 + β 1 z) Następnie otrzymujemy p(z) = exp(β 0 + β 1 z) 1 + exp(β 0 + β 1 z)

116 Relacja pomiędzy zmienną p a zmienną objaśniającą z nie jest liniowa, ale posiada S-kształtny wykres jak pokazuje powyższy rysunek dla przypadku β 0 = 1orazβ 1 = 2. Wartość β 0 daje wartość Piotr Kowalik, exp(β Dominik 0 )/(1 Jóźwicki + Exp(β Klasyfikacja 0 )) dlai dyskryminacja p kiedy z = 0.

117 Parametr β 1 dla krzywej logistycznej determinuje szybkość zmian p w zależności od z, ale jego interpretacja nie jest tak prosta jak dla zwykłej regresji liniowej, ponieważ relacja jest nieliniowa, zarówno dla z jak i dla β 1. Jednakże możemy wykorzystać relację liniową dla ilorazu szans. Krzywa logistyczna może być zapisana jako: exp(β 0 + β 1 z) 1 + exp(β 0 + β 1 z) lub p(z) = exp( β 0 β 1 z)

118 Analiza regresji logistycznej Rozważmy model z kilkoma zmiennymi objaśniającymi. Niech z j1, z j2,, z jr będą wartościami r predyktorów dla j-tej obserwacji. Zwykle, tak jak w normalnej regresji liniowej, ustawiamy pierwszą pozycję na 1 oraz z j = [1, z j1, z j2,, z jr ]. Warunkując na tych wartościach zakładamy, że Y j pochodzi z rozkładu Bernoulliego o prawdopodobieństwie sukcesu p(z j ), zależnym od wartości kowariancji. Wówczas: więc P (Y j = y j ) = p y j (z j )(1 p(z j )) 1 y j y j = 0, 1 E(Y j ) = p(z j ) V ar(y j ) = p(z j )(1 p(z j ))

119 Nie jest to średnia pochodząca z modelu liniowego, a z logarytmu naturalnego ilorazu szans. Dokładniej zakładamy model p(z) ln( 1 p(z) ) = β 0 + β 1 z β r z r = β z j gdzie β = [β 0, β 1,, β r ].

120 Estymacja β możliwa jest do uzyskania przy pomocy metody największej wiarygodności. Wiarygodność L jest dana prawdopodobieństwem łącznym oszacowanego poprzez obserwowane wartości v j. Stąd n n L(b 0, b 1,, b r) = p yj (z j )(1 p(z j )) 1 yj j=1 eyj (b 0 + b 1 z j1 + + b rz jr ) = n j=1 j=1 (1 + eb 0 + b 1 z j1 + + b rz jr )

121 Wartości parametrów, które maksymalizują wiarygodność nie mogą być wyrażane prościej. Zamiast tego muszą być obliczane numerycznie startując od początkowego trafu poprzez iterację do maksimum funkcji wiarygodności. Technicznie, ta procedura nazywa się iteracyjnie przeważaną metodą najmniejszych kwadratów (Iteratively Re weighted Least Squares Method). Oznaczamy numerycznie uzyskane wartości estymatorami największej wiarygodności i oznaczamy przez wektor β

122 Przedziały Piotr Kowalik, ufności Dominik mogą Jóźwicki być używane Klasyfikacja doi dyskryminacja osądzenia istotności Kiedy rozmiar próbki jest duży, β jest przybliżane rozkładem normalnym ze średnią β, wartościami dominującymi parametrów i aproksymowaną macierzą kowariancji: Ĉov( β) [ n p(z j )(1 p(z j ))z j z j] 1 j=1 Pierwiastki kwadratowe elementów na przekątnej macierzy są oszacowaniami odchylenia standardowego lub błędami standardowymi (SE)(standard errors) estymatorów odpowiednio β 0, β 1,, β r dla próbki dużej. 95 % przedziały ufności dla próbki dużej to: β k ± 1.96SE( β k ) k = 0, 1,, r

123 2ln( L max,reduced Klasyfikacja ) i dyskryminacja Dla modelu z r zmiennymi objaśniającymi i stałą, oznaczamy maksymalną wiarygodność przez L max = L( β 0, β 1,, β r Jeżeli hipoteza zerowa to H 0 : β k = 0, obliczenia numeryczne znowu dają estymację największej wiarygodności zredukowanego modelu a maksymalna wartość wiarygodności to: L max,reduced = L( β 0, β 1,, β k 1, 0, β k+1,, β r ) Przy regresji logistycznej zwykle testuje się H 0 używając minus dwukrotnego logharytmu z ilorazu wiarygodności:

Klasyfikacja i dyskrymiancja - Statystyka w SAS

Klasyfikacja i dyskrymiancja - Statystyka w SAS Klasyfikacja i dyskrymiancja - Statystyka w SAS Agnieszka Gołota, Paweł Grabowski Dariusz Bełczowski, Paweł Cejrowski Politechnika Gdańska Wydział Fizyki Technicznej i Matematyki Stosowanej Pojęcie klasyfikacji

Bardziej szczegółowo

Klasyfikacja i dyskryminacja

Klasyfikacja i dyskryminacja i dyskryminacja Nina Stulich Kazimierz Najmajer Statystyka II i dyskryminacja Definicja Cel Definicja i dyskryminacja - pod tymi pojęciami rozumie się wielowymiarowe metody zajmujące się rozdzielaniem

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Stanisław Cichocki Natalia Nehrebecka. Wykład 7 Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności

Bardziej szczegółowo

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

Wykład 9 Wnioskowanie o średnich

Wykład 9 Wnioskowanie o średnich Wykład 9 Wnioskowanie o średnich Rozkład t (Studenta) Wnioskowanie dla jednej populacji: Test i przedziały ufności dla jednej próby Test i przedziały ufności dla par Porównanie dwóch populacji: Test i

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Prawdopodobieństwo i rozkład normalny cd.

Prawdopodobieństwo i rozkład normalny cd. # # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl

Bardziej szczegółowo

Komputerowa analiza danych doświadczalnych

Komputerowa analiza danych doświadczalnych Komputerowa analiza danych doświadczalnych Wykład 9 27.04.2018 dr inż. Łukasz Graczykowski lukasz.graczykowski@pw.edu.pl Semestr letni 2017/2018 Metoda największej wiarygodności ierównosć informacyjna

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład

Bardziej szczegółowo

Ważne rozkłady i twierdzenia c.d.

Ważne rozkłady i twierdzenia c.d. Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Komputerowa analiza danych doświadczalnych

Komputerowa analiza danych doświadczalnych Komputerowa analiza danych doświadczalnych Wykład 9 7.04.09 dr inż. Łukasz Graczykowski lukasz.graczykowski@pw.edu.pl Semestr letni 08/09 Metoda największej wiarygodności ierównosć informacyjna Metoda

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności

Bardziej szczegółowo

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)

Bardziej szczegółowo

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 ANALIZA REGRESJI WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Pobieranie prób i rozkład z próby

Pobieranie prób i rozkład z próby Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.

Bardziej szczegółowo

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N = HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

Kolokwium ze statystyki matematycznej

Kolokwium ze statystyki matematycznej Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład X, 9.05.206 TESTOWANIE HIPOTEZ STATYSTYCZNYCH II: PORÓWNYWANIE TESTÓW Plan na dzisiaj 0. Przypomnienie potrzebnych definicji. Porównywanie testów 2. Test jednostajnie

Bardziej szczegółowo

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ Dana jest populacja generalna, w której dwuwymiarowa cecha (zmienna losowa) (X, Y ) ma pewien dwuwymiarowy rozk lad. Miara korelacji liniowej dla zmiennych (X, Y

Bardziej szczegółowo

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11 Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków

Bardziej szczegółowo

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 3 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.hedonic.dta przygotuj model oszacowujący wartość kosztów zewnętrznych rolnictwa 1. Przeprowadź regresję objaśniającą

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Biostatystyka, # 3 /Weterynaria I/

Biostatystyka, # 3 /Weterynaria I/ Biostatystyka, # 3 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, p. 221 bud. CIW, e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010 STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ Opracowała: Milena Suliga Wszystkie pliki pomocnicze wymienione w treści

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych r.

Matematyka ubezpieczeń majątkowych r. Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka

Bardziej szczegółowo

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =. Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,

Bardziej szczegółowo

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile

Bardziej szczegółowo

Metoda największej wiarygodności

Metoda największej wiarygodności Metoda największej wiarygodności Próbki w obecności tła Funkcja wiarygodności Iloraz wiarygodności Pomiary o różnej dokładności Obciążenie Informacja z próby i nierówność informacyjna Wariancja minimalna

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8 Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

STATYSTYKA

STATYSTYKA Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym

Bardziej szczegółowo

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Nierówność Czebyszewa Niech X będzie zmienną losową o skończonej wariancji V ar(x). Wtedy wartość oczekiwana E(X) też jest skończona i

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Metoda największej wiarygodności

Metoda największej wiarygodności Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić). Egzamin ze Statystyki Matematycznej, WNE UW, wrzesień 016, zestaw B Odpowiedzi i szkice rozwiązań 1. Zbadano koszt 7 noclegów dla 4-osobowej rodziny (kwatery) nad morzem w sezonie letnim 014 i 015. Wylosowano

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria Wykład 5 dr inż. Anna Skowrońska-Szmer zima 2017/2018 Hipotezy 2 Hipoteza zerowa (H 0 )- hipoteza o wartości jednego (lub wielu) parametru populacji. Traktujemy ją

Bardziej szczegółowo

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014 Estymacja przedziałowa - przedziały ufności dla średnich Wrocław, 5 grudnia 2014 Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja Przedziałem ufności dla paramertu

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich

Bardziej szczegółowo

1 Klasyfikator bayesowski

1 Klasyfikator bayesowski Klasyfikator bayesowski Załóżmy, że dane są prawdopodobieństwa przynależności do klasp( ),P( 2 ),...,P( L ) przykładów z pewnego zadania klasyfikacji, jak również gęstości rozkładów prawdopodobieństw wystąpienia

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo