PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.

Wielkość: px
Rozpocząć pokaz od strony:

Download "PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa."

Transkrypt

1 Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.

2 Kwadratowa analiza dyskryminacyjna

3 Przykład analizy QDA Czasem nie jest możliwe rozdzielenie klas za pomocą prostej

4 Przykład analizy QDA Lepsze rozdzielenie klas dzięki użyciu funkcji kwadratowej

5 Lepsze rozdzielenie klas dzięki użyciu funkcji kwadratowej

6 Przykład -dane iris 1 # Linear Discriminant Analysis LDA ( iris data ) 2 require ( MASS ) 3 data ( iris ) 4 iris. lda <- lda ( Species ~ Sepal. Length + Sepal. Width + Petal. Length +Petal. Width, data=iris ) 5 print ( iris. lda ) Call: lda(species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, data = iris) Prior probabilities of groups: setosa versicolor virginica Group means: Sepal.Length Sepal.Width Petal.Length Petal.Width setosa versicolor virginica

7 Przykład -dane iris Coefficients of linear discriminants: LD1 LD2 Sepal.Length Sepal.Width Petal.Length Petal.Width Proportion of trace: LD1 LD

8 Przykład - dane iris 1 table ( iris$species, predict ( iris. lda )$class, dnn=c(" True "," Predicted ") Predicted True setosa versicolor virginica setosa versicolor virginica ## proporcja błędnych klasyfikacji 2 mean ( iris$ Species!= predict ( iris. lda )$class ) [1] 0.02

9 Przykład - dane iris - QDA 1 iris. qda <- qda ( Species ~ Sepal. Length + Sepal. Width + Petal. Length + Petal. Width, data=iris ) Call: qda(species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal. data = iris) Prior probabilities of groups: setosa versicolor virginica Group means: Sepal.Length Sepal.Width Petal.Length Petal.Width setosa versicolor virginica

10 Przykład - dane iris - QDA 1 table ( iris$species, predict ( iris. qda )$class, dnn=c(" True "," Predicted ") ) Predicted True setosa versicolor virginica setosa versicolor virginica ## Proporcja błędnych klasyfikacji 2 mean ( iris$ Species!= predict ( iris. qda )$class ) [1] 0.02

11 Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.

12 Wprowadzenie LDA, QDA: rozdzielanie klas za pomocą prostej/ płaszczyzny/ hiperpłaszczyzny/ hiperpowierzchni Wybór kształtu powierzchni rozdzielającej klasy jest arbitralny (zadany przez użytkownika).nie jest efektem konstrukcji modelu.

13 Podejście probabilistyczne Polega na konstrukcji metod bezpośrednio opartych na rozkładach prawdopodobieństwa obserwacji w klasach. Przykład g = 3 klasy, x - obserwacja k = 1 k = 2 k = 3 p(x k) Dla g klas i obserwacji x mamy g prawdopodobieństw przynależności do klas, p(x k), dla k = 1, 2,..., g.. g p(x k) = 1 k=1

14 Prawdopodobieńtwa a priori i a posteriori π k, k = 1, 2,..., g są prawdopodobieństwami a priori tego że obserwacja pochodzi z k-tej klasy. Prawdopodobieństwa a priori są wyznaczane na podstawie posiadanej wiedzy, historii lub przeprowadzonych obserwacji na przykład oszacowanie procentu osób chorych na określoną chorobę w całej populacji odbywa się na podstawie próby osób o których wiemy że są chore i skuteczności leczenia. to daje oszacowanie prawdopodobieństw a priori bycia chorym lub zdrowym. Prawdopodobieństwa a posteriori - tj. p-stwa przynależności do klas po zaobserwowaniu obserwacji x wyznaczane ze wzoru Bayesa: prawdopodobieństwo a posteriori że zaobserwowana wartość x pochodzi z klasy k wynosi: p(k x) = π kp(x k) g j=1 π jp(x j)

15 Prawdopodobieńtwa a priori i a posteriori Wzór Bayesa wymaga znajomości wartości prawdopodobieństw π k oraz p(x k) W praktyce nie są one znane i ich wartości są szacowane na podstawie obserwacji próby uczącej (zastępujemy wielkości π k i p(x k) ich estymatorami. Klasyfikator bayesowski Zaobserwowany wektor x klasyfikujemy jako pochodzący z tej klasy k dla której wartość p-stwa a posteriori p(k x), k = 1, 2,..., g, jest największa. Równoważnie można wybrać klasę dla której wartość π k p(x k), k = 1, 2,..., g jest największa.

16 Klasyfikator bayesowski Regułę Bayesa stosowaliśmy wcześniej przyjmując pewne ustalone modele opisujące p-stwa p(k x) LDA - p(k x) opisuje model regresji liniowej w analizie regresji logistycznej - model regresji logistycznej. Obecnie wychodzić będziemy bezpośrednio od rozkładów prawdopodobieństwa π k i p(x k), zakładając, że je znamy.

17 Przypadek dwóch klas Zakładamy że obserwacje pochodzą z dwóch klas (g = 2) i obserwacje w każdej z klas pochodzą z rozkładu normalnego. Zakładamy że rozkłady w klasach mają taką samą macierz kowariancji Σ, tj p(x k) N (m k Σ), k = 1, 2. Zadanie maksymalizacji po k wielkości p(x k) w tym przypadku prowadzi do rozwiązania postaci δ k (x) = x T Σ 1 m k + ln(π k ). Funkcje δ k (x) dla k = 1, 2,..., g nazywamy funkcjami dyskryminacyjnymi dla klasy k.

18 Na podstawie porównania p-stw p(1 x) i p(2 x) uzyskujemy regułę klasyfikacyjną Obserwację x przypiszemy do klasy 1, gdy p(1 x) > p(2 x), tzn gdy ( ) p(1 x) δ 1,2(x) = ln > 0 p(2 x). Analogicznie obserwację x przypiszemy do klasy 2, gdy ( ) p(1 x) δ 1,2(x) = ln < 0 p(2 x). W rozważanym przypadku wyliczenie δ 1,2 (x) prowadzi do uzyskania ( ) π1 δ 1,2 (x) = ln 1 2 (m 1 m 2 ) T Σ 1 (m 1 +m 2 )+(m 1 m 2 ) T Σ 1 x = 0. π 2 Jest to równanie hiperpłaszczyzny dyskryminacyjnej rozdzielającej klasy.

19 Więcej klas (g > 2) Gdy rozważamy większą liczbę klas porównujemy p-stwa klas parami. Dla klas k i l porównujemy prawdopodobieństwa p(k x) i p(l x) ( ) p(k x) δ k,l (x) = ln p(l x) Równanie hiperpłaszczyzny dyskryminacyjnej rozdzielającej klasy : ( ) πk δ k,l (x) = ln 1 2 (m k m l ) T Σ 1 (m k +m l )+(m k m l ) T Σ 1 x = 0. π l Funkcje δ k,l (x) nazywamy funkcjami dyskryminacyjnymi między klasami k i l. Przykład: 3 klasy Obserwacja x zostaje zaklasyfikowana do klasy 1, gdy δ 1,2 (x) > 0 i δ 1,3 (x) > 0 2, gdy δ 1,2 (x) < 0 i δ 2,3 (x) > 0 3, gdy δ 1,3 (x) < 0 i δ 2,3 (x) < 0

20 Trzy klasy, ta sama macierz kowariancji

21 Trzy klasy, ta sama macierz kowariancji, metoda QDA

22 Rozkłady normalne o różnych macierzach kowariancji Rozważamy sytuację, gdy rozkłady w grupach są normalne, ale mają różne macierze kowariancji: p(x k) N (m k, Σ k ), k {1, 2,..., g}. Wówczas powierzchnia rozdzielająca klasy jest funkcją kwadratową. Dla dwóch klas (g = 2) reguła klasyfikacyjna przyjmuje postać Przypisz obserwację x do klasy 2 jeżeli ( ) π2 ln + x T (Σ 1 2 m 2 Σ 1 1 m 1) 1 2 x T (Σ 1 2 Σ 1 1 )x + k > 0, π 1 gdzie k = 1 ( ) 2 ln Σ1 + 1 ( m T Σ Σ 1 1 m 1 m T 2 Σ 1 2 m ) 2

23 Trzy klasy, różne macierze kowariancji, metoda QDA

24 Metoda największej wiarogodności

25 Metoda największej wiarogodności Jest to najbardziej intuicyjna metoda oparta na rozkładach prawdopodobieństw obserwacji w klasach. Polega na wyborze klasy maksymalizującej prawdopodobieństwo p(x k), tj. jest to reguła spełniająca d(x) = argmax k {1,2,...,g} p(x k). Jest równoważna regule Bayesa, gdy prawdopodobieństwa a priori są równe tj. π 1 = π 2 = = π g. W regule Bayesa maksymalizujemy p-stwo a posteriori, czyli wielkość proporcjonalną do. π k p(x k) Jeśli π1 = π 2 = = π g, jest to równoważne maksymalizacji po k wartości p(x k).

26 Metoda największej wiarogodności

27 Metoda największej wiarogodności Jeśli obserwacje pochodzą z rozkładów normalnych o takiej samej macierzy kowariancji to metoda największej wiarogodności może być zapisana jako Zaklasyfikuj obserwację x do tej klasy k, dla której kwadrat odległości Mahalanobisa jest najmniejszy. (x m k ) T Σ 1 (x m k )

28 Optymalność reguły bayesowskiej Reguła bayesowska (lub reguła NW gdy p-stwa a priori są równe) jest optymalna to znaczy minimalizuje ryzyko całkowite postaci R(d) = g π k P [d(x) k klasa = k]. k=1 P [d(x) k klasa = k] jest oczekiwanym kosztem błędnego zaklasyfikowania obserwacji z klasy k (ryzykiem klasyfikatora)

29 Wybór i ocena klasyfikatora

30 Wybór i ocena klasyfikatora Aby wybrać możliwie najlepszy klasyfikator spośród kilku różnych klasyfikatorów porównujemy ich prawdopodobieństwa błędnej klasyfikacji dla nowej obserwacji. Dla dużego zbioru danych wydziela się trzy podpróby : próbę uczącą - służącą do konstrukcji klasyfikatora próbę walidacyjną wyznaczamy na niej procent błędnych klasyfikacji dla danego klasyfikatora porównując klasyfikatory wybieramy ten, który uzyskał najmniejszy procent błędów na próbie walidacyjnej próbę testową dokonujemy na niej ostatecznej oceny prawdopodobieństwa błędnej klasyfikacji przez klasyfikator wybrany na podstawie próby walidacyjnej nie można tego zrobić na próbie walidacyjnej, gdyż posłużyła ona do wyboru klasyfikatora

31 Podział na podpróby Aby móc wydzielić trzy podpróby potrzebny jest duży zbiór danych. Jak ustalić rozmiary podprób? 50% obserwacji na próbę uczącą i po 25% na próby walidacyjną i testową lub 60% obserwacji na próbę uczącą i po 20% na próby walidacyjną i testową nie ma ustalonej najepszej proporcji Jeśli próba jest zbyt mała do wydzielenia trzech podprób stosuje się kroswalidację czyli tzw. sprawdzanie krzyżowe. Zbiór danych dzielimy na K (np 5) możliwie równych części (tzw. K-krotna kroswalidacja) Usuwamy jeden z K podzbiorów ze zbioru danych Pozostałe K 1 podzbiorów wykorzystujemy do konstrukcji klasyfikatora. Usunięty zbiór traktujemy jako zbiór testowy (do sprawdzenia skonstruowanego klasyfikatora).

32 Sprawdzenie krzyżowe (kroswalidacja) Na podstawie takiej procedury uzyskujemy K wersji klasyfikatora Każda wersja klasyfikatora jest oceniana poprzez sprawdzenie liczby błędnych klasyfikacji na odpowiednim zbiorze testowym (tzn. na części zbioru danych którą usunęliśmy przed konstrukcją klasyfikatora). a więc oceny klasyfikatora dokonujemy na obserwacjach, które nie brały udziału w jego konstrukcji Sumaryczna liczba błędów klasyfikacji dla wszystkich K wersji klasyfikatora podzielona przez liczność oryginalnego zbioru danych n daje kroswalidacyjne oszacowanie prawdopodobieństwa dokonania błędnej klasyfikacji przez dany klasyfikator. Często stosuje się też tzw. n-krotną kroswalidację, gdzie n oznacza liczność całego zbioru danych. Tą metodę nazywa się czasem leave-one-out cross-validation, gdyż podpróby na których konstruowane są kolejne wersje klasyfikatora powstają poprzez usunięcie tylko jednej obserwacji ze zbioru danych.

33 Przykład - dane iris Metoda LDA z zastosowaniem kroswalidacji 1 iris. lda. cv <- lda ( Species ~ Sepal. Length + Sepal. Width + Petal. Length +Petal. Width, data=iris, CV=TRUE ) 2 table ( iris$species, iris. lda. cv$class, dnn=c(" True "," Predicted ")) Predicted True setosa versicolor virginica setosa versicolor virginica mean ( iris$ Species!= iris. lda. cv$class ) 0.02

34 Przykład - dane iris LDA - Klasyfikacja nowej obserwacji o wartościach: Sepal.Length = 6.5, Sepal.Width = 2.5, Petal.Length = 5.0, Petal.Width = ## Klasyfikacja nowej obserwacji - metoda LDA 2 predict ( iris.lda, new=data. frame ( Sepal. Length =6.5, Sepal. Width =2.5, Petal. Length =5.0, Petal. Width =1.7) ) $class [1] virginica Levels: setosa versicolor virginica $posterior setosa versicolor virginica e $x LD1 LD

35 Przykład - dane iris Metoda QDA z zastosowaniem kroswalidacji 1 iris. qda. cv <- qda ( Species ~ Sepal. Length + Sepal. Width + Petal. Length +Petal. Width, data=iris, CV=TRUE ) 2 table ( iris$species, iris. qda. cv$class, dnn=c(" True "," Predicted ")) Predicted True setosa versicolor virginica setosa versicolor virginica mean ( iris$ Species!= iris. qda. cv$class ) [1]

36 Przykład - dane iris QDA - Klasyfikacja nowej obserwacji o wartościach: Sepal.Length = 6.5, Sepal.Width = 2.5, Petal.Length = 5.0, Petal.Width = ## klasyfikacja nowej obserwacji - metoda QDA 2 predict ( iris.qda, new=data. frame ( Sepal. Length =6.5, Sepal. Width =2.5, Petal. Length =5.0, Petal. Width =1.7) ) $class [1] virginica Levels: setosa versicolor virginica $posterior setosa versicolor virginica e

37 Bootstrap Inną metodą wielokrotnego wykorzystania elementów tego samego zbioru danych jest metoda bootstrap Polega na dokonaniu wielokrotnego losowania ze zwracaniem elementów z oryginalnego zbioru danych. W ten sposób losuje się np 1000 podprób, każdą o liczności n równej liczności oryginalnego zbioru danych Na ich podstawie konstruuje się kolejne wersje klasyfikatora, a następnie dla każdego elementu oryginalnego zbioru danych oblicza się ułamek błędnych zaklasyfikowań tego elementu przez wszystkie wersje klasyfikatora, w których budowie nie brał on udziału oblicza się średnią wartość ułamków otrzymanych dla wszystkich n elementów oryginalnego zbioru danych taka średnia wartość ułamków błędnych klasyfikacji jest przybliżeniem prawdopodobieństwa błędnego zaklasyfikowania nowej obserwacji.

38 Przykład - dane iris Porównamy błędy uzyskane przez metody LDA i QDA przy zastosowaniu 10-krotnej kroswalidacji oraz metody bootstrap. 1 # przekształcenie funkcji predict, tak aby zwracała tylko indeksy klas 2 mypredict. lda <- function ( object, newdata ){ 3 predict ( object, newdata = newdata )$class 4 } Wyznaczenie błędu dla metody LDA przy zastosowaniu 10-krotnej kroswalidacji 1 require ( ipred ) 2 # 10 - krotna kroswalidacja dla metody LDA - dane iris 3 errorest ( Species ~., data=iris, model=lda, estimator = " cv", predict = mypredict. lda ) 10-fold cross-validation estimator of misclassification error Misclassification error: 0.02

39 Przykład - dane iris Wyznaczenie błędu dla metody LDA przy zastosowaniu metody bootstrap 1 # Estymacja błędu metodą bootstrap dla metody LDA - dane iris 2 errorest ( Species ~., data=iris, model=lda, estimator = " boot ", predict = mypredict. lda ) Bootstrap estimator of misclassification error with 25 bootstrap replications Misclassification error: Standard deviation:

40 Przykład - dane iris Dla metody QDA 1 # przekształcenie funkcji predict, tak aby zwracała tylko indeksy klas 2 mypredict. qda <- function ( object, newdata ){ 3 predict ( object, newdata = newdata )$class 4 } Wyznaczenie błędu dla metody QDA przy zastosowaniu 10-krotnej kroswalidacji 1 # 10 - krotna kroswalidacja dla metody LDA - dane iris 2 errorest ( Species ~., data=iris, model=qda, estimator = " cv", predict = mypredict. qda ) 10-fold cross-validation estimator of misclassification error Misclassification error: 0.02

41 Przykład - dane iris Wyznaczenie błędu dla metody QDA przy zastosowaniu metody bootstrap 1 # Estymacja błędu metodą bootstrap dla metody LDA - dane iris 2 errorest ( Species ~., data=iris, model=qda, estimator = " boot ", predict = mypredict. qda ) Bootstrap estimator of misclassification error with 25 bootstrap replications Misclassification error: Standard deviation:

42 Koszty błędnej klasyfikacji W przypadku zadania konstrukcji klasyfikatora, błędy przez ten klasyfikator popełniane wiążą się często z poniesieniem określonych kosztów. Na przykład w przypadku danych medycznych, klasyfikacja pacjentów chorych do grupy osób zdrowych, jak i osób zdrowych do grupy osób chorych wiąże się z kosztami. W przypadku takich testów znacznie groźniejsza w skutkach jest decyzja o zaklasyfikowaniu osoby jako zdrowej, w sytuacji gdy pacjent jest w rzeczywistości chory. Koszt błędnej decyzji polegającej na stwierdzeniu choroby, gdy pacjent w rzeczywistości jest zdrowy, powinnien być mniejszy. Oznacza to zatem, że nie wszystkie błędne decyzje klasyfikatora są równie kosztowne

43 Koszty błędnej klasyfikacji A więc liczba błędnych decyzji nie daje pełnej informacji o tym jak dobry jest dany klasyfikator. Chcemy nie tylko ograniczyć liczbę błędnych klasyfikacji, ale również, jeśli już jakieś błędy muszą być popełnione, to wolelibyśmy klasyfikować zdrowych jako chorych a nie odwrotnie. W takich przypadkach definiuje się cztery rodzaje wyników: TP- True Positives - liczba przypadków, gdy test poprawnie dał wynik dodatni (pozytywny) TN- True Negatives - liczba poprawnych wyników ujemnych (negatywnych) FP- False Positives - liczba fałszywych wyników dodatnich (test dał wynik dodatni, mimo że pacjent był zdrowy) FN- False Negatives - liczba fałszywych wyników ujemnych (test dał wynik ujemny, mimo że pacjent był chory)

44 Koszty błędnej klasyfikacji Możemy to opisać za pomocą tabeli : Osoba klasyfikowana Osoba klasyfikowana jako zdrowa jako chora Osoba jest zdrowa TN FP Osoba jest chora FN TP TN, TP - poprawne decyzje FN, FP - błędy Oszacowanie prawdopodobieństwa błędnej klasyfikacji uwzględniające tylko liczbę błędów: FP + FN TN + FP + FN + TP - nie uwzględnia różnych typów błędów.

45 Czułość i specyficzność Osoba klasyfikowana Osoba klasyfikowana jako zdrowa jako chora Osoba jest zdrowa TN FP Osoba jest chora FN TP Uwzględnienie dwóch rodzajów błędów prowadzi do pojęć czułości i specyficzności testu: Czułość = Specyficzność = TP TP + FN TN TN + FP = 1 FP TN + FP

46 Czułość i specyficzność Czułość testu oszacowanie prawdopodobieństwa przewidzenia przez test choroby, pod warunkiem że pacjent jest chory na badaną chorobę. Specyficzność testu oszacowanie prawdopodobieństwa przewidzenia przez test, że pacjent jest zdrowy, pod warunkiem, że rzeczywiście nie jest on chory na badaną chorobę. Chcielibyśmy aby test był czuły, tzn dawał wynik dodatni, gdy pacjent jest chory, i jednocześnie żeby był specyficzny, tzn nie dawał wyniku pozytywnego, gdy pacjent jest zdrowy. Maksymalna czułość (równa 1) oznacza, że test zawsze daje wynik dodatni. Maksymalna czułość zerowa specyficzność

47 Czułość i specyficzność Czułość i specyficzność są wymaganiami przeciwstawnymi - zwiększenie jednego powoduje spadek drugiego. Jednoczesna maksymalizacja tych dwóch wielkości nie jest możliwa. Optymalny klasyfikator (test) wybieramy na podstawie subiektywnej oceny - jako ten, który zapewnia najlepszy kompromis pomiędzy czułością a specyficznością. Sumarycznej informacji o zachowaniu się danego klasyfikatora przy zmiennych kosztach błędnych decyzji daje krzywa operacyjno-charakterystyczna (krzywa ROC). Jest to wykres zależności między zmiennymi Czułość i 1- Specyficzność

48 Przykład - dane iris Rozważmy model regresji logistycznej dla danych iris. Aby móc analizować dane w ten sposób zmienna objaśniana musi mieć wartości 0-1. Aby to uzyskać wybieramy jeden z gatunków analizowanych roślin ( np versicolor) i to czy obserwacja pochodzi z tego gatunku czy nie oznaczamy odpowiednio 1 i 0 Taką zmienną traktujemy jako nową zmienną objaśnianą. 1 Z = Species == " versicolor " >Z [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE... [46] FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE [61] TRUE TRUE...

49 Przykład - dane iris Dopasowujemy model logistyczny 1 logistic. model = glm (Z ~ Sepal. Length + Sepal. Width + Petal. Length + Petal. Width, family = binomial ()) Call: glm(formula = Z ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, family = binomial()) Coefficients: (Intercept) Sepal.Length Sepal.Width Petal.Length Petal.Width

50 Przykład - dane iris Wartości zmiennej Z dopasowane przez model (Ẑ) 1 ## wartości przewidywane przez model 2 logistic. scores = predict ( logistic. model, type = " response ") > logistic.scores Wyznaczenie TP, TN, FP, FN 1 logistic. rocr = prediction ( logistic. scores, Z) Rysunek krzywej ROC: 1 plot ( performance ( logistic. rocr, " tpr ", " fpr "), col = " red ", ylab= Czułość, xlab= 1- Specyficzność )

51 Przykład - dane iris - krzywa ROC dla modelu regresji logistycznej

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa. Wprowadzenie do klasyfikacji pod nadzorem. Klasyfikacja pod nadzorem Klasyfikacja jest

Bardziej szczegółowo

9. Praktyczna ocena jakości klasyfikacji

9. Praktyczna ocena jakości klasyfikacji Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta. Dyskryminacja oparta na regresji liniowej i logistycznej Wprowadzenie Problem analizy dyskryminacyjnej jest ściśle

Bardziej szczegółowo

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych

Bardziej szczegółowo

Klasyfikacja LDA + walidacja

Klasyfikacja LDA + walidacja Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja

Bardziej szczegółowo

WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA. Wydział Matematyki i Nauk Informacyjnych PW

WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA. Wydział Matematyki i Nauk Informacyjnych PW WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA Wydział Matematyki i Nauk Informacyjnych PW Problem klasyfikacji (pod nadzorem) LDA Model sytuacji praktycznej: n par losowych

Bardziej szczegółowo

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora

Bardziej szczegółowo

5. Analiza dyskryminacyjna: FLD, LDA, QDA

5. Analiza dyskryminacyjna: FLD, LDA, QDA Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 8

Indukowane Reguły Decyzyjne I. Wykład 8 Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Metody Bayesa Niepewnośd wiedzy Wiedza uzyskana od ekspertów

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład III bogumil.konopka@pwr.edu.pl 2016/2017 Wykład III - plan Regresja logistyczna Ocena skuteczności klasyfikacji Macierze pomyłek Krzywe

Bardziej szczegółowo

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria Wrocław University of Technology WYKŁAD 7 Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria autor: Maciej Zięba Politechnika Wrocławska Testowanie modeli klasyfikacyjnych Dobór odpowiedniego

Bardziej szczegółowo

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym

Bardziej szczegółowo

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp Wstęp Problem uczenia się pod nadzorem, inaczej nazywany uczeniem się z nauczycielem lub uczeniem się na przykładach, sprowadza się do określenia przydziału obiektów opisanych za pomocą wartości wielu

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Twierzdzenie: Prawdopodobieostwo, że n obserwacji wybranych

Bardziej szczegółowo

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Klasyfikacja Support Vector Machines

Klasyfikacja Support Vector Machines Klasyfikacja Support Vector Machines LABORKA Piotr Ciskowski przykład 1 KLASYFIKACJA KWIATKÓW IRYSA przykład 1. klasyfikacja kwiatków irysa (versicolor-virginica) żródło: pomoc MATLABa: http://www.mathworks.com/help/stats/svmclassify.html

Bardziej szczegółowo

Jądrowe klasyfikatory liniowe

Jądrowe klasyfikatory liniowe Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Wprowadzenie. Data Science Uczenie się pod nadzorem

Wprowadzenie. Data Science Uczenie się pod nadzorem Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.

Wstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne. Wstęp do sieci neuronowych, wykład 13-14,. Metody statystyczne. M. Czoków, J. Piersa Faculty of Mathematics and Computer Science, Nicolaus Copernicus University, Toruń, Poland 2011.01.11 1 Przykład Przeuczenie

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010 STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne. Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-12-06 1 Przykład

Bardziej szczegółowo

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów

Bardziej szczegółowo

STATYSTYKA MAŁYCH OBSZARÓW II.ESTYMATOR HORVITZA-THOMPSONA, ESTYMATOR KALIBROWANY

STATYSTYKA MAŁYCH OBSZARÓW II.ESTYMATOR HORVITZA-THOMPSONA, ESTYMATOR KALIBROWANY STATYSTYKA MAŁYCH OBSZARÓW II.ESTYMATOR HORVITZA-THOMPSONA, ESTYMATOR KALIBROWANY 2.1 Estymator Horvitza-Thompsona 2.1.1 Estymator Horvitza-Thompsona wartości średniej i globalnej w populacji p-nieobciążony

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

Regresja logistyczna

Regresja logistyczna Regresja logistyczna Zacznijmy od danych dotyczących tego czy studenci zostali przyjęci na studia. admissions

Bardziej szczegółowo

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład

Bardziej szczegółowo

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji n-wymiarowych Forma kwadratowa w n wymiarach Procedury minimalizacji Minimalizacja wzdłuż prostej w n-wymiarowej przestrzeni Metody minimalizacji wzdłuż osi współrzędnych wzdłuż kierunków

Bardziej szczegółowo

Pobieranie prób i rozkład z próby

Pobieranie prób i rozkład z próby Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.

Bardziej szczegółowo

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11 Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Metoda największej wiarygodności

Metoda największej wiarygodności Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE Joanna Sawicka Plan prezentacji Model Poissona-Gamma ze składnikiem regresyjnym Konstrukcja optymalnego systemu Bonus- Malus Estymacja

Bardziej szczegółowo

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Stanisław Cichocki Natalia Nehrebecka. Wykład 7 Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności

Bardziej szczegółowo

Uogolnione modele liniowe

Uogolnione modele liniowe Uogolnione modele liniowe Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 1 / 17 (generalized linear model - glm) Zakładamy,

Bardziej szczegółowo

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka. Eksploracja danych OCENA KLASYFIKATORÓW Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi. Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

Wybór modelu i ocena jakości klasyfikatora

Wybór modelu i ocena jakości klasyfikatora Wybór modelu i ocena jakości klasyfikatora Błąd uczenia i błąd testowania Obciążenie, wariancja i złożoność modelu (klasyfikatora) Dekompozycja błędu testowania Optymizm Estymacja błędu testowania AIC,

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24 Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie:

Bardziej szczegółowo

Metody Statystyczne. Metody Statystyczne.

Metody Statystyczne. Metody Statystyczne. gkrol@wz.uw.edu.pl #4 1 Sprawdzian! 5 listopada (ok. 45-60 minut): - Skale pomiarowe - Zmienne ciągłe i dyskretne - Rozkład teoretyczny i empiryczny - Miary tendencji centralnej i rozproszenia - Standaryzacja

Bardziej szczegółowo

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17 Stanisław Cichocki Natalia Neherebecka Zajęcia 15-17 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary

Bardziej szczegółowo

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach maja, 7 Rozglądanie się w D Plan Klasyka z brodą: zbiór danych Iris analiza składowych głównych (PCA), czyli redukcja

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

Popularne klasyfikatory w pakietach komputerowych

Popularne klasyfikatory w pakietach komputerowych Popularne klasyfikatory w pakietach komputerowych Klasyfikator liniowy Uogólniony klasyfikator liniowy SVM aiwny klasyfikator bayesowski Ocena klasyfikatora ROC Lista popularnych pakietów Klasyfikator

Bardziej szczegółowo

Ocena dokładności diagnozy

Ocena dokładności diagnozy Ocena dokładności diagnozy Diagnoza medyczna, w wielu przypadkach może być interpretowana jako działanie polegające na podjęciu jednej z dwóch decyzji odnośnie stanu zdrowotnego pacjenta: 0 pacjent zdrowy

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary dopasowania 4.

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Regresja liniowa wprowadzenie

Regresja liniowa wprowadzenie Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem

Bardziej szczegółowo

Zagadnienie klasyfikacji (dyskryminacji)

Zagadnienie klasyfikacji (dyskryminacji) Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 ANALIZA REGRESJI WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej

Bardziej szczegółowo

Estymacja parametrów w modelu normalnym

Estymacja parametrów w modelu normalnym Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji ML Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym

Bardziej szczegółowo

Metoda największej wiarogodności

Metoda największej wiarogodności Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

Centralne twierdzenie graniczne

Centralne twierdzenie graniczne Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski Wykład 4 Ważne uzupełnienie Dwuwymiarowy rozkład normalny N (µ X, µ Y, σ X, σ Y, ρ): f XY (x, y) = 1 2πσ X σ Y 1 ρ 2 { [ (x ) 1

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

Ekonometria Analiza dyskryminacyjna

Ekonometria Analiza dyskryminacyjna Ekonometria Analiza dyskryminacyjna Paweł Cibis pawel@cibis.pl 11 maja 2007 A dlaczego Power Point? a tak dla odmiany ;-); Wielowymiarowa analiza porównawcza Dyscyplina naukowa zajmująca się porównywaniem

Bardziej szczegółowo

STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR

STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR 1 STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR 3.1 Najlepszy predyktor i empiryczny najlepszy predyktor 3.1.1 Najlepszy predyktor i empiryczny najlepszy predyktor Ogólny mieszany model

Bardziej szczegółowo

Analiza statystyczna trudności tekstu

Analiza statystyczna trudności tekstu Analiza statystyczna trudności tekstu Łukasz Dębowski ldebowsk@ipipan.waw.pl Problem badawczy Chcielibyśmy mieć wzór matematyczny,...... który dla dowolnego tekstu...... na podstawie pewnych statystyk......

Bardziej szczegółowo

Regresja nieparametryczna series estimator

Regresja nieparametryczna series estimator Regresja nieparametryczna series estimator 1 Literatura Bruce Hansen (2018) Econometrics, rozdział 18 2 Regresja nieparametryczna Dwie główne metody estymacji Estymatory jądrowe Series estimators (estymatory

Bardziej szczegółowo