PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.

Wielkość: px
Rozpocząć pokaz od strony:

Download "PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta."

Transkrypt

1 Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.

2 Dyskryminacja oparta na regresji liniowej i logistycznej

3 Wprowadzenie Problem analizy dyskryminacyjnej jest ściśle związany z zagadnieniem analizy regresji: Analiza dyskryminacyjna jest zadaniem estymacji funkcji, będącej w tym przypadku funkcją o kilku wartościach liczbowych (będących indeksami klas) W przypadku tylko dwóch klas (g = 2) zakodowanych jako {0, 1} E(Y x) = 0 P(Y = 0 x) + 1 P(Y = 1 x) = P(Y = 1 x) Zatem zadanie analizy dyskryminacyjnej można przedstawić jako zadanie analizy regresji z funkcją regresji równą P(Y = 1 x). Podobnie dla większej liczby klas (g > 2) analizę dyskryminacyjną można przedstawić jako zadanie wielowymiarowej analizy regresji, czyli analizy regresji z wektorową zmienną objaśnianą.

4 Dyskryminacja jako zadanie regresji liniowej Zadanie analizy dyskryminacyjnej można zatem rozwiązywać metodami stosowanymi w analizie regresji. Funkcję E(Y x) można estymować za pomocą liniowej funkcji zmiennych x (j), j = 1, 2,..., p. Klasyfikacja do klas odbywa się na podstawie wartości prawdopodobieństw P(Y = 1 x), tzn.: Jeśli dla danej obserwacji x, P(Y = 1 x) > 1, obserwacja jest 2 klasyfikowana jako należąca do klasy 1 Jeśli P(Y = 1 x) < 1, obserwacja jest klasyfikowana jako należąca 2 do klasy 0 Jeśli P(Y = 1 x) = 1, to decyzja o klasyfikacji należy do 2 eksperymentatora.

5 Dyskryminacja jako zadanie regresji liniowej Badamy przypadek z g 2 klasami. Etykiety klas: za pomocą wektora wskaźnikowego Etykieta ma postać Y = (y (1), y (2),..., y (g) ) i dla k-tej klasy jest równa Y = (0, 0,..., 0, 1, 0,..., 0) tzn. k-ta współrzędna wektora wskaźnikowego jest równa 1. Próbę (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) można zapisać za pomocą dwóch macierzy: Macierzy planu (doświadczenia) : X (n,p+1) = 1 x (1) 1 x (2) 1... x (p) 1 1 x (1) 2 x (2) 2... x (p) x n (1) x n (2)... x n (p) 2.

6 Macierzy wektorów odpowiedzi: Y (n,g) = y (1) 1 y (2) 1... y (g) 1 y (1) 2 y (2) 2... y (g) y n (1) y n (2)... y n (g) Zadanie polega na skonstruowaniu na podstawie próby uczącej modelu liniowego określającego relację pomiędzy wektorem zmiennych objaśniających x = (x (1), x (2),..., x (p) ) a wektorem zmiennych objaśnianych y = (y (1), y (2),..., y (g) ).

7 Jest to uogólnienie modelu regresji wielokrotnej na przypadek, gdy zmienna objaśniana jest wektorem - tzn regresja wielowymiarowa. Estymacja parametrów równania regresji odbywa się za pomocą uogólnionej metody najmniejszych kwadratów : Mamy do estymacji g (p + 1) parametrów. Rozwiązaniem zadania estymacji jest zatem pewna macierz ˆB wymiarów (p + 1) g. Uogólniona metoda najmniejszych kwadratów polega na wyznaczeniu macierzy ˆB spełniającej warunek n min y i [1, x i ]B 2, B i=1 gdzie dla α = (α 1, α 2,..., α g ) α 2 = g j=1 α 2 j Jest to zatem g niezależnych zadań regresji wielokrotnej W każdym z nich występuje ta sama macierz obserwacji X ale za każdym razem inna kolumna macierzy Y.

8 Rozwiązania każdego z g zagadnień jest znane (MNK). Ich wspólny zapis : Ŷ = X ˆB, gdzie ˆB = (X T X ) 1 X T Y. nowej obserwacji x odpowiada wektor g-wymiarowy odpowiedzi ŷ: ŷ(x) = [1, x] ˆB. Przy przyjętej notacji możemy napisać p(k x) = E(y (k) x) a zatem [1, x] ˆB jest liniowym estymatorem prawdopodobieństw a posteriori p(k x) dla k = 1, 2,..., g.

9 Budowany klasyfikator opiera się na regule Bayesa, z tą różnicą, że zamiast prawdziwych wartości prawdopodobieństw a posteriori stosuje się ich liniowe estymatory (ponieważ są nieznane). Dla każdej wartości x g ŷ (k) (x) = 1. k=1 Reguła dyskryminacyjna bazująca na regule Bayesa dla obserwacji x polega na wyborze klasy odpowiadającej największej wartości współrzędnych wektora odpowiedzi ŷ(x), tj. ĉ(x) = argmax k {1,2,...,g} ŷ (k) (x). Uwaga: estymator prawdopodobieństwa p(k x) postaci ŷ (k) (x) może przyjmować wartości ujemne lub większe od 1.

10 W przypadku dwóch klas (g = 2) rozwiązanie regresyjne jest bardzo bliskie rozwiązaniu otrzymanemu metodą LDA. W wynikowym modelu regresji liniowej ŷ(x) = β 0 + p β i x (i) wektor współczynników (β 1, β 2,..., β p ) T maksymalizuje iloraz i=1 (a T (x 1 x 2 )) 2 a T W a A zatem model regresji liniowej wyznacza kierunek najlepiej rozdzielający klasy według zasady LDA. Otrzymana w ten sposób reguła dyskryminacyjna pokrywa się z regułą LDA tylko jeśli obie próby uczące są równoliczne.

11 Maskowanie klas W przypadku więcej niż dwóch klas (g > 2) pojawia się problem tzw. maskowania klas: klasyfikator nie widzi"pewnych obserwacji w drastycznych przypadkach klasyfikator całkowicie pomija jedną z klas, tzn. nigdy na nią nie wskazuje (Przykład od Koronacki, Ćwik)

12 Przykład c.d. Trzy funkcje regresji na jednym wykresie - klasa 2. (linia najbliższa poziomej) jest maskowana przez dwie pozostałe

13 Dyskryminacja logistyczna

14 Dyskryminacja logistyczna Model dyskryminacji opartej na regresji liniowej dopuszcza uogólnienia nieliniowe. Takim uogólnieniem jest przykład dyskryminacji logistycznej. Rozważmy przypadek dwóch klas (g = 2). Klasy kodujemy za pomocą ich numerów (tzn. 1, 2). Modelem regresyjnym zapewniającym, że wartości estymatora ˆp(2 x) znajdą się w przedziale [0, 1] jest następujący model logistyczny ( ) ˆp(2 x) ln = α + β T x. 1 ˆp(2 x) ( Funkcję ln u 1 u ) nazywa się funkcją logitową i oznacza się logit(u) Model ( ) ˆp(2 x) ln = α + β T x. 1 ˆp(2 x) można zapisać jako logit(ˆp(2 x)) = α + β T x.

15 Stąd możemy wyznaczyć: oraz ˆp(2 x) = exp(α + βt x) 1 + exp(α + β T x) ˆp(1 x) = exp(α + β T x). Estymatory ˆp(2 x) i ˆp(1 x) spełniają warunki: ˆp(2 x) (0, 1), ˆp(1 x) (0, 1) Dla każdego x ˆp(1 x) + ˆp(2 x) = 1. Wskazują kierunek, wzdłuż którego jedno z prawdopodobieństw rośnie do 1, a drugie maleje do 0. Obserwacja zostanie zaklasyfikowana do klasy 2 jeśli ˆp(2 x) > ˆp(1 x), czyli gdy ( ) ( ) ˆp(2 x) ˆp(2 x) ln = ln > 0 1 ˆp(2 x) ˆp(1 x)

16 Estymacja parametrów modelu Parametry modelu logit(ˆp(2 x)) = α + β T x estymujemy na podstawie próby, stosując metodę największej wiarogodności. Mając te estymatory regułę dyskryminacyjną formułujemy jako: Wybierz większą z wartości ˆp(1 x), ˆp(2 x), a następnie obserwację x zaklasyfikuj do klasy na którą wskazuje wybrane prawdopobieństwo Analizowany model można uogólnić na przypadek większej liczby klas g 2: ln ˆp(1 x) ˆp(g x) = β 10 + β T 1 x ln ln ˆp(2 x) ˆp(g x) = β 20 + β T 2 x ˆp(g 1 x) ˆp(g x). = β (g 1)0 + β T g 1x

17 Uogólnienie na liczbę klas g 2 Wybór klasy umieszczonej w mianowniku powyższych wyrażeń jest dowolny, ale musi to być ta sama klasa dla wszystkich wyrażeń. Prowadzi to do uzyskania, dla k = 1, 2,..., g 1 wyrażeń oraz Oczywiście ˆp(k x) = ˆp(g x) = exp(β k0 + β T k x) 1 + g 1 l=1 exp(β l0 + β T l x) g 1 l=1 exp(β l0 + β T l x) g p(l x) = 1. l=1

18 Uogólnienie na liczbę klas g 2 Niech ˆp(k x) = ˆp k (x; θ), gdzie θ = (β 10, β 1,..., β (g 1)0, β g 1 ) Wówczas logarytm funkcji wiarogodności ma postać ( n ) n ln ˆp ki (x i ; θ) = ln(ˆp ki (x i ; θ)), i=1 i=1 gdzie k i jest klasą dla i-tego elementu próby. Maksymalizacja tej funkcji względem parametru θ prowadzi do uzyskania estymatora największej wiarogodności dla tego parametru. Tym samym uzyskujemy estymatory wszystkich prawdopodobieństw a posteriori. Reguła dyskryminacyjna bazuje na regule bayesowskiej, tj. wybiera klasę o największym prawdopodobieństwie a posteriori.

19 Uwaga: Dla g = 2 i jeżeli klasy mają rozkłady normalne o takiej samej macierzy kowariancji Σ oraz prawdopodobieństwa a priori przynależności do klas są równe, tzn. π 1 = π 2, to otrzymane rozwiązanie jest identyczne z rozwiązaniem LDA.

20 Przykład: Dane Pima Indians Diabetes Database Zbiór ten zawiera dane statystyczne dotyczące kobiet pod kątem klasyfikacji czy chorują na cukrzycę czy też nie. Zbiór zawiera 768 elementów. Zmienne w zbiorze danych: pregnant Liczba przebytych ciąż glucose Koncentracja glukozy w osoczu pressure Ciśnienie krwi (mm Hg) triceps Grubość fałdu skórnego na tricepsie (mm) insulin Dwugodzinna surowica insuliny (mu U/ml) mass Indeks masy ciała (waga w kg/(wzrost w m) 2 ) pedigree Pochodzenie cukrzycy age Wiek w latach diabetes Obecność cukrzycy (0-1)

21 Przykład: Dane Pima Indians Diabetes Database 1 PID <- read. table (" dane _ diabetycy. txt ", header =TRUE, sep=",", dec=".") 2 head ( PID ) pregnant glucose pressure triceps insulin mass

22 Przykład: Dane Pima Indians Diabetes Database Regresja logistyczna może być przeprowadzona w R poprzez użycie funkcji glm() z parametrem family=binomial. 1 modelglm <- glm ( diabetes ~., data = PID, family = binomial ) 2 summary ( modelglm ) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** pregnant *** glucose < 2e-16 *** pressure * triceps insulin mass e-09 *** pedigree ** age

23 Przykład: Dane Pima Indians Diabetes Database 1 predictglm <- predict ( mod.glm, newdata = PID ) 2 plot ( predictglm, pch = as. numeric ( PID$ diabetes ) + 1)

24 Przykład: Dane Pima Indians Diabetes Database Predykcja przynależności do klas: 1 train <- sample (1: nrow ( PID ), 300) 2 predictlr <- predict ( mod.glm, newdata = PID [- train, ]) 3 TAB <- table ( PID$ diabetes [- train ], predictlr > 0) > TAB FALSE TRUE Błąd klasyfikacji: 1 mcrlr <- 1 - sum ( diag ( TAB ))/ sum ( TAB ) 2 mcrlr > mcrlr [1]

25 Przykład: Dane Pima Indians Diabetes Database Porównanie z metodą LDA: 1 library ( MASS ) 2 pid. lda = lda ( diabetes ~., data = PID ) 3 pid. lda Prior probabilities of groups: Coefficients of linear discriminants: LD1 pregnant glucose pressure triceps insulin mass pedigree age

26 Przykład: Dane Pima Indians Diabetes Database Porównanie z metodą LDA: 1 ## Predykcja przynależności do klasy : 2 pid. predict <- predict ( pid.lda, PID [,1:8]) > head(pid.predict$class) [1] Levels: 0 1 > head(pid.predict$posterior)

27 Przykład: Dane Pima Indians Diabetes Database Porównanie z metodą LDA: 1 ## Procent właściwie zaklasyfikowanych obiektów : 2 pid. classperc <-sum ( pid. classify == PID [,9]) / nrow ( PID ) > pid.classperc [1] ## Proporcja błędnych klasyfikacji 2 1- pid. classperc > 1-pid.classperc [1] Wniosek: Dla tego zbioru danych metoda LDA prowadzi do uzyskania mniejszego błędu klasyfikacji.

28 Diagnostyka modelu

29 Odchylenie modelu Rozważamy przypadek z dwoma klasami g = 2 w modelu regresji logistycznej. W przypadku estymacji opartej na metodzie NW, podstawowym wskaźnikiem dopasowania modelu do danych jest tzw. odchylenie modelu (ang. model deviance). NIech ω oznacza pewien dowolny, ustalony model oraz niech ω nas oznacza model nasycony, tj. model idealnie dopasowany do danych, z liczbą parametrów równą liczbie obserwacji w próbie. W modelu nasyconym zakładamy, że dla n obserwacji jest on opisany przez n prawdopodobieństw P(y 1 = 1 x 1 ),..., P(y n = 1 x n ), które możemy szacować dowolnie. Odchylenie modelu ω oznaczamy dev ω i definiujemy jako dev ω = 2 ln L ω nas (ˆθ NW ) L ω (ˆθ NW ), gdzie L ω oznacza funkcję wiarogodności w modelu ω, ˆθ NW - estymator największej wiarogodności w odpowiednim modelu.

30 Odchylenie modelu Odchylenie modelu jest wyrażeniem zawsze nieujemnym. Dla modelu logistycznego ma postać n dev ω = 2 y i ln ˆp i (1 y i ) ln(1 ˆp i ), i=1 gdzie ˆp i = ˆP(y = 1 x i ) jest estymatorem NW dla P(y = 1 x i ), takim, że ( ) ˆP(y = 1 x i ) ln = ˆα + ˆβ 1 ˆP(y T x i = 1 x i ) ˆα, ˆβ są wartościami maksymalizującymi funkcję wiarogodności.

31 Odchylenie modelu Jeśli estymator ˆp i dobrze prognozuje wartość P(y = 1 x i ), tzn ˆpi jest bliska 1 gdy y i = 1 oraz ˆp i jest bliska 0 gdy y i = 0, to odchylenie jest małe. Duże wartości odchylenia wskazują na złe dopasowanie modelu. Odchylenie modelu jest miarą uniwersalną którą możemy stosować do analizy dowolnych modeli. Stosowane jest do analizy problemu istotności jednej lub większej liczby zmiennych objaśniających w modelu. Taka analiza polega na porównaniu odchyleń modelu w przypadku użycia oraz nieużycia analizowanych zmiennych w modelu. Obecność zmiennych nieistotnych w modelu zwiększa błędy oszacowania współczynników istotnych zmiennych i pogarsza dopasowanie modelu.

32 Odchylenie modelu Załóżmy, że ω jest modelem regresji logistycznej o q zmiennych x 1, x 2,..., x q, Ω jest modelem zawierającym zmienne x 1, x 2,..., x q, x q+1,..., x p symbolicznie : ω Ω Rozważamy problem, czy któraś ze zmiennych x q+1,..., x p (jedna, kilka z nich lub wszystkie) wnosi istotną informację do modelu. Można to analizować jako problem testowania hipotezy : H0 : ω przy alternatywie H A : Ω tzn. model ω jest właściwy przeciwko model Ω jest właściwy Za statystykę testową przyjmuje się różnicę odchyleń dla mniejszego i większego modelu: D = dev ω dev Ω.

33 Twierdzenie Przy spełnieniu hipotezy H 0 zmienna D = dev ω dev Ω ma dla dużych liczności próby rozkład χ 2 z p q stopniami swobody. To twierdzenie pozwala odpowiedzieć na pytania: Czy postulowany model zawiera istotną informację na temat problemu klasyfikacji? Na przykład za model ω możemy przyjąć model w którym występuje tylko stała, a za Ω - model zawierający pewną grupę p zmiennych. Wówczas statystyka D przy spełnionej hipotezie H0 będzie miała rozkład χ 2 z p stopniami swobody. Odrzucenie H0 oznacza, że pewna grupa zmiennych spośród x 1, x 2,... x p ( jedna, kilka lub wszystkie) ma istotny wpływ na zmienną y.

34 Czy konkretna zmienna objaśniająca niesie nową informację, gdy uwzględniliśmy wpływ pozostałych zmiennych objaśniających? Aby zbadać czy zmienna xp wnosi istotną informację do modelu w którym są już zmienne x 1, x 2,..., x p 1, przyjmujemy że model ω jest modelem ze zmiennymi x 1, x 2,..., x p 1, a model Ω - modelem ze zmiennymi x 1, x 2,..., x p. Testujemy H0 : ω przy alternatywie H A : Ω Odrzucenie hipotezy H0 sugeruje, że zmienna x p powinna być włączona do modelu.

35 Problem adekwatności modelu logistycznego W zwykłym modelu liniowym podstawowym narzędziem do badania adekwatności modelu są wartości resztowe e i = y i ŷ i, i {1, 2,..., n}. Wykres reszt względem ich indeksów w przypadku adekwatności modelu nie powinien wykazywać żadnej wewnętrznej struktury zależności i skupiać się wokół prostej y = 0. W przypadku modelu logistycznego ω, reszty modelu modyfikuje się tak, aby suma ich kwadratów była równa odchyleniu modelu: n i=1 d 2 i = dev ω. Uzyskuje się to przyjmując, że d i = { 2 log(1 ˆpi ), gdy y i = 0 2 log(ˆpi ), gdy y i = 1.

36 Reszty modelu logistycznego Reszty d i są ujemne gdy y i = 0, oraz dodatnie, gdy y i = 1. Wykres może mieć pewną strukturę zależności. Wykres reszt użyteczny do wyznaczenia obserwacji odstających. Do wykrycia obserwacji odstających także normalny wykres kwantylowy. W przypadku wykrycia obserwacji odstających usuwa się je ze zbioru danych i ponownie dopasowuje model.

37 Miara dopasowania modelu logistycznego W przypadku modelu liniowego miarą dopasowania modelu jest współczynnik R 2 oznaczający proporcję wariancji wyjaśnianej przez model: n R 2 i=1 = 1 (y i ŷ i ) 2 n i=1 (y i y). 2 W modelu logistycznym analogiczną miarą jest 1 dev ω dev ω0, gdzie dev ω0 jest odchyleniem modelu ω 0, zawierającego tylko stałą.

38 Diagnostyka modelu logistycznego- podsumowanie Taka diagnostyka umożliwia zaproponowanie dobrego modelu na podstawie próby uczącej. Nie daje pełnej oceny jakości wybranego modelu. Taka ocena wymaga zbadania działania klasyfikatora na nowych danych a nie na danych na których został on skonstruowany.

39 Perceptron Rosenblatta

40 Perceptron Rosenblatta Perceptron Rosenblatta jest algorytmem uczenia pojedynczego sztucznego neuronu, czyli algorytmem nawiązującym do idei sztucznych neuronów. Zadaniem algorytmu jest konstrukcja prostej (hiperpłaszczyzny) rozdzielającej klasy. Jest to zadanie analizy dyskryminacyjnej, z rozwiązaniem będącym klasyfikatorem liniowym. Niech n -liczność próby uczącej, x i, i = 1, 2,..., n są obserwacjami p-wymiarowymi, tzn g = 2, tzn, rozważamy dwie klasy. x i = (x (1) i, x (2) i,..., x (p) i ).

41 Perceptron Rosenblatta Algorytm uczenia perceptronu zakłada liniową rozdzielność klas. Oznacza to, że dla wektora obserwacji x R p, wektora współczynników (wag) w stałej b, istnieje funkcja w T x + b, dodatnia dla wszystkich obserwacji z jednej klasy i ujemna, dla wsystkich obserwacji z drugiej klasy. Hiperpłaszczyzna idealnie rozdzielająca klasy ma postać w T x + b = 0. Uczenie perceptronu polega na wyznaczeniu wektora wag (w (0), w (1),..., w (p) ), gdzie przyjmujemy w (0) = b.

42 Perceptron Rosenblatta Zadanie dyskryminacji polega na znalezieniu właściwych wag w spełniających w T x = 0. Przy przyjętych oznaczeniach wyznaczenie klasyfikatora polega więc na rozwiązaniu równania p w (k) x(k) = 0. k=0 Wprowadzamy nowe wektory z i, i = 1, 2,..., n postaci { x z i = i, gdy i-ta obserwacja należy do klasy 1, x i, gdy i-ta obserwacja należy do klasy 2.. W przypadku bezbłędnej klasyfikacji wektora z klasy 1 w T x i > 0. W przypadku bezbłędnej klasyfikacji wektora z klasy 2 w T x i < 0.

43 Wówczas bezbłędne zaklasyfikowanie wszystkich obserwacji z próby uczącej oznacza, że w T z i > 0, dla wszystkich i {1, 2,..., n}. Załóżmy, że przyjęte wagi w nie dają idealnej klasyfikacji. Niech M oznacza zbiór indeksów obserwacji, dla których klasyfikacja była błędna. Wówczas sumę w T z i i M nazywa się kryterium perceptronowym. Zatem problem wyznaczenia wag można sprowadzić do następującego kryterium : Zminimalizuj ze względu na w wartość kryterium perceptronowego, gdzie sumowanie przebiega przez wszystkie źle zaklasyfikowane obserwacje.

44 Optymalizacja wag metodą MNK Zdefiniujmy oraz HL(t) = I (w T z i < 0) = { 1, gdy t > 0 1, gdy t 0 { 1, gdy w T z i < 0 0, gdy w T z i 0 Wówczas kryterium perceptronowe można zapisać w postaci: n w T z i = w T z i I (w T z i < 0) i M i=1 Zauważmy następnie, że { 1 HL(w T 1, gdy w z i ) = 1 T z i > 0 1, gdy w T z i 0 = = 2 I (w T z i 0) { 0, gdy w T z i > 0 2, gdy w T z i 0 =

45 Optymalizacja wag metodą MNK A zatem kryterium perceptronowe możemy zapisać jako = 1 2 gdzie ỹ i = w T z i = i M n w T z i I (w T z i < 0) i=1 n (1 HL(w T z i ))w T z i = 1 2 i=1 n (ỹ i HL(w T x i ))w T z i, i=1 { 1, gdy x i pochodzi z klasy 1. 1, gdy x i pochodzi z klasy 2. Zatem kryterium przyjmuje wartość 0, gdy ỹ = (HL(w T x 1 ),..., HL(w T x n )) T Jest więc miarą różnicy pomiędzy wektorami ỹ a (w T x 1,..., w T x n ) T, czyli miarą różnicy ỹ X w.

46 Optymalizacja wag metodą MNK W metodzie najmniejszych kwadratów minimalizacji ulega wielkość (ỹ X w) T (ỹ X w). Rozwiązaniem zagadnienia minimalizacji jest wektor w = (X T X ) 1 X T ỹ. Modyfikacją tej metody jest reguła Widrowa-Hoffa (reguła delta), w której rozwiązanie jest wyznaczane iteracyjnie z zależności w l+1 = w l + ρ l (ỹ i w T x i )x i.

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa. Wprowadzenie do klasyfikacji pod nadzorem. Klasyfikacja pod nadzorem Klasyfikacja jest

Bardziej szczegółowo

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Twierzdzenie: Prawdopodobieostwo, że n obserwacji wybranych

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa. Kwadratowa analiza dyskryminacyjna Przykład analizy QDA Czasem nie jest możliwe rozdzielenie

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Analiza zależności cech ilościowych regresja liniowa (Wykład 13) Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny

Bardziej szczegółowo

Quick Launch Manual:

Quick Launch Manual: egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile

Bardziej szczegółowo

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago Model regresji wielokrotnej Wykład 14 (4.06.2007) Przykład ceny domów w Chicago Poniżej są przedstawione dane dotyczące cen domów w Chicago (źródło: Sen, A., Srivastava, M., Regression Analysis, Springer,

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K

Bardziej szczegółowo

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi. Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a

Bardziej szczegółowo

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda

Bardziej szczegółowo

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9 Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Prawdopodobieństwo i statystyka r.

Prawdopodobieństwo i statystyka r. Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje

Bardziej szczegółowo

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym

Bardziej szczegółowo

Regresja liniowa wprowadzenie

Regresja liniowa wprowadzenie Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem

Bardziej szczegółowo

Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót

Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót powrót Spis treści 1 Wstęp 2 Regresja logistyczna 2.1 Hipoteza 2.2 Estymacja parametrów 2.2.1 Funkcja wiarygodności 3 Uogólnione modele liniowe 3.1 Rodzina wykładnicza 3.1.1 Rozkład Bernouliego 3.1.2 Rozkład

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

WYKŁAD II: Klasyfikacja logistyczna. MiNI PW

WYKŁAD II: Klasyfikacja logistyczna. MiNI PW WYKŁAD II: Klasyfikacja logistyczna MiNI PW Rozpatrywane dotąd metody klasyfikacji: LDA Fishera (liniowa reguła klasyfikacyjna); Reguła Bayesowska (jej wersja empiryczna dla rozkładów normalnych ze wspólną

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Bardziej szczegółowo

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =. Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,

Bardziej szczegółowo

Metoda największej wiarogodności

Metoda największej wiarogodności Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm

Bardziej szczegółowo

Uogolnione modele liniowe

Uogolnione modele liniowe Uogolnione modele liniowe Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 1 / 17 (generalized linear model - glm) Zakładamy,

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym

Bardziej szczegółowo

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2. Zadanie 1 Niech y t ma rozkład logarytmiczno normalny o funkcji gęstości postaci [ ] 1 f (y t ) = y exp (ln y t β ln x t ) 2 t 2πσ 2 2σ 2 Zakładamy, że x t jest nielosowe a y t są nieskorelowane w czasie.

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010 STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24 Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie:

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny

Bardziej szczegółowo

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 ANALIZA REGRESJI WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej

Bardziej szczegółowo

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Modelowanie zmiennej jakościowej Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 8 Zmienna jakościowa 1 / 25 Zmienna jakościowa Zmienna ilościowa może zostać zmierzona

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30 Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N = HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

5. Analiza dyskryminacyjna: FLD, LDA, QDA

5. Analiza dyskryminacyjna: FLD, LDA, QDA Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki

Bardziej szczegółowo

Estymacja parametrów rozkładu cechy

Estymacja parametrów rozkładu cechy Estymacja parametrów rozkładu cechy Estymujemy parametr θ rozkładu cechy X Próba: X 1, X 2,..., X n Estymator punktowy jest funkcją próby ˆθ = ˆθX 1, X 2,..., X n przybliżającą wartość parametru θ Przedział

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna

Bardziej szczegółowo

1.9 Czasowy wymiar danych

1.9 Czasowy wymiar danych 1.9 Czasowy wymiar danych Do tej pory rozpatrywaliśmy jedynie modele tworzone na podstawie danych empirycznych pochodzących z prób przekrojowych. Teraz zajmiemy się zagadnieniem budowy modeli regresji,

Bardziej szczegółowo

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów

Bardziej szczegółowo

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń 1. Problem ozwaŝamy zjawisko (model): Y = β 1 X 1 X +...+ β k X k +Z Ηβ = w r Hipoteza alternatywna: Ηβ w r

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

Kolokwium ze statystyki matematycznej

Kolokwium ze statystyki matematycznej Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem

Bardziej szczegółowo

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q

Bardziej szczegółowo

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11 Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014 Estymacja przedziałowa - przedziały ufności dla średnich Wrocław, 5 grudnia 2014 Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja Przedziałem ufności dla paramertu

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 13 i 14 1 / 15 MODEL BAYESOWSKI, przykład wstępny Statystyka

Bardziej szczegółowo

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 3 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.hedonic.dta przygotuj model oszacowujący wartość kosztów zewnętrznych rolnictwa 1. Przeprowadź regresję objaśniającą

Bardziej szczegółowo

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer

Bardziej szczegółowo

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo

Bardziej szczegółowo

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y

Bardziej szczegółowo

1.1 Wstęp Literatura... 1

1.1 Wstęp Literatura... 1 Spis treści Spis treści 1 Wstęp 1 1.1 Wstęp................................ 1 1.2 Literatura.............................. 1 2 Elementy rachunku prawdopodobieństwa 2 2.1 Podstawy..............................

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Metody probabilistyczne

Metody probabilistyczne Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy

Bardziej szczegółowo

Regresyjne metody łączenia klasyfikatorów

Regresyjne metody łączenia klasyfikatorów Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników

Bardziej szczegółowo