WYKŁAD II: Klasyfikacja logistyczna. MiNI PW

Wielkość: px
Rozpocząć pokaz od strony:

Download "WYKŁAD II: Klasyfikacja logistyczna. MiNI PW"

Transkrypt

1 WYKŁAD II: Klasyfikacja logistyczna MiNI PW

2 Rozpatrywane dotąd metody klasyfikacji: LDA Fishera (liniowa reguła klasyfikacyjna); Reguła Bayesowska (jej wersja empiryczna dla rozkładów normalnych ze wspólną macierzą Σ pokrywa się z LDA). Inne metody liniowe? Klasyfikacja logistyczna oparta na modelu regresji logistycznej. Jedno z zastosowań: reklamy pojawiające się na stronie są dobierane na podstawie modelu regresji logistycznej/probitowej gdzie zmiennymi objaśniajacymi są słowa kluczowe.

3 Regresja logistyczna Bardzo częsta sytuacja: odpowiedź Y jest zerojedynkowa, chcemy stwierdzić, jak zależy od wektora zmiennych objaśniających x. Najczęstsza sytuacja Y : sukces (figuratywnie pojmowany) lub porażka Z reguły nie stosujemy bezpośrednio modelu regresji liniowej (Y w modelu regresji liniowej jest cechą ilościową): problem estymacji prawd. aposteriori, maskowania się klas. P(Y = 1 x) = π(x) = E(Y x) π(x) modelujemy zależność π od x, a nie Y od x. x R p

4 Regresja logistyczna Zamiast bezpośrednio modelować π(x) modelujemy logarytm szansy szansa = π(x) (1 π(x)) π(x) logit(π(x)) := log( 1 π(x) ) = β x, logarytm szansy jest kombinacją liniową predyktorów. π(x) = exp (β x) 1 + exp (β x) = exp ( β x)

5 Niech p = 1 i β = s, popatrzmy na zachowanie się funkcji 1/(1 + exp( sx)) Sigmoid Function sigma(s*x) y s=0.5 s=1 s= x Dla małych s główna część krzywej w przybliżeniu liniowa, dla dużych s - indykator zbioru (0, ).

6 Inna interpretacja modelu logistycznego lub gdzie ε ma rozkład logistyczny Y = I {X β ε 0} Y = I {X β + ε 0}, F ε (s) = exp ( s). Interpretacja współczynników Mamy (dla x = (1, x) ) logit(π(x + 1)) logit(π(x)) = β 0 + β 1 (x + 1) (β 0 + β 1 x) = β 1 exp(β 1 ) = exp(β 1 ) jest równa ilorazowi szans. π(x + 1) ( π(x) ) 1 1 π(x + 1) 1 π(x)

7 Metoda warunkowej największej wiarogodności Estymacja β Założenia: Y 1, Y 2,..., Y n niezależne, Y i Bin(1, π(x i )) f i (Y i ) = π Y i i (1 π i ) 1 Y i n n f i (Y i ) = π Y i i (1 π i ) 1 Y i =: L i=1 i=1 π i L = log L = Y i log( ) + log(1 π i ) = 1 π i Yi β x i log{1 + exp(β x i )} Iteracyjne szukanie 0 pochodnej L metodą Raphsona Newtona. L jest funkcją wklęsłą parametru β: w zerze pochodnej minimum.

8 Metoda Iterowanych Przeważonych Najmniejszych Kwadratów Metoda Iterowanych Przeważonych Najmniejszych Kwadratów (Iterated Reweighted Least Squares, IRLS) Potrzebne funkcja wynikowa i Hessjan log L β = n x i (Y i π(x i )) = X (Y π) i=1 gdzie 2 log L β β = n x i x iπ(x i )(1 π(x i )) = X WX, i=1 π = (π(x 1 ),..., π(x 1 )) W = diag(π(x 1 )(1 π(x 1 )),..., π(x n )(1 π(x n )))

9 Metoda Iterowanych Przeważonych Najmniejszych Kwadratów Metoda Raphsona-Newtona gdzie β new = β old + (X WX) 1 X (Y π)) = (X WX) 1 X W(Xβ old + W 1 (Y π)) = (X WX) 1 X Wz, z = Xβ old + W 1 (Y π) jest tak zwaną odpowiedzią dopasowaną. Każde dopasowanie: metoda ważonych najmniejszych kwadratów (ze zmieniającą się macierzą W i z). β (0) = 0 lub β (0) = β LS. Dla p > n nie działa ((X WX) 1 nie istnieje.)

10 Inne metody estymacji Estymator Blyth a zmniejszający obciążenie estymatora ˆβ NW ; regularyzowany estymator Lasso argmin b { 2 L λ p b i } i=1 i różne jego warianty. Więcej na wykładzie z uogólnionych modeli liniowych.

11 Dowolna dająca 0 π(x) 1 jest dobra. Inne możliwości: inaczej modelowana zależność π(x) od x. Regresja probitowa: Φ 1 (π(x)) = β x Φ dystrybuanta N(0, 1). Zbior danych bliss dane dotyczący skuteczności środka owadobójczego. Dopasowanie modelu regresji logistycznej procedura glm, opcja family= binomial. Uwaga: możliwe dane zagregowane/grupowane postaci: Przykład dane bliss wartość x liczba sukcesów liczba porażek

12 dead alive conc g <- glm(cbind(dead,alive) ~ conc, family=binomial, data=bliss) gp <- glm(cbind(dead,alive) ~ conc, family=binomial(link=probit), data=bliss) pl= g$fit ilogit(g$coef[1]+g$coef[2]*bliss$conc) # otrzymujemy to samo pp=gp$fit x <- seq(-2,8,0.2) plot(x,pl,type="l",ylab="probability",xlab="dose") lines(x,pp,lty=2)

13 Probability Dose Praktycznie bez różnicy dopasowania, poza ogonami.

14 Odchylenie modelu od modelu, testy istotności współczynników Niech ω będzie modelem regresji logistycznej o zmiennych x 1,..., x q. ω Ω, Ω - większy model zawierający dodatkowo zmienne x q+1,..., x p. Chcemy testować hipotezę, czy zmienne x q+1,..., x p wnoszą istotną wiedzę do modelu. H 0 : ω (model ω jest adekwatny) przeciwko H 1 : Ω (model Ω jest adekwatny, a ω nie jest). Testowanie hipotezy opiera się o statystykę odchylenia modelu Ω od ω wynoszącą { L( ˆβ Ω ) } D ω,ω = 2 ln 0, (L( ˆβ ω ) gdzie L( ˆβ Ω ) jest funkcją wiarogodności policzoną w estymatorze największej wiarogodności w modelu Ω.

15 Fakt Przy spełnieniu hipotezy H 0 zmienna D ma dla dużych liczności próby rozkład χ 2 z p q stopniami swobody. Typowe zastosowania: Istotność zestawu zmiennych: ω : y 1, Ω : y x x p. Istotność pojedynczej zmiennej dodanej do modelu: ω : y x x q, Ω : y x x q+1. Sprawdźmy, czy zmienna conc istotnie wpływa na prawdopodobieństwo, że środek jest skuteczny. Wystarczy odwołać się do obiektu g i wywołać jego statystyki zbiorcze (summary).

16 > summary(g) Call: glm(formula = cbind(dead, alive) ~ conc, family = binomial, data = bliss)... Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-08 *** conc e-10 *** --- Signif. codes: 0 *** ** 0.01 * Null deviance: on 4 degrees of freedom Residual deviance: on 3 degrees of freedom AIC:

17 Odchylenie obliczamy jako różnicę między null deviance i residual deviance, D = = 64.3, większe od kwantyla q 0.01 rozkładu χ 2 z jednym stopniem swobody (= 6.63). Odrzucamy hipotezę o nieistotności zmiennej conc. Sprawdźmy jeszcze, czy do modelu warto dołączyć kwadrat tej zmiennej. g2 <- glm(cbind(dead,alive) ~ conc +I(conc^2), family=binomial, data=bliss) > summary(g2)... Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-05 *** conc * I(conc^2) Null deviance: on 4 degrees of freedom Residual deviance: on 2 degrees of freedom

18 Odchylenie modelu z dwiema zmiennymi od modelu z jedną zmienną liczymy jako różnicę odchyleń resztowych (D = = 0.18), wartość jest nieistotna przy porównaniu z kwantylem rozkładu chi kwadrat z jednym stopniem swobody. Oba wyniki potwierdzane przez statystykę Walda t = ˆβ/SE( ˆβ) (wartość z-value, trzecia kolumna zbioru wynikowego). Uwaga: statystyka Walda traci stosowalność dla danych z liniowo separowalnymi grupami Y = 1 i Y = 0. Duża wariancja współczynników powoduje, ze wartości statystyki są małe i zmienne mające wpływ na Y są interpretowane jako nieistotne.

19 Uwaga Wartość residual deviance jest odchyleniem między rozpatrywanym modelem a tzw. modelem nasyconym, w którym liczba parametrów jest równa liczbie obserwacji (dla danych grupowanych: liczbie poziomów). Residual deviance jest czasami wykorzystywana do testowania adekwatności modelu w schemacie H 0 : ω vs H 1 : Ω nasycony. Statystyka D ma w przybliżeniu rozkład chi kwadrat z n p stopniami swobody, ale tylko dla danych grupowanych, takich jak dane bliss, gdy liczba poziomów jest stała i liczba obserwacji na każdym poziomie wynosi co najmniej 5. n oznacza wtedy liczbę poziomów predyktorów.

20 Model logistyczny dla Y o g wartościach Wbieramy populację referencyjną np. ostatnią (o numerze g) log log p(1 x) p(g x) = β 1x log p(2 x) p(g x) = β 2x p(g 1 x) p(g x) = β g 1x β i = (β i0, β i1,..., β ip ) Nieznane parametry: β 1,..., β g 1 R p+1, łacznie (g 1)(p + 1) parametrów jednowymiarowych. Uwaga W pakiecie R jako populacja referencyjna wybierana jest ta, której nazwa jest pierwsza w porządku leksykograficznym.

21 Estymacja parametrów metodą NW: ˆβ 1,..., ˆβ g 1 ˆp(1 x),..., ˆp(g x) ˆp(k x) = exp(ˆβ kx) 1 + g 1 i=1 exp(ˆβ ix) k = 1,..., g 1 ˆp(g x) = g 1 i=1 exp(ˆβ ix) Reguła dyskryminacyjna Reguła bayesowska oparta na estymatorach otrzymanych w modelu logistycznym: Klasyfikuj do populacji l gdzie l = argmax i ˆp(i x) Zauważmy, że w modelu logistycznym w naturalny sposób otrzymujemy oszacowania interesujących prawdopodobieństw aposteriori i nie ma potrzeby oddzielnej estymacji π i i p(x i).

22 Nota bene Jeśli p(x i): gęstość rozkładu N(m i, Σ) i = 1,..., k. to log p(k x) p(g x) = 1 2 (x m g ) Σ 1 (x m g ) 1 2 (x m k) Σ 1 (x m g )+log π k π g = 1 2 (m k m g ) Σ 1 x 1 2 (m k + m g ) Σ 1 (m k m g ) + log π k π g ma postać β kx. Ta zależność była również wykorzystywana w metodzie LDA. Czym zatem różnią się te dwie metody?

23 Sposobem estymacji parametrów. W regresji logistycznej maksymalizujemy (g = 2) L = n P(Y = 1 X = x i ) y i (1 P(Y = 1 X = x i )) 1 y i i=1 To jest warunkowa funkcja wiarogodności p(y 1,..., y n X = x) wykorzystująca jedynie warunkowy rozkład Y pod warunkiem X. (brzegowy rozkład X nie odgrywa tu roli, nic o nim nie zakładamy!) W przypadku LDA gęstość p(x = x, Y = k) ma postać p(x, k) = φ(x, µ k, Σ)π k Maksymalizacja pełnej funkcji wiarogodności o postaci L = n p(x i, y i ) i=1

24 prowadzi do rozpatrywanych poprzednio estymatorów ˆΣ = 1 n g ˆµ i = x i g (n k 1)S k k=1 ˆπ i = n i n Można spodziewać się, że regresja logistyczna nie jest tak czuła na duże odstępstwa od normalności i równość macierzy kowariancji jak LDA.

25 Wykres rozproszenia danych earthquake z obszarami klasyfikacji wyznaczonymi przy użyciu klasyfikacji logistycznej (linia ciągła) i LDA (linia przerywana) body surface X X X X X X X X X X X X X X X X X X

26 Dane earthquake Dopasujemy model logistyczny popn body + surface. Tworzymy nową ramkę danych z zero-jedynkową zmienną y zamiast popn. Dla dopasowania modelu logistycznego y body + surface wykorzystywana funkcja glm. glm (skrót od generalized linear model) pozwala na dopasowanie modelu z klasy uogólnionych modeli liniowych. Opcja family=binomial specyfikuje model logistyczny. earthquake = read.table("earthquake.txt", header=true) equake = data.frame(y=ifelse(earthquake$popn=="equake", 0, 1), body=earthquake$body, surface=earthquake$surface) g2 = glm(y~ body + surface, data=equake, family=binomial)

27 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) body surface (Dispersion parameter for binomial family taken to be 1) Null deviance: e+01 on 28 degrees of freedom Residual deviance: e-09 on 26 degrees of freedom AIC: 6 Wartość odchylenia resztowego (residual deviance) jest bardzo mała i wskazuje na bardzo dobre dopasowanie, gdy jednocześnie wyniki testu t mówią o nieistotności obu zmiennych. Taka paradoksalna sytuacja występuje często przy liniowej separowalności klas, gdy estymatory współczynników w modelu regresji logistycznej i ich błędy standardowe zachowują się niestabilnie (p(1 x i ) 1, 0, i = 1,..., n ˆβ -duża).

28 Tabelka i procent poprawnych reklasyfikacji. Ypred =ifelse(g2$fitted.values < 0.5, 0, 1) # klasyfikacja do klasy 1 dla prawd. aposteriori klasy 1 < 0,5. print(kl =table(equake$y, Ypred)) print(procent= sum(diag(kl)) / sum(kl)) Ypred [1] 1 Działanie klasyfikatora logistycznego różni się od klasyfikatora LDA: pierwszy z nich klasyfikuje bezbłędnie wszystkie elementy próby uczącej (sytuacja liniowo separowalnych klas). Nie należy wyciągać stąd wniosku, że klasyfikator logistyczny będzie działał lepiej dla nowych obserwacji.

29 Dane urine, wybór zmiennych w klasyfikacji. Zmienna presence jest zmienną grupującą, pozostałe atrybuty: wartości pomiarów fizyko-chemicznych moczu. Model logistyczny presence sg+ph+mosm+mmho+urea+calcium urine.glm=glm(presence ~., family = binomial, data = urine) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) sg ph mosm mmho urea calcium (Dispersion parameter for binomial family taken to be 1) Null deviance: on 76 degrees of freedom Residual deviance: on 70 degrees of freedom AIC: 71.56

30 Dev null,ω = Dev null Dev resid. Duża różnica odchylenia zerowego (null deviance) i resztowego (residual deviance) wskazuje na występowanie istotnych zmiennych w modelu, odpowiednia p-wartość, uzyskana na podstawie rozkładu chi kwadrat z 6 stopniami swobody wynosi pchisq( ,7-1,lower=f). i jest mniejsza od Tabelka reklasyfikacji i procent poprawnej reklasyfikacji kl 0 1 no 40 4 yes 8 25 [1] Dokonajmy redukcji zmiennych w modelu metodą eliminacji wstecz, sprawdźmy, czy mniejszy model można uznać za adekwatny i jak wygląda reklasyfikacja.

31 urine.glm = glm(presence., data=urine, family=binomial) urine.step = step(urine.glm, direction= backward ) print(urine.step) Call: glm(formula = presence ~ sg + mmho + urea + calcium, family = binomial, data = urine) Coefficients: (Intercept) sg mmho urea calcium Degrees of Freedom: 76 Total (i.e. Null); 72 Residual Null Deviance: Residual Deviance: AIC: Otrzymany podzbiór zmiennych objaśniających: calcium, mmho, sg, urea uzyskuje się również stosując metodę dołączania. Przetestujmy teraz, czy model mniejszy jest adekwatny, przy użyciu statystyki równej różnicy odchyleń, która przy hipotezie H 0 (model mniejszy jest adekwatny) ma dla dużych liczności w przybliżeniu rozkład χ 2 z 7 5 = 2 stopniami swobody

32 print(anova(u2.glm, u.glm, test= Chi )) Analysis of Deviance Table Model 1: presence ~ sg + mmho + urea + calcium Model 2: presence ~ sg + ph + mosm + mmho + urea + calcium Resid. Df Resid. Dev Df Deviance P(> Chi ) Porównując model mniejszy i większy nie odrzucamy hipotezy, że model mniejszy jest adekwatny. Dopasowujemy mniejszy model i przeprowadzamy reklasyfikację. u2.glm = glm(presence sg + mmho + urea + calcium, data=urine, family=binomial) kl2 0 1 no 40 4 yes 8 25 [1] Otrzymaliśmy dokładnie takie same wyniki reklasyfikacji, jak dla większego zbioru atrybutów.

33 Podejście teoriodecyzyjne Zamieńmy indeksy klas na Y = ±1. Wtedy: dla Y = 1 log p(x, y) = y log( exp(β x) 1+exp(β x) ) = log(1 + exp( yβ x)) dla Y = 1 1 log p(x, y) = (1 y) log( 1+exp(β x ) = log(1 + exp( yβ x)) funkcja straty l(y, f (x)) = log(1 + exp( yf (x)) ˆβ ML = argmin β n l(y i, β x i ) i=1

34 Classification loss functions Regression loss functions L binomial hinge square/4 prediction error L square eps insensitive Huber Margin y*f y f

35 Model proporcjonalnych szans Przypuśćmy, że zmienna Y jest zmienną nominalną o g uporządkowanych kategoriach (np. kategorie wiekowe, kategorie klienta: spłaty terminowe, spłaty z opóźnieniem, brak spłat). Informacja o uporządkowaniu klas powinna być wykorzystana w modelu. Oznaczmy kategorie jako 1, 2,..., g. W modelu proporcjonalnych szans dla j = 1, 2,..., g 1 log Pr(y j x) 1 Pr(y j x) = α j β x, ( ) gdzie x = (x 1,..., x p ) jest wektorem predyktorów. Funkcja logitowa log(p/(1 p)) dla p i Pr(y j x) gdy j α 1 α 2 α g 1. Dla ustalonego j model ( ) jest modelem logistycznej regresji dla odpowiedzi binarnej 1 gdy {y j}, i 0 gdy {y > j}. Dla g = 2 otrzymujemy model regresji logistycznej.

36 Waz ze zmianą j in ( ) wyraz wolny α j się zmienia, podczas gdy wektor β pozostaje taki sam. Dla γ j (x)= Pr(y j x) założenie modelowe oznacza, że funkcja γ j ( ) jest przesunięciem funkcji γ k ( ). Mianowicie, np. dla jednowymiarowego predyktora mamy γ k (x) = exp(α j β(x (α k α j )/β) 1 + exp(α j β(x (α k α j )/β) = γ j (x (α k α j )/β). prawdopodobienstwo P(y<3) P(y<2) P(y<1) x

37 Nazwa model proporcjonalnych szans ( proportional odds) związana z faktem, że założenie modelowe implikuje: γ i (x 1 )/(1 γ i (x 1 )) γ i (x 2 )/(1 γ i (x 2 )) = exp( β (x 1 x 2 )). Tak więc powyższy iloraz szans nie zależy od i. Konwencja znków β: dla x 1 < x 2 przy β > 0 chcemy, aby powyższy stosunek był > 1 ( Uwaga: procedura GENMOD (SAS) używa β zamiast β w ( ). Parametry modelu estymowane przy użyciu metody największej wiarogodności. Procedury: polr w R i Genmod w SAS. Inne modele: model proporcjonalnych hazardów log( log(1 γ j (x)) = α j + β x Założenie implikuje, że P(Y > j x 1 ) = P(Y > j x 2 ) exp(β (x 1 x 2)).

38 Inne metody dyskryminacji liniowej: perceptron Rosenblatta (sieci neuronowe); metoda oparta na regresji wielowymiarowej. Druga metoda: etykieta klasy kodowana jest jako wektor g wymiarowy y = (y (1),..., y (g) ) dla klasy k, y = (0, 0,..., 0, 1, 0,..., 0) (1 na k tym miejscu)

39 X macierz eksperymentu n (p + 1) Y macierz odpowiedzi y (1) 1 y (g) 1.. y n (1) y n (g) Szukamy macierzy ˆB (p+1) g minimalizującej n y i [1, x i]b 2 i=1 równoważne rozwiązaniu g problemów regresji wielokrotnej oddzielnie. Macierz ˆB składa się z kolumn parametrów dla kolejnych problemów regresji.

40 Okazuje się, że prognoza ŷ(x) = [1, x ]B ma własność Reguła klasyfikacyjna n ŷ (k) (x) = 1 i=1 δ(x) = argmax ŷ (k) (x) k=1,2,...,g Komentarz: δ( ) dopuszcza uogólnienie nieliniowe dyskryminacja giętka (flexible discrimination)

41 Kwestia skal pomiarowych atrybutów Dotąd milcząco zakładaliśmy, że atrybuty przyjmują wartości rzeczywiste. Nie ma problemu dla zmiennych ilościowych dyskretnych ze stosowaniem LDA, dyskryminacji logistycznej, empirycznej metody bayesowskiej. Wartości nominalne x przyjmuje r wartości i ta wartość (0, 0,..., 0, 1, 0,..., 0) (1 na i tym miejscu) musimy mieć dane zawierające obserwacje dla każdego układu atrybutów, aby metoda była stabilna wartości nominalne na skali porządkowej: metoda ad hoc i ta wartość (i 1)/n Inna metoda postępowania dla atrybutów nominalnych oparta na naiwnej metodzie bayesowskiej(zakładającej niezależność atrybutów) x = (x (1),..., x (p) ) p(2 x) p(1 x) = π 2 π 1 p(x 2) p(x 1) = π 2 π 1 p i=1 p(x (i) 2) p(x (i) 1)

42 log p(2 x) p(1 x) = log π 2 π 1 + atrybut x (i) poziomy l = 1,..., m i p i=1 ˆP(x (i) = l k) = n ik(l) n k log p(x (i) 2) p(x (i) 1) n ik (l) # elementów klasy k, dla których i ty atrybut jest równy l p(x (i) = l 2) p(x (i) = l 1) estymujemy przez n i2(l) n i1 (l) n1 n 2 Uwaga(i) Naiwna metoda bayesowska działa często dobrze nawet w przypadku, gdy atrybuty są zależne! (ii) Poprawka Laplace a λ = 0.5, 1. ˆP(x (i) n ik (l) + λ = l k) = w (n ik(w) + λ)

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta. Dyskryminacja oparta na regresji liniowej i logistycznej Wprowadzenie Problem analizy dyskryminacyjnej jest ściśle

Bardziej szczegółowo

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora

Bardziej szczegółowo

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Modelowanie zmiennej jakościowej Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 8 Zmienna jakościowa 1 / 25 Zmienna jakościowa Zmienna ilościowa może zostać zmierzona

Bardziej szczegółowo

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania Regresja logistyczna analiza relacji między zbiorem zmiennych niezależnych (ilościowych i dychotomicznych) a dychotomiczną zmienną zależną wyniki wyrażone są w prawdopodobieństwie przynależności do danej

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

Regresja liniowa wprowadzenie

Regresja liniowa wprowadzenie Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem

Bardziej szczegółowo

Uogolnione modele liniowe

Uogolnione modele liniowe Uogolnione modele liniowe Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 1 / 17 (generalized linear model - glm) Zakładamy,

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka.

Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka. Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka. Dane The Western Collaborative Group Study (WCGS) badanie epidemiologiczne zaprojektowane,

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2. Zadanie 1 Niech y t ma rozkład logarytmiczno normalny o funkcji gęstości postaci [ ] 1 f (y t ) = y exp (ln y t β ln x t ) 2 t 2πσ 2 2σ 2 Zakładamy, że x t jest nielosowe a y t są nieskorelowane w czasie.

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24 Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie:

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym

Bardziej szczegółowo

Zawansowane modele wyborów dyskretnych

Zawansowane modele wyborów dyskretnych Zawansowane modele wyborów dyskretnych Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Zawansowane modele wyborów dyskretnych grudzien 2013 1 / 16 Model efektów

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Analiza zależności cech ilościowych regresja liniowa (Wykład 13) Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników

Bardziej szczegółowo

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków Wojciech Niemiro, Jacek Tomczyk i Marta Zalewska Uniwersytet

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym

Bardziej szczegółowo

WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA. Wydział Matematyki i Nauk Informacyjnych PW

WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA. Wydział Matematyki i Nauk Informacyjnych PW WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA Wydział Matematyki i Nauk Informacyjnych PW Problem klasyfikacji (pod nadzorem) LDA Model sytuacji praktycznej: n par losowych

Bardziej szczegółowo

5. Analiza dyskryminacyjna: FLD, LDA, QDA

5. Analiza dyskryminacyjna: FLD, LDA, QDA Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną

Bardziej szczegółowo

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej Porównanie modeli logicznej regresji z klasycznymi modelami regresji liniowej i logistycznej Instytut Matematyczny, Uniwersytet Wrocławski Małgorzata Bogdan Instytut Matematyki i Informatyki, Politechnika

Bardziej szczegółowo

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba

Bardziej szczegółowo

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV Regresja logistyczna analiza relacji między zbiorem zmiennych niezależnych (ilościowych i dychotomicznych) a dychotomiczną zmienną zależną wyniki wyrażone są w prawdopodobieństwie przynależności do danej

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9 Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności

Bardziej szczegółowo

(LMP-Liniowy model prawdopodobieństwa)

(LMP-Liniowy model prawdopodobieństwa) OGÓLNY MODEL REGRESJI BINARNEJ (LMP-Liniowy model prawdopodobieństwa) Dla k3 y α α α α + x + x + x 2 2 3 3 + α x x α x x + α x x + α x x + ε + x 4 2 5 3 6 2 3 7 2 3 Zał.: Wszystkie zmienne interakcyjne

Bardziej szczegółowo

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K

Bardziej szczegółowo

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności

Bardziej szczegółowo

Quick Launch Manual:

Quick Launch Manual: egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q

Bardziej szczegółowo

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania SIMR 7/8, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania. Dana jest gęstość prawdopodobieństwa zmiennej losowej ciągłej X : { a( x) dla x [, ] f(x) = dla pozostałych x Znaleźć: i) Wartość parametru

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

Regresyjne metody łączenia klasyfikatorów

Regresyjne metody łączenia klasyfikatorów Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009

Bardziej szczegółowo

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y

Bardziej szczegółowo

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α. Stopy zbieżności Stopę zbieżności ciagu zmiennych losowych a n, takiego, że a n oznaczamy jako a n = o p (1 p 0 a Jeśli n p n α 0, to a n = o p (n α i mówimy a n zbiega według prawdopodobieństwa szybciej

Bardziej szczegółowo

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago Model regresji wielokrotnej Wykład 14 (4.06.2007) Przykład ceny domów w Chicago Poniżej są przedstawione dane dotyczące cen domów w Chicago (źródło: Sen, A., Srivastava, M., Regression Analysis, Springer,

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 6 Wrocław, 7 listopada 2011 Temat. Weryfikacja hipotez statystycznych dotyczących proporcji. Test dla proporcji. Niech X 1,..., X n będzie próbą statystyczną z 0-1. Oznaczmy odpowiednio

Bardziej szczegółowo

Metody probabilistyczne

Metody probabilistyczne Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Metoda największej wiarogodności

Metoda największej wiarogodności Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

Regresja liniowa w R Piotr J. Sobczyk

Regresja liniowa w R Piotr J. Sobczyk Regresja liniowa w R Piotr J. Sobczyk Uwaga Poniższe notatki mają charakter roboczy. Mogą zawierać błędy. Za przesłanie mi informacji zwrotnej o zauważonych usterkach serdecznie dziękuję. Weźmy dane dotyczące

Bardziej szczegółowo

Metody Ekonometryczne

Metody Ekonometryczne Metody Ekonometryczne Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Metody Ekonometyczne Wykład 4 Uogólniona Metoda Najmniejszych Kwadratów (GLS) 1 / 19 Outline 1 2 3 Jakub Mućk Metody Ekonometyczne

Bardziej szczegółowo

Prawdopodobieństwo i rozkład normalny cd.

Prawdopodobieństwo i rozkład normalny cd. # # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl

Bardziej szczegółowo

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego Rozdział 1 Statystyki Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego X = (X 1,..., X n ). Uwaga 1 Statystyka jako funkcja wektora zmiennych losowych jest zmienną losową

Bardziej szczegółowo

Ekonometria dla IiE i MSEMat Z12

Ekonometria dla IiE i MSEMat Z12 Ekonometria dla IiE i MSEMat Z12 Rafał Woźniak Faculty of Economic Sciences, University of Warsaw Warszawa, 09-01-2017 Test RESET Ramsey a W pierwszym etapie estymujemy współczynniki regresji w modelu:

Bardziej szczegółowo

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Część 2 Hipoteza złożona Testowanie hipotez łącznych Zapis matematyczny Rozkład statystyki testowej Hipoteza łączna H 0 : Rβ = q Hipoteza złożona Testowanie hipotez łącznych Zapis matematyczny Rozkład

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Model Cox a. Testowanie założeń o proporcjonalnym hazardzie.

Model Cox a. Testowanie założeń o proporcjonalnym hazardzie. Model Cox a. Testowanie założeń o proporcjonalnym hazardzie. Seminarium - Statystyka w medycynie Model Cox a.. Plan 1 Wstęp Model Cox a - przypomnienie 2 Założenie proporcjonalnego hazardu 3 Metoda wizualna

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Model jako : Stosowana Analiza Regresji Wykład XI 21 Grudnia 2011 1 / 11 Analiza kowariancji Model jako : Oprócz czynnika o wartościach nominalnych chcemy uwzględnić wpływ predyktora o wartościach ilościowych

Bardziej szczegółowo

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń 1. Problem ozwaŝamy zjawisko (model): Y = β 1 X 1 X +...+ β k X k +Z Ηβ = w r Hipoteza alternatywna: Ηβ w r

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych r.

Matematyka ubezpieczeń majątkowych r. Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka

Bardziej szczegółowo

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer

Bardziej szczegółowo

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 ANALIZA REGRESJI WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład X, 9.05.206 TESTOWANIE HIPOTEZ STATYSTYCZNYCH II: PORÓWNYWANIE TESTÓW Plan na dzisiaj 0. Przypomnienie potrzebnych definicji. Porównywanie testów 2. Test jednostajnie

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Bardziej szczegółowo

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Model nieliniowe i funkcja produkcji Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 7 i funkcja produkcji 1 / 23 Agenda 1 2 3 Jakub Mućk Ekonometria Wykład 7 i funkcja

Bardziej szczegółowo

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów

Bardziej szczegółowo

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ Dana jest populacja generalna, w której dwuwymiarowa cecha (zmienna losowa) (X, Y ) ma pewien dwuwymiarowy rozk lad. Miara korelacji liniowej dla zmiennych (X, Y

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Stanisław Cichocki Natalia Nehrebecka. Wykład 7 Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności

Bardziej szczegółowo

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA Anna Gambin 19 maja 2013 Spis treści 1 Przykład: Model liniowy dla ekspresji genów 1 2 Jednoczynnikowa analiza wariancji 3 2.1 Testy

Bardziej szczegółowo

STATYSTYKA

STATYSTYKA Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym

Bardziej szczegółowo

1 Modele ADL - interpretacja współczynników

1 Modele ADL - interpretacja współczynników 1 Modele ADL - interpretacja współczynników ZADANIE 1.1 Dany jest proces DL następującej postaci: y t = µ + β 0 x t + β 1 x t 1 + ε t. 1. Wyjaśnić, jaka jest intepretacja współczynników β 0 i β 1. 2. Pokazać

Bardziej szczegółowo

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1 Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT Anna Rajfura 1 Przykład wprowadzający Wiadomo, że 40% owoców ulega uszkodzeniu podczas pakowania automatycznego.

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Wykład 8 Dane kategoryczne

Wykład 8 Dane kategoryczne Wykład 8 Dane kategoryczne Wrocław, 19.04.2017r Zmienne kategoryczne 1 Przykłady zmiennych kategorycznych 2 Zmienne nominalne, zmienne ordynalne (porządkowe) 3 Zmienne dychotomiczne kodowanie zmiennych

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz. LABORATORIUM 4 1. Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz. I) WNIOSKOWANIE STATYSTYCZNE (STATISTICAL INFERENCE) Populacja

Bardziej szczegółowo

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów stat. Hipoteza statystyczna Dowolne przypuszczenie co do rozkładu populacji generalnej

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

1 Estymacja przedziałowa

1 Estymacja przedziałowa 1 Estymacja przedziałowa 1. PRZEDZIAŁY UFNOŚCI DLA ŚREDNIEJ (a) MODEL I Badana cecha ma rozkład normalny N(µ, σ) o nieznanym parametrze µ i znanym σ. Przedział ufności: [ ( µ x u 1 α ) ( σn ; x + u 1 α

Bardziej szczegółowo

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0 Testowanie hipotez Każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy nazywamy hipotezą statystyczną. Hipoteza określająca jedynie wartości nieznanych parametrów liczbowych badanej cechy

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Przykład (wstępny). Producent twierdzi, że wadliwość produkcji wynosi 5%. My podejrzewamy, że rzeczywista wadliwość produkcji wynosi 15%. Pobieramy próbę stuelementową

Bardziej szczegółowo

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y Zadanie 1 Rozpatrujemy próbę 4877 pracowników fizycznych, którzy stracili prace w USA miedzy rokiem 1982 i 1991. Nie wszyscy bezrobotni, którym przysługuje świadczenie z tytułu ubezpieczenia od utraty

Bardziej szczegółowo

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna

Bardziej szczegółowo

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009 STATYSTYKA MATEMATYCZNA WYKŁAD 7 23 listopada 2009 Wykład 6 (16.XI.2009) zakończył się zdefiniowaniem współczynnika korelacji: E X µ x σ x Y µ y σ y = T WSPÓŁCZYNNIK KORELACJI ρ X,Y = ρ Y,X (!) WSPÓŁCZYNNIK

Bardziej szczegółowo

Jądrowe klasyfikatory liniowe

Jądrowe klasyfikatory liniowe Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Wykład 3 Jednowymiarowe zmienne losowe

Wykład 3 Jednowymiarowe zmienne losowe Wykład 3 Jednowymiarowe zmienne losowe Niech (Ω, F, P ) będzie ustaloną przestrzenią probabilistyczną Definicja 1 Jednowymiarowa zmienna losowa (o wartościach rzeczywistych), określoną na przestrzeni probabilistycznej

Bardziej szczegółowo

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Statystyka matematyczna. Wykład III. Estymacja przedziałowa Statystyka matematyczna. Wykład III. e-mail:e.kozlovski@pollub.pl Spis treści Rozkłady zmiennych losowych 1 Rozkłady zmiennych losowych Rozkład χ 2 Rozkład t-studenta Rozkład Fischera 2 Przedziały ufności

Bardziej szczegółowo

Regresja logistyczna

Regresja logistyczna Regresja logistyczna Zacznijmy od danych dotyczących tego czy studenci zostali przyjęci na studia. admissions

Bardziej szczegółowo