WYKŁAD II: Klasyfikacja logistyczna. MiNI PW
|
|
- Adam Stachowiak
- 5 lat temu
- Przeglądów:
Transkrypt
1 WYKŁAD II: Klasyfikacja logistyczna MiNI PW
2 Rozpatrywane dotąd metody klasyfikacji: LDA Fishera (liniowa reguła klasyfikacyjna); Reguła Bayesowska (jej wersja empiryczna dla rozkładów normalnych ze wspólną macierzą Σ pokrywa się z LDA). Inne metody liniowe? Klasyfikacja logistyczna oparta na modelu regresji logistycznej. Jedno z zastosowań: reklamy pojawiające się na stronie są dobierane na podstawie modelu regresji logistycznej/probitowej gdzie zmiennymi objaśniajacymi są słowa kluczowe.
3 Regresja logistyczna Bardzo częsta sytuacja: odpowiedź Y jest zerojedynkowa, chcemy stwierdzić, jak zależy od wektora zmiennych objaśniających x. Najczęstsza sytuacja Y : sukces (figuratywnie pojmowany) lub porażka Z reguły nie stosujemy bezpośrednio modelu regresji liniowej (Y w modelu regresji liniowej jest cechą ilościową): problem estymacji prawd. aposteriori, maskowania się klas. P(Y = 1 x) = π(x) = E(Y x) π(x) modelujemy zależność π od x, a nie Y od x. x R p
4 Regresja logistyczna Zamiast bezpośrednio modelować π(x) modelujemy logarytm szansy szansa = π(x) (1 π(x)) π(x) logit(π(x)) := log( 1 π(x) ) = β x, logarytm szansy jest kombinacją liniową predyktorów. π(x) = exp (β x) 1 + exp (β x) = exp ( β x)
5 Niech p = 1 i β = s, popatrzmy na zachowanie się funkcji 1/(1 + exp( sx)) Sigmoid Function sigma(s*x) y s=0.5 s=1 s= x Dla małych s główna część krzywej w przybliżeniu liniowa, dla dużych s - indykator zbioru (0, ).
6 Inna interpretacja modelu logistycznego lub gdzie ε ma rozkład logistyczny Y = I {X β ε 0} Y = I {X β + ε 0}, F ε (s) = exp ( s). Interpretacja współczynników Mamy (dla x = (1, x) ) logit(π(x + 1)) logit(π(x)) = β 0 + β 1 (x + 1) (β 0 + β 1 x) = β 1 exp(β 1 ) = exp(β 1 ) jest równa ilorazowi szans. π(x + 1) ( π(x) ) 1 1 π(x + 1) 1 π(x)
7 Metoda warunkowej największej wiarogodności Estymacja β Założenia: Y 1, Y 2,..., Y n niezależne, Y i Bin(1, π(x i )) f i (Y i ) = π Y i i (1 π i ) 1 Y i n n f i (Y i ) = π Y i i (1 π i ) 1 Y i =: L i=1 i=1 π i L = log L = Y i log( ) + log(1 π i ) = 1 π i Yi β x i log{1 + exp(β x i )} Iteracyjne szukanie 0 pochodnej L metodą Raphsona Newtona. L jest funkcją wklęsłą parametru β: w zerze pochodnej minimum.
8 Metoda Iterowanych Przeważonych Najmniejszych Kwadratów Metoda Iterowanych Przeważonych Najmniejszych Kwadratów (Iterated Reweighted Least Squares, IRLS) Potrzebne funkcja wynikowa i Hessjan log L β = n x i (Y i π(x i )) = X (Y π) i=1 gdzie 2 log L β β = n x i x iπ(x i )(1 π(x i )) = X WX, i=1 π = (π(x 1 ),..., π(x 1 )) W = diag(π(x 1 )(1 π(x 1 )),..., π(x n )(1 π(x n )))
9 Metoda Iterowanych Przeważonych Najmniejszych Kwadratów Metoda Raphsona-Newtona gdzie β new = β old + (X WX) 1 X (Y π)) = (X WX) 1 X W(Xβ old + W 1 (Y π)) = (X WX) 1 X Wz, z = Xβ old + W 1 (Y π) jest tak zwaną odpowiedzią dopasowaną. Każde dopasowanie: metoda ważonych najmniejszych kwadratów (ze zmieniającą się macierzą W i z). β (0) = 0 lub β (0) = β LS. Dla p > n nie działa ((X WX) 1 nie istnieje.)
10 Inne metody estymacji Estymator Blyth a zmniejszający obciążenie estymatora ˆβ NW ; regularyzowany estymator Lasso argmin b { 2 L λ p b i } i=1 i różne jego warianty. Więcej na wykładzie z uogólnionych modeli liniowych.
11 Dowolna dająca 0 π(x) 1 jest dobra. Inne możliwości: inaczej modelowana zależność π(x) od x. Regresja probitowa: Φ 1 (π(x)) = β x Φ dystrybuanta N(0, 1). Zbior danych bliss dane dotyczący skuteczności środka owadobójczego. Dopasowanie modelu regresji logistycznej procedura glm, opcja family= binomial. Uwaga: możliwe dane zagregowane/grupowane postaci: Przykład dane bliss wartość x liczba sukcesów liczba porażek
12 dead alive conc g <- glm(cbind(dead,alive) ~ conc, family=binomial, data=bliss) gp <- glm(cbind(dead,alive) ~ conc, family=binomial(link=probit), data=bliss) pl= g$fit ilogit(g$coef[1]+g$coef[2]*bliss$conc) # otrzymujemy to samo pp=gp$fit x <- seq(-2,8,0.2) plot(x,pl,type="l",ylab="probability",xlab="dose") lines(x,pp,lty=2)
13 Probability Dose Praktycznie bez różnicy dopasowania, poza ogonami.
14 Odchylenie modelu od modelu, testy istotności współczynników Niech ω będzie modelem regresji logistycznej o zmiennych x 1,..., x q. ω Ω, Ω - większy model zawierający dodatkowo zmienne x q+1,..., x p. Chcemy testować hipotezę, czy zmienne x q+1,..., x p wnoszą istotną wiedzę do modelu. H 0 : ω (model ω jest adekwatny) przeciwko H 1 : Ω (model Ω jest adekwatny, a ω nie jest). Testowanie hipotezy opiera się o statystykę odchylenia modelu Ω od ω wynoszącą { L( ˆβ Ω ) } D ω,ω = 2 ln 0, (L( ˆβ ω ) gdzie L( ˆβ Ω ) jest funkcją wiarogodności policzoną w estymatorze największej wiarogodności w modelu Ω.
15 Fakt Przy spełnieniu hipotezy H 0 zmienna D ma dla dużych liczności próby rozkład χ 2 z p q stopniami swobody. Typowe zastosowania: Istotność zestawu zmiennych: ω : y 1, Ω : y x x p. Istotność pojedynczej zmiennej dodanej do modelu: ω : y x x q, Ω : y x x q+1. Sprawdźmy, czy zmienna conc istotnie wpływa na prawdopodobieństwo, że środek jest skuteczny. Wystarczy odwołać się do obiektu g i wywołać jego statystyki zbiorcze (summary).
16 > summary(g) Call: glm(formula = cbind(dead, alive) ~ conc, family = binomial, data = bliss)... Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-08 *** conc e-10 *** --- Signif. codes: 0 *** ** 0.01 * Null deviance: on 4 degrees of freedom Residual deviance: on 3 degrees of freedom AIC:
17 Odchylenie obliczamy jako różnicę między null deviance i residual deviance, D = = 64.3, większe od kwantyla q 0.01 rozkładu χ 2 z jednym stopniem swobody (= 6.63). Odrzucamy hipotezę o nieistotności zmiennej conc. Sprawdźmy jeszcze, czy do modelu warto dołączyć kwadrat tej zmiennej. g2 <- glm(cbind(dead,alive) ~ conc +I(conc^2), family=binomial, data=bliss) > summary(g2)... Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-05 *** conc * I(conc^2) Null deviance: on 4 degrees of freedom Residual deviance: on 2 degrees of freedom
18 Odchylenie modelu z dwiema zmiennymi od modelu z jedną zmienną liczymy jako różnicę odchyleń resztowych (D = = 0.18), wartość jest nieistotna przy porównaniu z kwantylem rozkładu chi kwadrat z jednym stopniem swobody. Oba wyniki potwierdzane przez statystykę Walda t = ˆβ/SE( ˆβ) (wartość z-value, trzecia kolumna zbioru wynikowego). Uwaga: statystyka Walda traci stosowalność dla danych z liniowo separowalnymi grupami Y = 1 i Y = 0. Duża wariancja współczynników powoduje, ze wartości statystyki są małe i zmienne mające wpływ na Y są interpretowane jako nieistotne.
19 Uwaga Wartość residual deviance jest odchyleniem między rozpatrywanym modelem a tzw. modelem nasyconym, w którym liczba parametrów jest równa liczbie obserwacji (dla danych grupowanych: liczbie poziomów). Residual deviance jest czasami wykorzystywana do testowania adekwatności modelu w schemacie H 0 : ω vs H 1 : Ω nasycony. Statystyka D ma w przybliżeniu rozkład chi kwadrat z n p stopniami swobody, ale tylko dla danych grupowanych, takich jak dane bliss, gdy liczba poziomów jest stała i liczba obserwacji na każdym poziomie wynosi co najmniej 5. n oznacza wtedy liczbę poziomów predyktorów.
20 Model logistyczny dla Y o g wartościach Wbieramy populację referencyjną np. ostatnią (o numerze g) log log p(1 x) p(g x) = β 1x log p(2 x) p(g x) = β 2x p(g 1 x) p(g x) = β g 1x β i = (β i0, β i1,..., β ip ) Nieznane parametry: β 1,..., β g 1 R p+1, łacznie (g 1)(p + 1) parametrów jednowymiarowych. Uwaga W pakiecie R jako populacja referencyjna wybierana jest ta, której nazwa jest pierwsza w porządku leksykograficznym.
21 Estymacja parametrów metodą NW: ˆβ 1,..., ˆβ g 1 ˆp(1 x),..., ˆp(g x) ˆp(k x) = exp(ˆβ kx) 1 + g 1 i=1 exp(ˆβ ix) k = 1,..., g 1 ˆp(g x) = g 1 i=1 exp(ˆβ ix) Reguła dyskryminacyjna Reguła bayesowska oparta na estymatorach otrzymanych w modelu logistycznym: Klasyfikuj do populacji l gdzie l = argmax i ˆp(i x) Zauważmy, że w modelu logistycznym w naturalny sposób otrzymujemy oszacowania interesujących prawdopodobieństw aposteriori i nie ma potrzeby oddzielnej estymacji π i i p(x i).
22 Nota bene Jeśli p(x i): gęstość rozkładu N(m i, Σ) i = 1,..., k. to log p(k x) p(g x) = 1 2 (x m g ) Σ 1 (x m g ) 1 2 (x m k) Σ 1 (x m g )+log π k π g = 1 2 (m k m g ) Σ 1 x 1 2 (m k + m g ) Σ 1 (m k m g ) + log π k π g ma postać β kx. Ta zależność była również wykorzystywana w metodzie LDA. Czym zatem różnią się te dwie metody?
23 Sposobem estymacji parametrów. W regresji logistycznej maksymalizujemy (g = 2) L = n P(Y = 1 X = x i ) y i (1 P(Y = 1 X = x i )) 1 y i i=1 To jest warunkowa funkcja wiarogodności p(y 1,..., y n X = x) wykorzystująca jedynie warunkowy rozkład Y pod warunkiem X. (brzegowy rozkład X nie odgrywa tu roli, nic o nim nie zakładamy!) W przypadku LDA gęstość p(x = x, Y = k) ma postać p(x, k) = φ(x, µ k, Σ)π k Maksymalizacja pełnej funkcji wiarogodności o postaci L = n p(x i, y i ) i=1
24 prowadzi do rozpatrywanych poprzednio estymatorów ˆΣ = 1 n g ˆµ i = x i g (n k 1)S k k=1 ˆπ i = n i n Można spodziewać się, że regresja logistyczna nie jest tak czuła na duże odstępstwa od normalności i równość macierzy kowariancji jak LDA.
25 Wykres rozproszenia danych earthquake z obszarami klasyfikacji wyznaczonymi przy użyciu klasyfikacji logistycznej (linia ciągła) i LDA (linia przerywana) body surface X X X X X X X X X X X X X X X X X X
26 Dane earthquake Dopasujemy model logistyczny popn body + surface. Tworzymy nową ramkę danych z zero-jedynkową zmienną y zamiast popn. Dla dopasowania modelu logistycznego y body + surface wykorzystywana funkcja glm. glm (skrót od generalized linear model) pozwala na dopasowanie modelu z klasy uogólnionych modeli liniowych. Opcja family=binomial specyfikuje model logistyczny. earthquake = read.table("earthquake.txt", header=true) equake = data.frame(y=ifelse(earthquake$popn=="equake", 0, 1), body=earthquake$body, surface=earthquake$surface) g2 = glm(y~ body + surface, data=equake, family=binomial)
27 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) body surface (Dispersion parameter for binomial family taken to be 1) Null deviance: e+01 on 28 degrees of freedom Residual deviance: e-09 on 26 degrees of freedom AIC: 6 Wartość odchylenia resztowego (residual deviance) jest bardzo mała i wskazuje na bardzo dobre dopasowanie, gdy jednocześnie wyniki testu t mówią o nieistotności obu zmiennych. Taka paradoksalna sytuacja występuje często przy liniowej separowalności klas, gdy estymatory współczynników w modelu regresji logistycznej i ich błędy standardowe zachowują się niestabilnie (p(1 x i ) 1, 0, i = 1,..., n ˆβ -duża).
28 Tabelka i procent poprawnych reklasyfikacji. Ypred =ifelse(g2$fitted.values < 0.5, 0, 1) # klasyfikacja do klasy 1 dla prawd. aposteriori klasy 1 < 0,5. print(kl =table(equake$y, Ypred)) print(procent= sum(diag(kl)) / sum(kl)) Ypred [1] 1 Działanie klasyfikatora logistycznego różni się od klasyfikatora LDA: pierwszy z nich klasyfikuje bezbłędnie wszystkie elementy próby uczącej (sytuacja liniowo separowalnych klas). Nie należy wyciągać stąd wniosku, że klasyfikator logistyczny będzie działał lepiej dla nowych obserwacji.
29 Dane urine, wybór zmiennych w klasyfikacji. Zmienna presence jest zmienną grupującą, pozostałe atrybuty: wartości pomiarów fizyko-chemicznych moczu. Model logistyczny presence sg+ph+mosm+mmho+urea+calcium urine.glm=glm(presence ~., family = binomial, data = urine) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) sg ph mosm mmho urea calcium (Dispersion parameter for binomial family taken to be 1) Null deviance: on 76 degrees of freedom Residual deviance: on 70 degrees of freedom AIC: 71.56
30 Dev null,ω = Dev null Dev resid. Duża różnica odchylenia zerowego (null deviance) i resztowego (residual deviance) wskazuje na występowanie istotnych zmiennych w modelu, odpowiednia p-wartość, uzyskana na podstawie rozkładu chi kwadrat z 6 stopniami swobody wynosi pchisq( ,7-1,lower=f). i jest mniejsza od Tabelka reklasyfikacji i procent poprawnej reklasyfikacji kl 0 1 no 40 4 yes 8 25 [1] Dokonajmy redukcji zmiennych w modelu metodą eliminacji wstecz, sprawdźmy, czy mniejszy model można uznać za adekwatny i jak wygląda reklasyfikacja.
31 urine.glm = glm(presence., data=urine, family=binomial) urine.step = step(urine.glm, direction= backward ) print(urine.step) Call: glm(formula = presence ~ sg + mmho + urea + calcium, family = binomial, data = urine) Coefficients: (Intercept) sg mmho urea calcium Degrees of Freedom: 76 Total (i.e. Null); 72 Residual Null Deviance: Residual Deviance: AIC: Otrzymany podzbiór zmiennych objaśniających: calcium, mmho, sg, urea uzyskuje się również stosując metodę dołączania. Przetestujmy teraz, czy model mniejszy jest adekwatny, przy użyciu statystyki równej różnicy odchyleń, która przy hipotezie H 0 (model mniejszy jest adekwatny) ma dla dużych liczności w przybliżeniu rozkład χ 2 z 7 5 = 2 stopniami swobody
32 print(anova(u2.glm, u.glm, test= Chi )) Analysis of Deviance Table Model 1: presence ~ sg + mmho + urea + calcium Model 2: presence ~ sg + ph + mosm + mmho + urea + calcium Resid. Df Resid. Dev Df Deviance P(> Chi ) Porównując model mniejszy i większy nie odrzucamy hipotezy, że model mniejszy jest adekwatny. Dopasowujemy mniejszy model i przeprowadzamy reklasyfikację. u2.glm = glm(presence sg + mmho + urea + calcium, data=urine, family=binomial) kl2 0 1 no 40 4 yes 8 25 [1] Otrzymaliśmy dokładnie takie same wyniki reklasyfikacji, jak dla większego zbioru atrybutów.
33 Podejście teoriodecyzyjne Zamieńmy indeksy klas na Y = ±1. Wtedy: dla Y = 1 log p(x, y) = y log( exp(β x) 1+exp(β x) ) = log(1 + exp( yβ x)) dla Y = 1 1 log p(x, y) = (1 y) log( 1+exp(β x ) = log(1 + exp( yβ x)) funkcja straty l(y, f (x)) = log(1 + exp( yf (x)) ˆβ ML = argmin β n l(y i, β x i ) i=1
34 Classification loss functions Regression loss functions L binomial hinge square/4 prediction error L square eps insensitive Huber Margin y*f y f
35 Model proporcjonalnych szans Przypuśćmy, że zmienna Y jest zmienną nominalną o g uporządkowanych kategoriach (np. kategorie wiekowe, kategorie klienta: spłaty terminowe, spłaty z opóźnieniem, brak spłat). Informacja o uporządkowaniu klas powinna być wykorzystana w modelu. Oznaczmy kategorie jako 1, 2,..., g. W modelu proporcjonalnych szans dla j = 1, 2,..., g 1 log Pr(y j x) 1 Pr(y j x) = α j β x, ( ) gdzie x = (x 1,..., x p ) jest wektorem predyktorów. Funkcja logitowa log(p/(1 p)) dla p i Pr(y j x) gdy j α 1 α 2 α g 1. Dla ustalonego j model ( ) jest modelem logistycznej regresji dla odpowiedzi binarnej 1 gdy {y j}, i 0 gdy {y > j}. Dla g = 2 otrzymujemy model regresji logistycznej.
36 Waz ze zmianą j in ( ) wyraz wolny α j się zmienia, podczas gdy wektor β pozostaje taki sam. Dla γ j (x)= Pr(y j x) założenie modelowe oznacza, że funkcja γ j ( ) jest przesunięciem funkcji γ k ( ). Mianowicie, np. dla jednowymiarowego predyktora mamy γ k (x) = exp(α j β(x (α k α j )/β) 1 + exp(α j β(x (α k α j )/β) = γ j (x (α k α j )/β). prawdopodobienstwo P(y<3) P(y<2) P(y<1) x
37 Nazwa model proporcjonalnych szans ( proportional odds) związana z faktem, że założenie modelowe implikuje: γ i (x 1 )/(1 γ i (x 1 )) γ i (x 2 )/(1 γ i (x 2 )) = exp( β (x 1 x 2 )). Tak więc powyższy iloraz szans nie zależy od i. Konwencja znków β: dla x 1 < x 2 przy β > 0 chcemy, aby powyższy stosunek był > 1 ( Uwaga: procedura GENMOD (SAS) używa β zamiast β w ( ). Parametry modelu estymowane przy użyciu metody największej wiarogodności. Procedury: polr w R i Genmod w SAS. Inne modele: model proporcjonalnych hazardów log( log(1 γ j (x)) = α j + β x Założenie implikuje, że P(Y > j x 1 ) = P(Y > j x 2 ) exp(β (x 1 x 2)).
38 Inne metody dyskryminacji liniowej: perceptron Rosenblatta (sieci neuronowe); metoda oparta na regresji wielowymiarowej. Druga metoda: etykieta klasy kodowana jest jako wektor g wymiarowy y = (y (1),..., y (g) ) dla klasy k, y = (0, 0,..., 0, 1, 0,..., 0) (1 na k tym miejscu)
39 X macierz eksperymentu n (p + 1) Y macierz odpowiedzi y (1) 1 y (g) 1.. y n (1) y n (g) Szukamy macierzy ˆB (p+1) g minimalizującej n y i [1, x i]b 2 i=1 równoważne rozwiązaniu g problemów regresji wielokrotnej oddzielnie. Macierz ˆB składa się z kolumn parametrów dla kolejnych problemów regresji.
40 Okazuje się, że prognoza ŷ(x) = [1, x ]B ma własność Reguła klasyfikacyjna n ŷ (k) (x) = 1 i=1 δ(x) = argmax ŷ (k) (x) k=1,2,...,g Komentarz: δ( ) dopuszcza uogólnienie nieliniowe dyskryminacja giętka (flexible discrimination)
41 Kwestia skal pomiarowych atrybutów Dotąd milcząco zakładaliśmy, że atrybuty przyjmują wartości rzeczywiste. Nie ma problemu dla zmiennych ilościowych dyskretnych ze stosowaniem LDA, dyskryminacji logistycznej, empirycznej metody bayesowskiej. Wartości nominalne x przyjmuje r wartości i ta wartość (0, 0,..., 0, 1, 0,..., 0) (1 na i tym miejscu) musimy mieć dane zawierające obserwacje dla każdego układu atrybutów, aby metoda była stabilna wartości nominalne na skali porządkowej: metoda ad hoc i ta wartość (i 1)/n Inna metoda postępowania dla atrybutów nominalnych oparta na naiwnej metodzie bayesowskiej(zakładającej niezależność atrybutów) x = (x (1),..., x (p) ) p(2 x) p(1 x) = π 2 π 1 p(x 2) p(x 1) = π 2 π 1 p i=1 p(x (i) 2) p(x (i) 1)
42 log p(2 x) p(1 x) = log π 2 π 1 + atrybut x (i) poziomy l = 1,..., m i p i=1 ˆP(x (i) = l k) = n ik(l) n k log p(x (i) 2) p(x (i) 1) n ik (l) # elementów klasy k, dla których i ty atrybut jest równy l p(x (i) = l 2) p(x (i) = l 1) estymujemy przez n i2(l) n i1 (l) n1 n 2 Uwaga(i) Naiwna metoda bayesowska działa często dobrze nawet w przypadku, gdy atrybuty są zależne! (ii) Poprawka Laplace a λ = 0.5, 1. ˆP(x (i) n ik (l) + λ = l k) = w (n ik(w) + λ)
PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.
Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta. Dyskryminacja oparta na regresji liniowej i logistycznej Wprowadzenie Problem analizy dyskryminacyjnej jest ściśle
Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne
Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora
Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Modelowanie zmiennej jakościowej Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 8 Zmienna jakościowa 1 / 25 Zmienna jakościowa Zmienna ilościowa może zostać zmierzona
Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania
Regresja logistyczna analiza relacji między zbiorem zmiennych niezależnych (ilościowych i dychotomicznych) a dychotomiczną zmienną zależną wyniki wyrażone są w prawdopodobieństwie przynależności do danej
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Regresja liniowa wprowadzenie
Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem
Uogolnione modele liniowe
Uogolnione modele liniowe Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 1 / 17 (generalized linear model - glm) Zakładamy,
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka.
Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka. Dane The Western Collaborative Group Study (WCGS) badanie epidemiologiczne zaprojektowane,
Stosowana Analiza Regresji
prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności
1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.
Zadanie 1 Niech y t ma rozkład logarytmiczno normalny o funkcji gęstości postaci [ ] 1 f (y t ) = y exp (ln y t β ln x t ) 2 t 2πσ 2 2σ 2 Zakładamy, że x t jest nielosowe a y t są nieskorelowane w czasie.
Własności statystyczne regresji liniowej. Wykład 4
Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności
Stosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24 Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie:
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
Zawansowane modele wyborów dyskretnych
Zawansowane modele wyborów dyskretnych Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Zawansowane modele wyborów dyskretnych grudzien 2013 1 / 16 Model efektów
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Testowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
Analiza zależności cech ilościowych regresja liniowa (Wykład 13)
Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków
Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków Wojciech Niemiro, Jacek Tomczyk i Marta Zalewska Uniwersytet
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym
WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA. Wydział Matematyki i Nauk Informacyjnych PW
WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA Wydział Matematyki i Nauk Informacyjnych PW Problem klasyfikacji (pod nadzorem) LDA Model sytuacji praktycznej: n par losowych
5. Analiza dyskryminacyjna: FLD, LDA, QDA
Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną
Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej
Porównanie modeli logicznej regresji z klasycznymi modelami regresji liniowej i logistycznej Instytut Matematyczny, Uniwersytet Wrocławski Małgorzata Bogdan Instytut Matematyki i Informatyki, Politechnika
Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda
Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba
Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV
Regresja logistyczna analiza relacji między zbiorem zmiennych niezależnych (ilościowych i dychotomicznych) a dychotomiczną zmienną zależną wyniki wyrażone są w prawdopodobieństwie przynależności do danej
Stanisław Cichocki. Natalia Nehrebecka. Wykład 9
Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności
(LMP-Liniowy model prawdopodobieństwa)
OGÓLNY MODEL REGRESJI BINARNEJ (LMP-Liniowy model prawdopodobieństwa) Dla k3 y α α α α + x + x + x 2 2 3 3 + α x x α x x + α x x + α x x + ε + x 4 2 5 3 6 2 3 7 2 3 Zał.: Wszystkie zmienne interakcyjne
Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K
Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla
Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności
Quick Launch Manual:
egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5
Stosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q
SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania
SIMR 7/8, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania. Dana jest gęstość prawdopodobieństwa zmiennej losowej ciągłej X : { a( x) dla x [, ] f(x) = dla pozostałych x Znaleźć: i) Wartość parametru
Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Regresyjne metody łączenia klasyfikatorów
Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009
REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój
1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y
Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.
Stopy zbieżności Stopę zbieżności ciagu zmiennych losowych a n, takiego, że a n oznaczamy jako a n = o p (1 p 0 a Jeśli n p n α 0, to a n = o p (n α i mówimy a n zbiega według prawdopodobieństwa szybciej
Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago
Model regresji wielokrotnej Wykład 14 (4.06.2007) Przykład ceny domów w Chicago Poniżej są przedstawione dane dotyczące cen domów w Chicago (źródło: Sen, A., Srivastava, M., Regression Analysis, Springer,
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 6 Wrocław, 7 listopada 2011 Temat. Weryfikacja hipotez statystycznych dotyczących proporcji. Test dla proporcji. Niech X 1,..., X n będzie próbą statystyczną z 0-1. Oznaczmy odpowiednio
Metody probabilistyczne
Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Metoda największej wiarogodności
Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Regresja liniowa w R Piotr J. Sobczyk
Regresja liniowa w R Piotr J. Sobczyk Uwaga Poniższe notatki mają charakter roboczy. Mogą zawierać błędy. Za przesłanie mi informacji zwrotnej o zauważonych usterkach serdecznie dziękuję. Weźmy dane dotyczące
Metody Ekonometryczne
Metody Ekonometryczne Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Metody Ekonometyczne Wykład 4 Uogólniona Metoda Najmniejszych Kwadratów (GLS) 1 / 19 Outline 1 2 3 Jakub Mućk Metody Ekonometyczne
Prawdopodobieństwo i rozkład normalny cd.
# # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl
Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego
Rozdział 1 Statystyki Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego X = (X 1,..., X n ). Uwaga 1 Statystyka jako funkcja wektora zmiennych losowych jest zmienną losową
Ekonometria dla IiE i MSEMat Z12
Ekonometria dla IiE i MSEMat Z12 Rafał Woźniak Faculty of Economic Sciences, University of Warsaw Warszawa, 09-01-2017 Test RESET Ramsey a W pierwszym etapie estymujemy współczynniki regresji w modelu:
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład
Testowanie hipotez statystycznych
Część 2 Hipoteza złożona Testowanie hipotez łącznych Zapis matematyczny Rozkład statystyki testowej Hipoteza łączna H 0 : Rβ = q Hipoteza złożona Testowanie hipotez łącznych Zapis matematyczny Rozkład
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Model Cox a. Testowanie założeń o proporcjonalnym hazardzie.
Model Cox a. Testowanie założeń o proporcjonalnym hazardzie. Seminarium - Statystyka w medycynie Model Cox a.. Plan 1 Wstęp Model Cox a - przypomnienie 2 Założenie proporcjonalnego hazardu 3 Metoda wizualna
Stosowana Analiza Regresji
Model jako : Stosowana Analiza Regresji Wykład XI 21 Grudnia 2011 1 / 11 Analiza kowariancji Model jako : Oprócz czynnika o wartościach nominalnych chcemy uwzględnić wpływ predyktora o wartościach ilościowych
Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady
Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń 1. Problem ozwaŝamy zjawisko (model): Y = β 1 X 1 X +...+ β k X k +Z Ηβ = w r Hipoteza alternatywna: Ηβ w r
Matematyka ubezpieczeń majątkowych r.
Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka
Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),
Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer
WYKŁAD 8 ANALIZA REGRESJI
WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej
Statystyka Matematyczna Anna Janicka
Statystyka Matematyczna Anna Janicka wykład X, 9.05.206 TESTOWANIE HIPOTEZ STATYSTYCZNYCH II: PORÓWNYWANIE TESTÓW Plan na dzisiaj 0. Przypomnienie potrzebnych definicji. Porównywanie testów 2. Test jednostajnie
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Model nieliniowe i funkcja produkcji Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 7 i funkcja produkcji 1 / 23 Agenda 1 2 3 Jakub Mućk Ekonometria Wykład 7 i funkcja
Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu
Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów
WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ
WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ Dana jest populacja generalna, w której dwuwymiarowa cecha (zmienna losowa) (X, Y ) ma pewien dwuwymiarowy rozk lad. Miara korelacji liniowej dla zmiennych (X, Y
Stanisław Cichocki Natalia Nehrebecka. Wykład 7
Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności
Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA
Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA Anna Gambin 19 maja 2013 Spis treści 1 Przykład: Model liniowy dla ekspresji genów 1 2 Jednoczynnikowa analiza wariancji 3 2.1 Testy
STATYSTYKA
Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym
1 Modele ADL - interpretacja współczynników
1 Modele ADL - interpretacja współczynników ZADANIE 1.1 Dany jest proces DL następującej postaci: y t = µ + β 0 x t + β 1 x t 1 + ε t. 1. Wyjaśnić, jaka jest intepretacja współczynników β 0 i β 1. 2. Pokazać
Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1
Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT Anna Rajfura 1 Przykład wprowadzający Wiadomo, że 40% owoców ulega uszkodzeniu podczas pakowania automatycznego.
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem
Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Wykład 8 Dane kategoryczne
Wykład 8 Dane kategoryczne Wrocław, 19.04.2017r Zmienne kategoryczne 1 Przykłady zmiennych kategorycznych 2 Zmienne nominalne, zmienne ordynalne (porządkowe) 3 Zmienne dychotomiczne kodowanie zmiennych
Regresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.
LABORATORIUM 4 1. Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz. I) WNIOSKOWANIE STATYSTYCZNE (STATISTICAL INFERENCE) Populacja
Weryfikacja hipotez statystycznych za pomocą testów statystycznych
Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów stat. Hipoteza statystyczna Dowolne przypuszczenie co do rozkładu populacji generalnej
Wykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
1 Estymacja przedziałowa
1 Estymacja przedziałowa 1. PRZEDZIAŁY UFNOŚCI DLA ŚREDNIEJ (a) MODEL I Badana cecha ma rozkład normalny N(µ, σ) o nieznanym parametrze µ i znanym σ. Przedział ufności: [ ( µ x u 1 α ) ( σn ; x + u 1 α
), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0
Testowanie hipotez Każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy nazywamy hipotezą statystyczną. Hipoteza określająca jedynie wartości nieznanych parametrów liczbowych badanej cechy
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Przykład (wstępny). Producent twierdzi, że wadliwość produkcji wynosi 5%. My podejrzewamy, że rzeczywista wadliwość produkcji wynosi 15%. Pobieramy próbę stuelementową
Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y
Zadanie 1 Rozpatrujemy próbę 4877 pracowników fizycznych, którzy stracili prace w USA miedzy rokiem 1982 i 1991. Nie wszyscy bezrobotni, którym przysługuje świadczenie z tytułu ubezpieczenia od utraty
STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2
STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna
Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii
SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane
STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009
STATYSTYKA MATEMATYCZNA WYKŁAD 7 23 listopada 2009 Wykład 6 (16.XI.2009) zakończył się zdefiniowaniem współczynnika korelacji: E X µ x σ x Y µ y σ y = T WSPÓŁCZYNNIK KORELACJI ρ X,Y = ρ Y,X (!) WSPÓŁCZYNNIK
Jądrowe klasyfikatory liniowe
Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie
Wykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Wykład 3 Jednowymiarowe zmienne losowe
Wykład 3 Jednowymiarowe zmienne losowe Niech (Ω, F, P ) będzie ustaloną przestrzenią probabilistyczną Definicja 1 Jednowymiarowa zmienna losowa (o wartościach rzeczywistych), określoną na przestrzeni probabilistycznej
Statystyka matematyczna. Wykład III. Estymacja przedziałowa
Statystyka matematyczna. Wykład III. e-mail:e.kozlovski@pollub.pl Spis treści Rozkłady zmiennych losowych 1 Rozkłady zmiennych losowych Rozkład χ 2 Rozkład t-studenta Rozkład Fischera 2 Przedziały ufności
Regresja logistyczna
Regresja logistyczna Zacznijmy od danych dotyczących tego czy studenci zostali przyjęci na studia. admissions