PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.
|
|
- Krzysztof Olejnik
- 5 lat temu
- Przeglądów:
Transkrypt
1 Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.
2 Dyskryminacja oparta na regresji liniowej i logistycznej
3 Wprowadzenie Problem analizy dyskryminacyjnej jest ściśle związany z zagadnieniem analizy regresji: Analiza dyskryminacyjna jest zadaniem estymacji funkcji, będącej w tym przypadku funkcją o kilku wartościach liczbowych (będących indeksami klas) W przypadku tylko dwóch klas (g = 2) zakodowanych jako {0, 1} E(Y x) = 0 P(Y = 0 x) + 1 P(Y = 1 x) = P(Y = 1 x) Zatem zadanie analizy dyskryminacyjnej można przedstawić jako zadanie analizy regresji z funkcją regresji równą P(Y = 1 x). Podobnie dla większej liczby klas (g > 2) analizę dyskryminacyjną można przedstawić jako zadanie wielowymiarowej analizy regresji, czyli analizy regresji z wektorową zmienną objaśnianą.
4 Dyskryminacja jako zadanie regresji liniowej Zadanie analizy dyskryminacyjnej można zatem rozwiązywać metodami stosowanymi w analizie regresji. Funkcję E(Y x) można estymować za pomocą liniowej funkcji zmiennych x (j), j = 1, 2,..., p. Klasyfikacja do klas odbywa się na podstawie wartości prawdopodobieństw P(Y = 1 x), tzn.: Jeśli dla danej obserwacji x, P(Y = 1 x) > 1, obserwacja jest 2 klasyfikowana jako należąca do klasy 1 Jeśli P(Y = 1 x) < 1, obserwacja jest klasyfikowana jako należąca 2 do klasy 0 Jeśli P(Y = 1 x) = 1, to decyzja o klasyfikacji należy do 2 eksperymentatora.
5 Dyskryminacja jako zadanie regresji liniowej Badamy przypadek z g 2 klasami. Etykiety klas: za pomocą wektora wskaźnikowego Etykieta ma postać Y = (y (1), y (2),..., y (g) ) i dla k-tej klasy jest równa Y = (0, 0,..., 0, 1, 0,..., 0) tzn. k-ta współrzędna wektora wskaźnikowego jest równa 1. Próbę (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) można zapisać za pomocą dwóch macierzy: Macierzy planu (doświadczenia) : X (n,p+1) = 1 x (1) 1 x (2) 1... x (p) 1 1 x (1) 2 x (2) 2... x (p) x n (1) x n (2)... x n (p) 2.
6 Macierzy wektorów odpowiedzi: Y (n,g) = y (1) 1 y (2) 1... y (g) 1 y (1) 2 y (2) 2... y (g) y n (1) y n (2)... y n (g) Zadanie polega na skonstruowaniu na podstawie próby uczącej modelu liniowego określającego relację pomiędzy wektorem zmiennych objaśniających x = (x (1), x (2),..., x (p) ) a wektorem zmiennych objaśnianych y = (y (1), y (2),..., y (g) ).
7 Jest to uogólnienie modelu regresji wielokrotnej na przypadek, gdy zmienna objaśniana jest wektorem - tzn regresja wielowymiarowa. Estymacja parametrów równania regresji odbywa się za pomocą uogólnionej metody najmniejszych kwadratów : Mamy do estymacji g (p + 1) parametrów. Rozwiązaniem zadania estymacji jest zatem pewna macierz ˆB wymiarów (p + 1) g. Uogólniona metoda najmniejszych kwadratów polega na wyznaczeniu macierzy ˆB spełniającej warunek n min y i [1, x i ]B 2, B i=1 gdzie dla α = (α 1, α 2,..., α g ) α 2 = g j=1 α 2 j Jest to zatem g niezależnych zadań regresji wielokrotnej W każdym z nich występuje ta sama macierz obserwacji X ale za każdym razem inna kolumna macierzy Y.
8 Rozwiązania każdego z g zagadnień jest znane (MNK). Ich wspólny zapis : Ŷ = X ˆB, gdzie ˆB = (X T X ) 1 X T Y. nowej obserwacji x odpowiada wektor g-wymiarowy odpowiedzi ŷ: ŷ(x) = [1, x] ˆB. Przy przyjętej notacji możemy napisać p(k x) = E(y (k) x) a zatem [1, x] ˆB jest liniowym estymatorem prawdopodobieństw a posteriori p(k x) dla k = 1, 2,..., g.
9 Budowany klasyfikator opiera się na regule Bayesa, z tą różnicą, że zamiast prawdziwych wartości prawdopodobieństw a posteriori stosuje się ich liniowe estymatory (ponieważ są nieznane). Dla każdej wartości x g ŷ (k) (x) = 1. k=1 Reguła dyskryminacyjna bazująca na regule Bayesa dla obserwacji x polega na wyborze klasy odpowiadającej największej wartości współrzędnych wektora odpowiedzi ŷ(x), tj. ĉ(x) = argmax k {1,2,...,g} ŷ (k) (x). Uwaga: estymator prawdopodobieństwa p(k x) postaci ŷ (k) (x) może przyjmować wartości ujemne lub większe od 1.
10 W przypadku dwóch klas (g = 2) rozwiązanie regresyjne jest bardzo bliskie rozwiązaniu otrzymanemu metodą LDA. W wynikowym modelu regresji liniowej ŷ(x) = β 0 + p β i x (i) wektor współczynników (β 1, β 2,..., β p ) T maksymalizuje iloraz i=1 (a T (x 1 x 2 )) 2 a T W a A zatem model regresji liniowej wyznacza kierunek najlepiej rozdzielający klasy według zasady LDA. Otrzymana w ten sposób reguła dyskryminacyjna pokrywa się z regułą LDA tylko jeśli obie próby uczące są równoliczne.
11 Maskowanie klas W przypadku więcej niż dwóch klas (g > 2) pojawia się problem tzw. maskowania klas: klasyfikator nie widzi"pewnych obserwacji w drastycznych przypadkach klasyfikator całkowicie pomija jedną z klas, tzn. nigdy na nią nie wskazuje (Przykład od Koronacki, Ćwik)
12 Przykład c.d. Trzy funkcje regresji na jednym wykresie - klasa 2. (linia najbliższa poziomej) jest maskowana przez dwie pozostałe
13 Dyskryminacja logistyczna
14 Dyskryminacja logistyczna Model dyskryminacji opartej na regresji liniowej dopuszcza uogólnienia nieliniowe. Takim uogólnieniem jest przykład dyskryminacji logistycznej. Rozważmy przypadek dwóch klas (g = 2). Klasy kodujemy za pomocą ich numerów (tzn. 1, 2). Modelem regresyjnym zapewniającym, że wartości estymatora ˆp(2 x) znajdą się w przedziale [0, 1] jest następujący model logistyczny ( ) ˆp(2 x) ln = α + β T x. 1 ˆp(2 x) ( Funkcję ln u 1 u ) nazywa się funkcją logitową i oznacza się logit(u) Model ( ) ˆp(2 x) ln = α + β T x. 1 ˆp(2 x) można zapisać jako logit(ˆp(2 x)) = α + β T x.
15 Stąd możemy wyznaczyć: oraz ˆp(2 x) = exp(α + βt x) 1 + exp(α + β T x) ˆp(1 x) = exp(α + β T x). Estymatory ˆp(2 x) i ˆp(1 x) spełniają warunki: ˆp(2 x) (0, 1), ˆp(1 x) (0, 1) Dla każdego x ˆp(1 x) + ˆp(2 x) = 1. Wskazują kierunek, wzdłuż którego jedno z prawdopodobieństw rośnie do 1, a drugie maleje do 0. Obserwacja zostanie zaklasyfikowana do klasy 2 jeśli ˆp(2 x) > ˆp(1 x), czyli gdy ( ) ( ) ˆp(2 x) ˆp(2 x) ln = ln > 0 1 ˆp(2 x) ˆp(1 x)
16 Estymacja parametrów modelu Parametry modelu logit(ˆp(2 x)) = α + β T x estymujemy na podstawie próby, stosując metodę największej wiarogodności. Mając te estymatory regułę dyskryminacyjną formułujemy jako: Wybierz większą z wartości ˆp(1 x), ˆp(2 x), a następnie obserwację x zaklasyfikuj do klasy na którą wskazuje wybrane prawdopobieństwo Analizowany model można uogólnić na przypadek większej liczby klas g 2: ln ˆp(1 x) ˆp(g x) = β 10 + β T 1 x ln ln ˆp(2 x) ˆp(g x) = β 20 + β T 2 x ˆp(g 1 x) ˆp(g x). = β (g 1)0 + β T g 1x
17 Uogólnienie na liczbę klas g 2 Wybór klasy umieszczonej w mianowniku powyższych wyrażeń jest dowolny, ale musi to być ta sama klasa dla wszystkich wyrażeń. Prowadzi to do uzyskania, dla k = 1, 2,..., g 1 wyrażeń oraz Oczywiście ˆp(k x) = ˆp(g x) = exp(β k0 + β T k x) 1 + g 1 l=1 exp(β l0 + β T l x) g 1 l=1 exp(β l0 + β T l x) g p(l x) = 1. l=1
18 Uogólnienie na liczbę klas g 2 Niech ˆp(k x) = ˆp k (x; θ), gdzie θ = (β 10, β 1,..., β (g 1)0, β g 1 ) Wówczas logarytm funkcji wiarogodności ma postać ( n ) n ln ˆp ki (x i ; θ) = ln(ˆp ki (x i ; θ)), i=1 i=1 gdzie k i jest klasą dla i-tego elementu próby. Maksymalizacja tej funkcji względem parametru θ prowadzi do uzyskania estymatora największej wiarogodności dla tego parametru. Tym samym uzyskujemy estymatory wszystkich prawdopodobieństw a posteriori. Reguła dyskryminacyjna bazuje na regule bayesowskiej, tj. wybiera klasę o największym prawdopodobieństwie a posteriori.
19 Uwaga: Dla g = 2 i jeżeli klasy mają rozkłady normalne o takiej samej macierzy kowariancji Σ oraz prawdopodobieństwa a priori przynależności do klas są równe, tzn. π 1 = π 2, to otrzymane rozwiązanie jest identyczne z rozwiązaniem LDA.
20 Przykład: Dane Pima Indians Diabetes Database Zbiór ten zawiera dane statystyczne dotyczące kobiet pod kątem klasyfikacji czy chorują na cukrzycę czy też nie. Zbiór zawiera 768 elementów. Zmienne w zbiorze danych: pregnant Liczba przebytych ciąż glucose Koncentracja glukozy w osoczu pressure Ciśnienie krwi (mm Hg) triceps Grubość fałdu skórnego na tricepsie (mm) insulin Dwugodzinna surowica insuliny (mu U/ml) mass Indeks masy ciała (waga w kg/(wzrost w m) 2 ) pedigree Pochodzenie cukrzycy age Wiek w latach diabetes Obecność cukrzycy (0-1)
21 Przykład: Dane Pima Indians Diabetes Database 1 PID <- read. table (" dane _ diabetycy. txt ", header =TRUE, sep=",", dec=".") 2 head ( PID ) pregnant glucose pressure triceps insulin mass
22 Przykład: Dane Pima Indians Diabetes Database Regresja logistyczna może być przeprowadzona w R poprzez użycie funkcji glm() z parametrem family=binomial. 1 modelglm <- glm ( diabetes ~., data = PID, family = binomial ) 2 summary ( modelglm ) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** pregnant *** glucose < 2e-16 *** pressure * triceps insulin mass e-09 *** pedigree ** age
23 Przykład: Dane Pima Indians Diabetes Database 1 predictglm <- predict ( mod.glm, newdata = PID ) 2 plot ( predictglm, pch = as. numeric ( PID$ diabetes ) + 1)
24 Przykład: Dane Pima Indians Diabetes Database Predykcja przynależności do klas: 1 train <- sample (1: nrow ( PID ), 300) 2 predictlr <- predict ( mod.glm, newdata = PID [- train, ]) 3 TAB <- table ( PID$ diabetes [- train ], predictlr > 0) > TAB FALSE TRUE Błąd klasyfikacji: 1 mcrlr <- 1 - sum ( diag ( TAB ))/ sum ( TAB ) 2 mcrlr > mcrlr [1]
25 Przykład: Dane Pima Indians Diabetes Database Porównanie z metodą LDA: 1 library ( MASS ) 2 pid. lda = lda ( diabetes ~., data = PID ) 3 pid. lda Prior probabilities of groups: Coefficients of linear discriminants: LD1 pregnant glucose pressure triceps insulin mass pedigree age
26 Przykład: Dane Pima Indians Diabetes Database Porównanie z metodą LDA: 1 ## Predykcja przynależności do klasy : 2 pid. predict <- predict ( pid.lda, PID [,1:8]) > head(pid.predict$class) [1] Levels: 0 1 > head(pid.predict$posterior)
27 Przykład: Dane Pima Indians Diabetes Database Porównanie z metodą LDA: 1 ## Procent właściwie zaklasyfikowanych obiektów : 2 pid. classperc <-sum ( pid. classify == PID [,9]) / nrow ( PID ) > pid.classperc [1] ## Proporcja błędnych klasyfikacji 2 1- pid. classperc > 1-pid.classperc [1] Wniosek: Dla tego zbioru danych metoda LDA prowadzi do uzyskania mniejszego błędu klasyfikacji.
28 Diagnostyka modelu
29 Odchylenie modelu Rozważamy przypadek z dwoma klasami g = 2 w modelu regresji logistycznej. W przypadku estymacji opartej na metodzie NW, podstawowym wskaźnikiem dopasowania modelu do danych jest tzw. odchylenie modelu (ang. model deviance). NIech ω oznacza pewien dowolny, ustalony model oraz niech ω nas oznacza model nasycony, tj. model idealnie dopasowany do danych, z liczbą parametrów równą liczbie obserwacji w próbie. W modelu nasyconym zakładamy, że dla n obserwacji jest on opisany przez n prawdopodobieństw P(y 1 = 1 x 1 ),..., P(y n = 1 x n ), które możemy szacować dowolnie. Odchylenie modelu ω oznaczamy dev ω i definiujemy jako dev ω = 2 ln L ω nas (ˆθ NW ) L ω (ˆθ NW ), gdzie L ω oznacza funkcję wiarogodności w modelu ω, ˆθ NW - estymator największej wiarogodności w odpowiednim modelu.
30 Odchylenie modelu Odchylenie modelu jest wyrażeniem zawsze nieujemnym. Dla modelu logistycznego ma postać n dev ω = 2 y i ln ˆp i (1 y i ) ln(1 ˆp i ), i=1 gdzie ˆp i = ˆP(y = 1 x i ) jest estymatorem NW dla P(y = 1 x i ), takim, że ( ) ˆP(y = 1 x i ) ln = ˆα + ˆβ 1 ˆP(y T x i = 1 x i ) ˆα, ˆβ są wartościami maksymalizującymi funkcję wiarogodności.
31 Odchylenie modelu Jeśli estymator ˆp i dobrze prognozuje wartość P(y = 1 x i ), tzn ˆpi jest bliska 1 gdy y i = 1 oraz ˆp i jest bliska 0 gdy y i = 0, to odchylenie jest małe. Duże wartości odchylenia wskazują na złe dopasowanie modelu. Odchylenie modelu jest miarą uniwersalną którą możemy stosować do analizy dowolnych modeli. Stosowane jest do analizy problemu istotności jednej lub większej liczby zmiennych objaśniających w modelu. Taka analiza polega na porównaniu odchyleń modelu w przypadku użycia oraz nieużycia analizowanych zmiennych w modelu. Obecność zmiennych nieistotnych w modelu zwiększa błędy oszacowania współczynników istotnych zmiennych i pogarsza dopasowanie modelu.
32 Odchylenie modelu Załóżmy, że ω jest modelem regresji logistycznej o q zmiennych x 1, x 2,..., x q, Ω jest modelem zawierającym zmienne x 1, x 2,..., x q, x q+1,..., x p symbolicznie : ω Ω Rozważamy problem, czy któraś ze zmiennych x q+1,..., x p (jedna, kilka z nich lub wszystkie) wnosi istotną informację do modelu. Można to analizować jako problem testowania hipotezy : H0 : ω przy alternatywie H A : Ω tzn. model ω jest właściwy przeciwko model Ω jest właściwy Za statystykę testową przyjmuje się różnicę odchyleń dla mniejszego i większego modelu: D = dev ω dev Ω.
33 Twierdzenie Przy spełnieniu hipotezy H 0 zmienna D = dev ω dev Ω ma dla dużych liczności próby rozkład χ 2 z p q stopniami swobody. To twierdzenie pozwala odpowiedzieć na pytania: Czy postulowany model zawiera istotną informację na temat problemu klasyfikacji? Na przykład za model ω możemy przyjąć model w którym występuje tylko stała, a za Ω - model zawierający pewną grupę p zmiennych. Wówczas statystyka D przy spełnionej hipotezie H0 będzie miała rozkład χ 2 z p stopniami swobody. Odrzucenie H0 oznacza, że pewna grupa zmiennych spośród x 1, x 2,... x p ( jedna, kilka lub wszystkie) ma istotny wpływ na zmienną y.
34 Czy konkretna zmienna objaśniająca niesie nową informację, gdy uwzględniliśmy wpływ pozostałych zmiennych objaśniających? Aby zbadać czy zmienna xp wnosi istotną informację do modelu w którym są już zmienne x 1, x 2,..., x p 1, przyjmujemy że model ω jest modelem ze zmiennymi x 1, x 2,..., x p 1, a model Ω - modelem ze zmiennymi x 1, x 2,..., x p. Testujemy H0 : ω przy alternatywie H A : Ω Odrzucenie hipotezy H0 sugeruje, że zmienna x p powinna być włączona do modelu.
35 Problem adekwatności modelu logistycznego W zwykłym modelu liniowym podstawowym narzędziem do badania adekwatności modelu są wartości resztowe e i = y i ŷ i, i {1, 2,..., n}. Wykres reszt względem ich indeksów w przypadku adekwatności modelu nie powinien wykazywać żadnej wewnętrznej struktury zależności i skupiać się wokół prostej y = 0. W przypadku modelu logistycznego ω, reszty modelu modyfikuje się tak, aby suma ich kwadratów była równa odchyleniu modelu: n i=1 d 2 i = dev ω. Uzyskuje się to przyjmując, że d i = { 2 log(1 ˆpi ), gdy y i = 0 2 log(ˆpi ), gdy y i = 1.
36 Reszty modelu logistycznego Reszty d i są ujemne gdy y i = 0, oraz dodatnie, gdy y i = 1. Wykres może mieć pewną strukturę zależności. Wykres reszt użyteczny do wyznaczenia obserwacji odstających. Do wykrycia obserwacji odstających także normalny wykres kwantylowy. W przypadku wykrycia obserwacji odstających usuwa się je ze zbioru danych i ponownie dopasowuje model.
37 Miara dopasowania modelu logistycznego W przypadku modelu liniowego miarą dopasowania modelu jest współczynnik R 2 oznaczający proporcję wariancji wyjaśnianej przez model: n R 2 i=1 = 1 (y i ŷ i ) 2 n i=1 (y i y). 2 W modelu logistycznym analogiczną miarą jest 1 dev ω dev ω0, gdzie dev ω0 jest odchyleniem modelu ω 0, zawierającego tylko stałą.
38 Diagnostyka modelu logistycznego- podsumowanie Taka diagnostyka umożliwia zaproponowanie dobrego modelu na podstawie próby uczącej. Nie daje pełnej oceny jakości wybranego modelu. Taka ocena wymaga zbadania działania klasyfikatora na nowych danych a nie na danych na których został on skonstruowany.
39 Perceptron Rosenblatta
40 Perceptron Rosenblatta Perceptron Rosenblatta jest algorytmem uczenia pojedynczego sztucznego neuronu, czyli algorytmem nawiązującym do idei sztucznych neuronów. Zadaniem algorytmu jest konstrukcja prostej (hiperpłaszczyzny) rozdzielającej klasy. Jest to zadanie analizy dyskryminacyjnej, z rozwiązaniem będącym klasyfikatorem liniowym. Niech n -liczność próby uczącej, x i, i = 1, 2,..., n są obserwacjami p-wymiarowymi, tzn g = 2, tzn, rozważamy dwie klasy. x i = (x (1) i, x (2) i,..., x (p) i ).
41 Perceptron Rosenblatta Algorytm uczenia perceptronu zakłada liniową rozdzielność klas. Oznacza to, że dla wektora obserwacji x R p, wektora współczynników (wag) w stałej b, istnieje funkcja w T x + b, dodatnia dla wszystkich obserwacji z jednej klasy i ujemna, dla wsystkich obserwacji z drugiej klasy. Hiperpłaszczyzna idealnie rozdzielająca klasy ma postać w T x + b = 0. Uczenie perceptronu polega na wyznaczeniu wektora wag (w (0), w (1),..., w (p) ), gdzie przyjmujemy w (0) = b.
42 Perceptron Rosenblatta Zadanie dyskryminacji polega na znalezieniu właściwych wag w spełniających w T x = 0. Przy przyjętych oznaczeniach wyznaczenie klasyfikatora polega więc na rozwiązaniu równania p w (k) x(k) = 0. k=0 Wprowadzamy nowe wektory z i, i = 1, 2,..., n postaci { x z i = i, gdy i-ta obserwacja należy do klasy 1, x i, gdy i-ta obserwacja należy do klasy 2.. W przypadku bezbłędnej klasyfikacji wektora z klasy 1 w T x i > 0. W przypadku bezbłędnej klasyfikacji wektora z klasy 2 w T x i < 0.
43 Wówczas bezbłędne zaklasyfikowanie wszystkich obserwacji z próby uczącej oznacza, że w T z i > 0, dla wszystkich i {1, 2,..., n}. Załóżmy, że przyjęte wagi w nie dają idealnej klasyfikacji. Niech M oznacza zbiór indeksów obserwacji, dla których klasyfikacja była błędna. Wówczas sumę w T z i i M nazywa się kryterium perceptronowym. Zatem problem wyznaczenia wag można sprowadzić do następującego kryterium : Zminimalizuj ze względu na w wartość kryterium perceptronowego, gdzie sumowanie przebiega przez wszystkie źle zaklasyfikowane obserwacje.
44 Optymalizacja wag metodą MNK Zdefiniujmy oraz HL(t) = I (w T z i < 0) = { 1, gdy t > 0 1, gdy t 0 { 1, gdy w T z i < 0 0, gdy w T z i 0 Wówczas kryterium perceptronowe można zapisać w postaci: n w T z i = w T z i I (w T z i < 0) i M i=1 Zauważmy następnie, że { 1 HL(w T 1, gdy w z i ) = 1 T z i > 0 1, gdy w T z i 0 = = 2 I (w T z i 0) { 0, gdy w T z i > 0 2, gdy w T z i 0 =
45 Optymalizacja wag metodą MNK A zatem kryterium perceptronowe możemy zapisać jako = 1 2 gdzie ỹ i = w T z i = i M n w T z i I (w T z i < 0) i=1 n (1 HL(w T z i ))w T z i = 1 2 i=1 n (ỹ i HL(w T x i ))w T z i, i=1 { 1, gdy x i pochodzi z klasy 1. 1, gdy x i pochodzi z klasy 2. Zatem kryterium przyjmuje wartość 0, gdy ỹ = (HL(w T x 1 ),..., HL(w T x n )) T Jest więc miarą różnicy pomiędzy wektorami ỹ a (w T x 1,..., w T x n ) T, czyli miarą różnicy ỹ X w.
46 Optymalizacja wag metodą MNK W metodzie najmniejszych kwadratów minimalizacji ulega wielkość (ỹ X w) T (ỹ X w). Rozwiązaniem zagadnienia minimalizacji jest wektor w = (X T X ) 1 X T ỹ. Modyfikacją tej metody jest reguła Widrowa-Hoffa (reguła delta), w której rozwiązanie jest wyznaczane iteracyjnie z zależności w l+1 = w l + ρ l (ỹ i w T x i )x i.
Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne
Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora
Bardziej szczegółowoPODSTAWY STATYSTYCZNEJ ANALIZY DANYCH
Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa. Wprowadzenie do klasyfikacji pod nadzorem. Klasyfikacja pod nadzorem Klasyfikacja jest
Bardziej szczegółowoRozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki
Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Twierzdzenie: Prawdopodobieostwo, że n obserwacji wybranych
Bardziej szczegółowoPODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.
Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa. Kwadratowa analiza dyskryminacyjna Przykład analizy QDA Czasem nie jest możliwe rozdzielenie
Bardziej szczegółowoWeryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Bardziej szczegółowoIdea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Bardziej szczegółowoRozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Bardziej szczegółowoWłasności statystyczne regresji liniowej. Wykład 4
Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności
Bardziej szczegółowoTestowanie hipotez statystycznych.
Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie
Bardziej szczegółowoAnaliza zależności cech ilościowych regresja liniowa (Wykład 13)
Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny
Bardziej szczegółowoQuick Launch Manual:
egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5
Bardziej szczegółowoWSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Bardziej szczegółowoWspółczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
Bardziej szczegółowoRozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba
Bardziej szczegółowoNatalia Neherbecka. 11 czerwca 2010
Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje
Bardziej szczegółowoStosowana Analiza Regresji
prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile
Bardziej szczegółowoModel regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago
Model regresji wielokrotnej Wykład 14 (4.06.2007) Przykład ceny domów w Chicago Poniżej są przedstawione dane dotyczące cen domów w Chicago (źródło: Sen, A., Srivastava, M., Regression Analysis, Springer,
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Bardziej szczegółowoESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności
Bardziej szczegółowoMetoda najmniejszych kwadratów
Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K
Bardziej szczegółowoAlgorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.
Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a
Bardziej szczegółowoEkonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda
Bardziej szczegółowoWykład 4 Wybór najlepszej procedury. Estymacja parametrów re
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem
Bardziej szczegółowoStatystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Bardziej szczegółowoTestowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 9
Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności
Bardziej szczegółowoElementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Bardziej szczegółowoPrawdopodobieństwo i statystyka r.
Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje
Bardziej szczegółowoZastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym
Bardziej szczegółowoRegresja liniowa wprowadzenie
Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem
Bardziej szczegółowoWstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót
powrót Spis treści 1 Wstęp 2 Regresja logistyczna 2.1 Hipoteza 2.2 Estymacja parametrów 2.2.1 Funkcja wiarygodności 3 Uogólnione modele liniowe 3.1 Rodzina wykładnicza 3.1.1 Rozkład Bernouliego 3.1.2 Rozkład
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Bardziej szczegółowoWYKŁAD II: Klasyfikacja logistyczna. MiNI PW
WYKŁAD II: Klasyfikacja logistyczna MiNI PW Rozpatrywane dotąd metody klasyfikacji: LDA Fishera (liniowa reguła klasyfikacyjna); Reguła Bayesowska (jej wersja empiryczna dla rozkładów normalnych ze wspólną
Bardziej szczegółowoStatystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
Bardziej szczegółowoMODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Bardziej szczegółowoEkonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota
Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych
Bardziej szczegółowoTestowanie hipotez statystycznych.
Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Bardziej szczegółowoNiech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.
Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,
Bardziej szczegółowoMetoda największej wiarogodności
Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm
Bardziej szczegółowoUogolnione modele liniowe
Uogolnione modele liniowe Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 1 / 17 (generalized linear model - glm) Zakładamy,
Bardziej szczegółowoElementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Bardziej szczegółowoWnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
Bardziej szczegółowoWprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
Bardziej szczegółowo1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.
Zadanie 1 Niech y t ma rozkład logarytmiczno normalny o funkcji gęstości postaci [ ] 1 f (y t ) = y exp (ln y t β ln x t ) 2 t 2πσ 2 2σ 2 Zakładamy, że x t jest nielosowe a y t są nieskorelowane w czasie.
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010
STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego
Bardziej szczegółowoRegresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
Bardziej szczegółowoStosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24 Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie:
Bardziej szczegółowoKORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Bardziej szczegółowoMatematyka z el. statystyki, # 6 /Geodezja i kartografia II/
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl
Bardziej szczegółowoRegresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Bardziej szczegółowoWykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Bardziej szczegółowoTestowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
Bardziej szczegółowoWYKŁAD 8 ANALIZA REGRESJI
WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej
Bardziej szczegółowoEkonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Modelowanie zmiennej jakościowej Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 8 Zmienna jakościowa 1 / 25 Zmienna jakościowa Zmienna ilościowa może zostać zmierzona
Bardziej szczegółowoStatystyczna analiza danych
Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30 Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy
Bardziej szczegółowoWykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Bardziej szczegółowoHISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =
HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki
Bardziej szczegółowoBłędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
Bardziej szczegółowoPDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Bardziej szczegółowo5. Analiza dyskryminacyjna: FLD, LDA, QDA
Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną
Bardziej szczegółowoSpis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Bardziej szczegółowoWIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność
Bardziej szczegółowoStatystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Bardziej szczegółowoStatystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki
Bardziej szczegółowoEstymacja parametrów rozkładu cechy
Estymacja parametrów rozkładu cechy Estymujemy parametr θ rozkładu cechy X Próba: X 1, X 2,..., X n Estymator punktowy jest funkcją próby ˆθ = ˆθX 1, X 2,..., X n przybliżającą wartość parametru θ Przedział
Bardziej szczegółowoTestowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Bardziej szczegółowoZadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
Bardziej szczegółowoSTATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2
STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna
Bardziej szczegółowo1.9 Czasowy wymiar danych
1.9 Czasowy wymiar danych Do tej pory rozpatrywaliśmy jedynie modele tworzone na podstawie danych empirycznych pochodzących z prób przekrojowych. Teraz zajmiemy się zagadnieniem budowy modeli regresji,
Bardziej szczegółowoWykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu
Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów
Bardziej szczegółowoAnaliza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady
Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń 1. Problem ozwaŝamy zjawisko (model): Y = β 1 X 1 X +...+ β k X k +Z Ηβ = w r Hipoteza alternatywna: Ηβ w r
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Bardziej szczegółowoKolokwium ze statystyki matematycznej
Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę
Bardziej szczegółowoTestowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Bardziej szczegółowoWykład 10 Estymacja przedziałowa - przedziały ufności dla średn
Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem
Bardziej szczegółowoStatystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych
Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej
Bardziej szczegółowoStosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q
Bardziej szczegółowoModele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11
Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)
Bardziej szczegółowoWeryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Bardziej szczegółowoEstymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014
Estymacja przedziałowa - przedziały ufności dla średnich Wrocław, 5 grudnia 2014 Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja Przedziałem ufności dla paramertu
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 13 i 14 1 / 15 MODEL BAYESOWSKI, przykład wstępny Statystyka
Bardziej szczegółowoMikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 3 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.hedonic.dta przygotuj model oszacowujący wartość kosztów zewnętrznych rolnictwa 1. Przeprowadź regresję objaśniającą
Bardziej szczegółowoSpis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla
Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności
Bardziej szczegółowoStatystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Bardziej szczegółowoZależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),
Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer
Bardziej szczegółowoMikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne
Bardziej szczegółowoPODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.
PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo
Bardziej szczegółowoREGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój
1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y
Bardziej szczegółowo1.1 Wstęp Literatura... 1
Spis treści Spis treści 1 Wstęp 1 1.1 Wstęp................................ 1 1.2 Literatura.............................. 1 2 Elementy rachunku prawdopodobieństwa 2 2.1 Podstawy..............................
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoMetody probabilistyczne
Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy
Bardziej szczegółowoRegresyjne metody łączenia klasyfikatorów
Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
Bardziej szczegółowo