WIELOMIANOWE MODELE LOGITOWE WYBORÓW DYSKRETNYCH I ICH IMPLEMENTACJA W PAKIECIE DiscreteChoice PROGRAMU R
|
|
- Paulina Borkowska
- 7 lat temu
- Przeglądów:
Transkrypt
1 PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU nr 07 RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS nr Taksonomia ISSN Klasyfikacja i analiza danych teoria i zastosowania Andrzej Bąk, Tomasz Bartłomowicz Uniwersytet Ekonomiczny we Wrocławiu WIELOMIANOWE MODELE LOGITOWE WYBORÓW DYSKRETNYCH I ICH IMPLEMENTACJA W PAKIECIE DiscreteChoice PROGRAMU R Streszczenie: Celem artykułu jest prezentacja pakietu DiscreteChoice, opracowanego dla środowiska R, który może być stosowany do analizy wyborów konsumentów ze zbioru dostępnych opcji. Pakiet zawiera implementację wielomianowego, warunkowego oraz mieszanego modelu, a także funkcje, które mogą być zastosowane w metodzie wyborów dyskretnych do konstrukcji eksperymentu m.in. budowy cząstkowego układu czynnikowego, kodowania zbioru opcji i estymacji modelu. W artykule przedstawione zostały przykłady zastosowania funkcji pakietu DiscreteChoice w analizie preferencji konsumentów. Słowa kluczowe: mikroekonometria, preferencje, wielomianowe modele logitowe wyborów dyskretnych, program R. 1. Wstęp W badaniach preferencji wyrażonych stosowane są najczęściej metody dekompozycyjne, których idea polega na rozkładzie (dekompozycji) preferencji empirycznych (wyrażonych na przykład w badaniu ankietowym) na użyteczności cząstkowe poziomów atrybutów opisujących badane profile produktów lub usług. Wśród metod dekompozycyjnych wyróżnia się dwie podstawowe grupy: metody conjoint analysis oraz metody wyborów dyskretnych. Podstawę teoretyczną modeli wyborów dyskretnych stanowi teoria użyteczności losowej [Coombs, Dawes, Tversky 1977, s. 14], która umożliwia kwantyfikację użyteczności, a w konsekwencji identyfikację czynników, którymi kierują się konsumenci, wybierając określone produkty lub usługi. Czynniki te mogą być związane zarówno z charakterystykami konsumentów, jak i atrybutami produktów lub usług. Oznacza to, że w badaniu preferencji konsumentów zastosowanie znajdują modele kategorii nieuporządkowanych, wśród których najczęściej stosowane modele to: wielomianowy model logitowy, warunkowy model logitowy oraz mieszany model logitowy [Winkelmann, Boes 006].
2 86 Andrzej Bąk, Tomasz Bartłomowicz W literaturze przedmiotu rozróżnienie między tymi modelami nie jest jednoznacznie interpretowane. Celem artykułu jest omówienie podstawowych różnic między wyróżnionymi modelami logitowymi [Bąk 01] oraz prezentacja pakietu DiscreteChoice opracowanego dla programu R [Bąk, Bartłomowicz 013a], którego funkcje umożliwiają realizację procedury badawczej opartej na wyborach z wykorzystaniem modeli wielomianowych. Funkcje pakietu zilustrowano przykładem zastosowania w empirycznych badaniach preferencji wyrażonych konsumentów.. Wielomianowe modele logitowe wyborów dyskretnych W badaniach marketingowych prowadzonych za pomocą metod wyborów dyskretnych znajdują zastosowanie modele kategorii nieuporządkowanych w postaci wielomianowego (MultiNomial Logit Model MNLM) i warunkowego (Conditional Logit Model CLM) modelu logitowego oraz mieszanego modelu logitowego (Mixed Logit Model MLM), będącego połączeniem wymienionych modeli [Cameron, Trivedi 009, s. 500]. Wielomianowy model logitowy jest uogólnieniem modelu logitowego dla danych binarnych i może być stosowany, gdy zmienna objaśniana przyjmuje w sposób dyskretny wartości ze zbioru liczącego więcej niż dwie kategorie. Model wywodzi się z teorii użyteczności losowej oraz tzw. aksjomatu wyboru Luce a (modelu stałej użyteczności) [Coombs, Dawes, Tversky 1977, s. 17; Bierlaire 1997]. Wielomianowy model logitowy można przedstawić w postaci [So, Kuhfeld 1995; Long 1997, s. 151; Powers, Xie 008, s. 43; Cameron, Trivedi 009, s. 500; Gruszczyński (red.) 010, s. 161]: T exp( xkβi) Pki =, n T (1) exp x β l= 1 ( k l) gdzie: P ki prawdopodobieństwo wyboru i-tej kategorii przy k-tym stanie zmiennych objaśniających opisujących konsumentów; x T k wektor reprezentujący k-ty wiersz macierzy X (wartości zmiennych objaśniających dla k-tego konsumenta); β i wektor parametrów związany z i-tą kategorią zmiennej objaśnianej. W przypadku warunkowego modelu logitowego zaproponowanego przez McFaddena [McFadden 1974, s ] prawdopodobieństwo wyboru i-tego profilu ze zbioru liczącego n elementów jest szacowane na podstawie zależności [So, Kuhfeld 1995, s. 7; Long 1997, s. 178; Powers, Xie 008, s. 56; Cameron, Trivedi 009, s. 500; Gruszczyński (red.) 010, s ]: P ki = n l= 1 exp exp T ( zkiα ) T ( zklα ), ()
3 Wielomianowe modele logitowe wyborów dyskretnych i ich implementacja 87 gdzie: ki P prawdopodobieństwo wyboru i-tej kategorii przy k-tym stanie zmien- T nych objaśniających; z kl k-ty wektor macierzy Z (zmiennych objaśniających opisujących i-tą opcję wybraną przez k-tego konsumenta); α wektor parametrów. Zarówno wielomianowe, jak i warunkowe modele logitowe wykorzystywane są do analizy wyborów indywidualnych ze zbioru dostępnych alternatyw (kategorii, opcji, profilów), przy czym w modelu wielomianowym (1) szacuje się prawdopodobieństwo wyboru i-tej opcji z uwzględnieniem zmiennych objaśniających charakteryzujących konsumentów, podczas gdy w modelu warunkowym () jest to prawdopodobieństwo wyboru i-tej opcji ze względu na wartości zmiennych objaśniających charakteryzujących tę opcję. Wynika to z założenia co stanowi jednocześnie główne rozróżnienie tych modeli że w wielomianowym modelu logitowym analizuje się cechy konsumentów i ich wpływ na wybory określonych opcji. W modelu warunkowym natomiast analizuje się cechy produktów lub usług (opcji wyboru) i ich wpływ na dokonywane przez konsumentów wybory. W mieszanym modelu logitowym (3) prawdopodobieństwo wyboru i-tej kategorii przy k-tym stanie zmiennych objaśniających opisać można za pomocą zależności: T T exp( xk βi + zkiα) Pki =. n T T (3) exp x β + z α l= 1 ( k l kl ) Model mieszany uwzględnia zarówno cechy konsumentów, jak i cechy opisujące opcje wyboru. Oznacza to, że macierze zmiennych objaśniających uwzględniają zarówno indywidualne charakterystyki konsumentów, jak i charakterystyki produktów lub usług. 3. Pakiet DiscreteChoice programu R Pakiet DiscreteChoice [Bąk, Bartłomowicz 013a] to autorskie oprogramowanie zawierające implementację wielomianowych modeli logitowych wyborów dyskretnych dla programu R [R Development Core Team 013], udostępniane na podstawie licencji GNU GPL. Korzystanie z pakietu wymaga zainstalowania wersji bazowej programu R oraz pakietów AlgDesign i rms. Pakiet można pobrać i zainstalować ze strony internetowej Katedry Ekonometrii i Informatyki Uniwersytetu Ekonomicznego we Wrocławiu 1. W aktualnej wersji pakietu (1.00) oferowanych jest 1 funkcji, które umożliwiają (por. tab. 1): wygenerowanie układu badania w postaci cząstkowego układu czynnikowego z zadeklarowaną liczbą bloków oraz profilów w każdym z bloków (funkcja MNMdesign), przekonwertowanie danych o indywidualnych wyborach 1 URL:
4 88 Andrzej Bąk, Tomasz Bartłomowicz konsumentów na zbiory danych dla modeli logitowych (funkcje: MNLdata, CLMdata, MLMdata), estymację parametrów modeli logitowych (funkcje: MNLmodel, CLMmodel, MLMmodel) z wykorzystaniem funkcji optim [zob. Jackman 007] oraz szacowanie prawdopodobieństw wyborów profilów według zadanych modeli (funkcje: MNLprob, CLMprob, MLMprob). Ponadto w roli funkcji specjalnego przeznaczenia wymienić należy funkcję CLMattrsel, której zadaniem jest Tabela 1. Funkcje pakietu DiscreteChoice Funkcje pakietu MNMdesign(vars, names, blocks=3, profiles=6) funkcja generująca cząstkowy układ czynnikowy z sugerowaną liczbą bloków oraz profilów w każdym z bloków (wliczając profil żaden z powyższych ) MNLdata(y, x, z) funkcja konwertująca macierz danych opisującą indywidualne wyboryna zbiór danych do wielomianowego modelu logitowego CLMdata(x, y) funkcja konwertująca macierz danych opisującą indywidualne wybory na zbiór danych do warunkowego modelu logitowego MLMdata(y, x, z) funkcja konwertująca macierz danych opisującą indywidualne wybory na zbiór danych do mieszanego modelu logitowego MNLmodel(y, x, z) funkcja wyznacza wartości wyrazów wolnych dla indywidualnych predyspozycji jednostki (charakterystyk konsumentów), wykorzystując wielomianowy model logitowy; wartości parametrów reprezentują efekt wpływający na prawdopodobieństwo wyboru opcji (profilów) w stosunku do opcji (profilu) odniesienia CLMmodel(x, y) funkcja wyznacza wartości wyrazów wolnych dla charakterystyk alternatyw (atrybutów produktów lub usług), wykorzystując warunkowy model logitowy MLMmodel(y, x, z) funkcja wyznacza wartości wyrazów wolnych dla indywidualnych predyspozycji jednostki (charakterystyk konsumentów) oraz charakterystyk alternatyw (atrybutów produktów lub usług), wykorzystując mieszany (hybrydowy) model logitowy MNLprob(y, x, z) funkcja szacująca prawdopodobieństwo wyboru profilów według wielomianowego modelu logitowego CLMprob(x, y) funkcja szacująca prawdopodobieństwo wyboru profilów według warunkowego modelu logitowego MLMprob(y, x, z) funkcja szacująca prawdopodobieństwo wyboru profilów według mieszanego modelu logitowego CLMattrsel(x, y) funkcja generująca zbiór zmiennych (bez zmiennych powtarzających się) do warunkowego modelu logitowego CLMgraph(x, y) funkcja generująca wykres ilorazu hazardu na podstawie modelu warunkowego Argumenty funkcji vars wektor liczby poziomów zmiennych names wektor nazw zmiennych blocks liczba bloków (parametr opcjonalny), wartość domyślna: blocks=3 profiles liczba profilów w każdym z bloków (parametr opcjonalny), wartość domyślna: profiles=6 y wektor lub macierz zmiennych opisujących indywidualne wybory (zmienna objaśniana) x macierz zmiennych objaśniających, np. charakterystyk opcji wyboru (alternatyw) z macierz parametrów związanych z kategoriami zmiennej objaśnianej Źródło: opracowanie własne.
5 Wielomianowe modele logitowe wyborów dyskretnych i ich implementacja 89 selekcja zbioru zmiennych dla warunkowego modelu logitowego (pominięcie zmiennych sztucznych współliniowych) oraz funkcję CLMgraph, która generuje wykres ilorazu hazardu dla modelu warunkowego. Należy zauważyć, że prezentowany pakiet wspiera nierealizowane dotychczas w żadnym z pakietów programu R elementy procedury metody wyborów dyskretnych. Szczegółowa charakterystyka oraz przykłady zastosowania wszystkich funkcji dostępne są w dokumentacji pakietu DiscreteChoice. 4. Badanie preferencji z wykorzystaniem pakietu DiscreteChoice W przykładzie ilustrującym sposób wykorzystania wielomianowych modeli logitowych identyfikacja i analiza preferencji respondentów dotyczy usług gastronomicznych [Bąk, Bartłomowicz 013b]. W badaniu wytypowano 4 atrybuty (wraz z odpowiadającymi im poziomami): cenę (do 10 zł, 10-0 zł, powyżej 0 zł), miejsce konsumpcji (bar, restaurację, stołówkę, punkt gastronomiczny), rodzaj konsumpcji (posiłek, deser, napój) oraz godzinę konsumpcji (poranną, popołudniową, wieczorną). Badanie przeprowadzono wśród mieszkańców Jeleniej Góry i okolic w roku 010, co ostatecznie umożliwiło wykorzystanie danych ze 136 prawidłowo wypełnionych kwestionariuszy ankietowych. Pomimo że w badaniu można było wykorzystać maksymalnie 108 różnych profilów usług gastronomicznych, ostatecznie na potrzeby badania wytypowano 3 zbiory danych po 6 profilów, w których na ostatniej (6., 1. oraz 18.) pozycji znalazły się profile odniesienia (indeksy kodowania o jeden większe niż liczba poziomów danej zmiennej): > X<-MNMdesign(vars=c(3, 4, 3, 3), names=c( price, place, kind, time ), profiles=6, blocks=3) > print(x) price place kind time Dane zostały zebrane przez M. Więcław.
6 90 Andrzej Bąk, Tomasz Bartłomowicz Dla przykładu, blok pierwszy (wiersze 1-6 macierzy X) to zakodowany zbiór profilów (wraz z profilem odniesienia) prezentowany przez tab.. Tabela. Przykładowy zbiór profilów do wyboru Cena (price) Miejsce konsumpcji (place) Rodzaj konsumpcji (kind) Godzina konsumpcji (time) Wybór (choice) 10-0 zł bar deser poranna 1 do 10 zł restauracja napój poranna do 10 zł stołówka deser popołudniowa 3 powyżej 0 zł stołówka napój popołudniowa zł stołówka posiłek wieczorna 5 żaden z profilów 6 Źródło: opracowanie własne. Respondenci za każdym razem wybierali 1 z 6 profilów. Zmienną specyficzną dla respondenta jest wiek (age), wybraną opcję wyboru określa cena (price), natomiast wybrany profil reprezentuje zmienna (choice). W wyniku zastosowania funkcji MNLmodel, w wielomianowym modelu logitowym otrzymuje się oszacowania parametrów dla charakterystycznej dla respondentów zmiennej specyficznej wiek (age): > z1<-as.data.frame(z[, ]) > n<-names(z) > colnames(z1)<-n[] > MNLmodel(Y3, X3, z1) $estimate coef se t Pr(> t ) exp(coef) intercept intercept intercept intercept intercept age age age age age $loglik [1] $McFaddenR [1]
7 Wielomianowe modele logitowe wyborów dyskretnych i ich implementacja 91 Uzyskany zestaw wyników (5 wyrazów wolnych (intercept) oraz 5 parametrów dla zmiennej specyficznej (age)) reprezentuje efekt wpływający na prawdopodobieństwo wyboru opcji (profilu) 1 5 w stosunku do profilu odniesienia oznaczonego numerem 6. Porównanie uzyskanych wartości wskazuje, że profil 1 jest wybierany głównie przez młodszych respondentów (w wieku do 5 lat). W wyniku zastosowania funkcji MNLprob uzyskuje się oszacowania prawdopodobieństwa wyboru poszczególnych profilów przez respondentów (na poziomie indywidualnym oraz w przekroju wszystkich respondentów): > z1<-as.data.frame(z[,]) > n<-names(z) > colnames(z1)<-n[] > MNLprob(Y3, X3, z1) p1 p p3 p4 p5 p6 [1,] [,] [3,] [4,] [5,] [6,] > apply(pmnl,, "mean") p1 p p3 p4 p5 p Należy zauważyć, że spośród profilów p1-p6 prawdopodobieństwo wyboru profilu jest największe (cena 10-0 zł, miejsce restauracja, rodzaj posiłek, godzina konsumpcji popołudniowa). Prawdopodobieństwo wyboru profilu 1 jest natomiast najmniejsze (cena powyżej 0 zł, miejsce stołówka, rodzaj napój, godzina konsumpcji poranna). Podobne oszacowania uzyskuje się w wyniku zastosowania funkcji CLMprob (w odniesieniu do wszystkich 18 profilów): > Pclm<-CLMprob(X,Y) > print(pclm) $probave p1 p p3 p4 p5 p p7 p8 p9 p10 p11 p p13 p14 p15 p16 p17 p $probavesort p14 p11 p7 p6 p1 p p17 p10 p8 p9 p15 p p5 p3 p p4 p1 p
8 9 Andrzej Bąk, Tomasz Bartłomowicz Spośród profilów p1-p18 prawdopodobieństwo wyboru profilu 14 jest największe (cena 10-0 zł, miejsce restauracja, rodzaj posiłek, godzina konsumpcji popołudniowa). Najmniejszym prawdopodobieństwem wyboru charakteryzuje się 13 profil (cena 10-0 zł, miejsce stołówka, rodzaj napój, godzina konsumpcji poranna). W przypadku modelu mieszanego zastosowanie funkcji MLMprob pozwala potwierdzić wyniki uzyskane za pomocą funkcji CLMprob: > z1<-as.data.frame(z[, 1]) > n<-names(z) > colnames(z1)<-n[1] > x1<-as.data.frame(x3[, 1]) > n<-names(x3) > colnames(x1)<-n[1] > MLMprob(Y3, x1, z1) p1 p p3 p4 p5 p6 [1,] [,] [3,] [4,] [5,] [6,] > apply(pmlm,,"mean") p1 p p3 p4 p5 p > Pmlm<-as.matrix(apply(Pmlm,, "mean")) > Pmlm[order(Pmlm, decreasing=true), ] p p5 p6 p3 p4 p Profil jest preferowany w największym stopniu (cena 10-0 zł, miejsce restauracja, rodzaj posiłek, godzina konsumpcji popołudniowa). Prawdopodobieństwo wyboru profilu 1 (z poranną godziną konsumpcji) jest najniższe. Warto w tym miejscu zauważyć, że analizę preferencji respondentów w odniesieniu do wybranych opcji (atrybutów) umożliwia model warunkowy oraz funkcja CLMmodel: > clm<-clmmodel(x, Y) > print(clm) $estimate coef se t Pr(> t ) exp(coef) cena cena cena miejsce miejsce miejsce rodzaj rodzaj godzina godzina
9 Wielomianowe modele logitowe wyborów dyskretnych i ich implementacja 93 $loglik [1] $McFaddenR [1] $LR df Chisq Pr(>Chisq) [1,] e-19 Wartości exp(coef) oznaczają współczynniki ilorazu hazardu wybranych atrybutów. Analiza współczynników wskazuje, że respondenci preferują niską lub średnią cenę, restauracje, posiłki (tudzież popołudniową godzinę konsumpcji), co potwierdza wykres ilorazu hazardu uzyskany z zastosowaniem funkcji CLMgraph: Rys. 1. Wpływ opcji wyboru (atrybutów) na wybór profilów Źródło: opracowanie własne z wykorzystaniem programu R. 5. Podsumowanie Mikroekonometryczne wielomianowe modele logitowe znajdują zastosowanie w analizie preferencji wyrażonych z wykorzystaniem podejścia opartego na wyborach dyskretnych. Różne typy modeli wielomianowych mogą być szacowane za pomocą metody największej wiarygodności z zastosowaniem iteracyjnego algorytmu optymalizacyjnego. Estymacja różnych typów wielomianowych modeli logitowych wymaga różnej struktury danych empirycznych. Pakiet DiscreteChoice zawiera funkcje przekształcające dane empiryczne do postaci wymaganych struktur oraz funkcje szacujące parametry różnych typów wielomianowych modeli logitowych wyborów dyskretnych.
10 94 Andrzej Bąk, Tomasz Bartłomowicz Literatura Bąk A. (01), Modele kategorii nieuporządkowanych w badaniach preferencji, [w:] K. Jajuga, M. Walesiak (red.), Klasyfikacja i analiza danych teoria i zastosowania, Taksonomia 17, Prace Naukowe UE we Wrocławiu nr 4, Wrocław, s Bąk A., Bartłomowicz T., (013a), Discrete choice multinomial models package DiscreteChoice, [URL:] Bąk A., Bartłomowicz T., (013b), Mikroekonometryczne modele wielomianowe i ich zastosowanie w analizie preferencji z wykorzystaniem programu R, Prace Naukowe UE we Wrocławiu nr 78, Wrocław, s Bierlaire M. (1997), Discrete Choice Models, URL: michel.html, Cambridge, Massachusetts Institute of Technology. Cameron A.C., Trivedi P.K. (009), Microeconometrics. Methods and Applications, Cambridge University Press, New York. Coombs C.H., Dawes R.M., Tversky A. (1977), Wprowadzenie do psychologii matematycznej, PWN, Warszawa. Gruszczyński M. (red.) (010), Mikroekonometria. Modele i metody analizy danych indywidualnych, Wolters Kluwer, Warszawa. Jackman S. (007), Models for Unordered Outcomes, Political Science 150C/350C, [URL:] ( ). Long J.S. (1997), Regression Models for Categorical and Limited Dependent Variables, SAGE Publications, Thousand Oaks London New Delhi. McFadden D. (1974), Conditional Logit Analysis of Qualitative Choice Behavior, [w:] P. Zarembka (red.), Frontiers in Econometrics, Academic Press, New York San Francisco London. Powers D.A., Xie Y. (008), Statistical Methods for Categorical Data Analysis, nd ed. Emerald, Bingley. R Development Core Team (013), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, URL: So Y., Kuhfeld W.F. (1995), Multinomial Logit Models, [URL:] techsup/technote/ mr010g.pdf ( ). Winkelmann R., Boes S. (006), Analysis of Microdata, Springer, Berlin. MICROECONOMIC MULTINOMIAL LOGIT MODELS AND THEIR IMPLEMENTATION IN THE DiscreteChoice R PACKAGE Summary: The main aim of the paper is to present the DiscreteChoice package developed for R program, which can be used to analyze consumers preferences. The package contains an implementation of the discrete choice method, and some extensions are prepared to build fractional factorial design, to code the variables and to estimate of discrete choice model. Functions of DiscreteChoice package and their application in marketing research are presented in the article. Keywords: microeconometrics, preferences, multinomial logit models of discrete choice method, R program.
11 PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU nr 07 RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS nr Taksonomia ISSN Klasyfikacja i analiza danych teoria i zastosowania Justyna Brzezińska Uniwersytet Ekonomiczny w Katowicach WYKORZYSTANIE MODELI LOGARYTMICZNO-LINIOWYCH DO ANALIZY BEZROBOCIA W POLSCE W LATACH Streszczenie: Analiza logarytmiczno-liniowa pozwala na szczegółową ocenę zależności pomiędzy dowolną liczbą zmiennych niemetrycznych. W analizie tej wyróżnia się wiele rodzajów zależności, a jakość dopasowania modelu do danych ocenia się za pomocą współczynnika chi-kwadrat, ilorazu wiarygodności oraz kryteriów informacyjnych. W ciągu kilku lat bezrobocie w Polsce stało się jednym z poważniejszych problemów ekonomiczno- -społecznych. Można zaobserwować duże jego zróżnicowanie pomiędzy różnymi regionami wśród osób z wyższym wykształceniem, a także względem płci. W niniejszym artykule modele logarytmiczno-liniowe wykorzystano do analizy struktury bezrobocia w Polsce w latach na podstawie tablic zmiennych w czasie. Badanie przeprowadzono na podstawie danych pochodzących z Głównego Urzędu Statystycznego. Obliczenia przeprowadzone zostaną w programie R. Słowa kluczowe: analiza logarytmiczno-liniowa, tablice kontyngencji, bezrobocie. 1. Wstęp Analiza logarytmiczno-liniowa, należąca do wielowymiarowej analizy danych, jest metodą wykorzystywaną do badania zależności pomiędzy zmiennymi niemetrycznymi zapisanymi w wielowymiarowej tablicy kontyngencji. W metodzie tej nie rozróżnia się zmiennej zależnej oraz niezależnej, gdyż wszystkie zmienne traktowane są jako zmienne niezależne. Modelowaniu poddane są liczebności w poszczególnych komórkach tablicy kontyngencji, które pełnią rolę zmiennej zależnej. Liczebności te traktowane są jako realizacja pewnej zmiennej losowej. Model logarytmiczno-liniowy zdefiniowany jest jako wyrażenie liczebności oczekiwanych ( m ) w postaci funkcji para- hj 1 Projekt został sfinansowany ze środków Narodowego Centrum Nauki przyznanych na podstawie decyzji numer DEC-01/05/N/HS4/00174.
12 96 Justyna Brzezińska metrów reprezentujących charakterystyki zmiennych dyskretnych oraz zachodzących pomiędzy nimi relacji (interakcji). Budowanych jest wiele modeli, przy czym każdy z nich może zawierać różną liczbę parametrów wpływu oraz interakcji. Modele te budowane są według zasady hierarchiczności, następnie oceniane są za pomocą mierników oceny jakości dopasowania (chi-kwadrat, iloraz wiarygodności, kryteria informacyjne AIC oraz BIC, współczynnik determinacji). Celem analizy logarytmiczno-liniowej jest wybór modelu o jak najmniejszej liczbie parametrów, który jednocześnie jest modelem dobrze dopasowanym do danych. Dopasowanie modelu do danych rozumiane jest jako różnica pomiędzy wartościami empirycznymi a teoretycznymi. Im różnica między tymi wartościami jest mniejsza, tym dopasowanie modelu do danych jest lepsze. Atutem analizy logarytmiczno-liniowej jest fakt, iż pozwala ona na analizę zmiennych w tablicach kontyngencji o dowolnym wymiarze, a także jako jedna z nielicznych metod analizy danych jakościowych, uwzględnia interakcje zachodzące między badanymi zmiennymi. W metodzie tej, w zależności od interakcji zawartych w równaniu modelu, możliwe jest wyróżnienie kilku rodzajów niezależności (np. model niezależności całkowitej, model niezależności częściowej, model niezależności łącznej oraz zależności homogenicznej). Analiza logarytmiczno-liniowa jest metodą, którą wykorzystuje się do analizy danych przekrojowych, tj. takich, które dotyczą wybranego momentu czasowego. W niniejszym artykule metoda ta wykorzystana została do analizy bezrobocia w Polsce w latach , dzięki czemu możliwe jest zaobserwowanie zmiany struktury zachodzącej pomiędzy zmiennymi zależności. Celem artykułu jest opis modeli logarytmiczno-liniowych w analizie tablic kontyngencji oraz analiza struktury zależności zmiennych nominalnych dla wielu tablic kontyngencji zmiennych w czasie na przykładzie danych dotyczących bezrobocia w Polsce. Dane pochodzą z Banku Danych Lokalnych Głównego Urzędu Statystycznego ( Niniejszy artykuł stanowi prezentację wykorzystania analizy logarytmiczno-liniowej w badaniu różnych tablic kontyngencji dla tych samych zmiennych zapisanych w różnych momentach czasu (w różnych tablicach kontyngencji). Analizie poddano kilka trójwymiarowych tablic kontyngencji (jedna tablica dla każdego roku), a następnie dla każdej z nich przeprowadzono pełną analizę logarytmiczno-liniową oraz wybrano model najlepszy. Badanie to pozwala na zaobserwowanie zależności występujących pomiędzy badanymi zmiennymi w różnych momentach czasowych.. Modele logarytmiczno-liniowe Model pełny w przypadku trójwymiarowej tablicy kontyngencji H J K ( h= 1,,..., H, j= 1,,..., Jk, = 1,,..., K) zdefiniowany jest następująco: ln ( ) m = λ + λ + λ + λ + λ + λ + λ + λ, (1) X Y Z XY XZ YZ XYZ hjk h j k hj hk jk hjk
13 Wykorzystanie modeli logarytmiczno-liniowych do analizy bezrobocia w Polsce 97 gdzie: λ to średnia arytmetyczna zlogarytmowanych liczebności cząstkowych z tablicy kontyngencji; λ, λ, λ odzwierciedlają wpływy poszczególnych X h XY zmiennych X, Y, Z ; λ hj, Y j XZ λ hk, XYZ λ hjk jest interakcją rzędu drugiego zmiennych XYZ. Dla modelu (1) spełniony jest warunek: Z k YZ λ jk są interakcjami zmiennych XY, XZ, YZ ; H J K X Y Z λh λj λ k h= 1 j= 1 k= 1 = = = 0, H J H K J K XY XY XZ XZ YZ YZ λhj λhj λhk λhk λjk λjk h= 1 j= 1 h= 1 k= 1 j= 1 k= 1 = = = = = = 0, H J K XYZ XYZ XYZ λhjk λhjk λ hjk h= 1 j= 1 k= 1 = = = 0. () Model pełny ze względów praktycznych jest jednak modelem bezużytecznym, gdyż zawiera wszystkie możliwe interakcje. Celem badacza jest wybór modelu o postaci zredukowanej według zasady hierarchiczności w taki sposób, by wybrany model miał mniej parametrów niż model pełny. Otrzymywane w modelu liczebności oczekiwane oraz podlegające interpretacji ilorazy szans silnie zależą od wyboru postaci modelu. Na ogół badacz nie posiada wiedzy a priori dotyczącej właściwego wyboru postaci modelu. Należy wtedy zbudować wiele modeli różniących się złożonością, a następnie dokonać oceny jakości ich dopasowania i wybrać model najlepszy. Pomiar ten odbywa się przez porównanie liczebności empirycznych n hjk z liczebnościami oczekiwanymi m hjk. Wybór modelu odbywa się zazwyczaj dwuetapowo. W pierwszym etapie eliminowane są wszystkie modele, dla których iloraz wiarygodności wskazuje konieczność odrzucenia hipotezy głoszącej, że liczebności teoretyczne nie różnią się istotnie od liczebności empirycznych. Iloraz wiarygodności G zdefiniowany jest jako [Christensen 1997; Agresti 00; Zelterman 006]: G H J K n = n ln. (3) hjk hjk h= 1 j= 1 k= 1 mhjk Współczynnik ten wykorzystuje się do porównywania modeli sąsiednich, budowanych wedle zasady hierarchiczności. Badana jest wówczas różnica ilorazów wiarygodności, która porównywana jest z liczbą odpowiadających jej stopni swobody. Pożądany jest przypadek braku podstaw do odrzucenia hipotezy zerowej o braku różnic między liczebnościami empirycznymi a teoretycznymi. W takich sytuacjach wzrasta ryzyko błędu II rodzaju i przy testowaniu tej hipotezy przyjmuje się poziom istotności z przedziału między 0,1 a 0,35 [Knoke, Burke 1980].
14 98 Justyna Brzezińska Kolejną statystyką służącą do porównania większej liczby modeli jest kryterium informacyjne Akaike AIC [Akaike 1973] (Akaike Information Criteria): AIC G df gdzie df oznacza liczbę stopni swobody. =, (4) Kryterium Beyesowskie BIC (Bayesian Information Criteria) [Schwarz 1978; Raftery 1986] jest drugim kryterium postaci: gdzie n oznacza liczebność tablicy kontyngencji. BIC = G df ln n, (5) Minimalna wartość kryteriów informacyjnych pozwala na wybór najlepszego modelu logarytmiczno-liniowego. Ich istotą jest wskazanie nie modelu prawdziwego, lecz modelu, który zapewnia najwięcej informacji o badanym zjawisku. Mierniki te służą także do wyboru najlepszego modelu spośród kilku badanych, dzięki czemu badacz dysponuje obiektywnymi kryteriami wyboru modelu. Kolejnym miernikiem pozwalającym na ocenę jakości dopasowania modelu do danych są współczynniki determinacji, zdefiniowane następująco [Christensen 1997]: G ( M0) G ( M) R =, (6) G ( M ) lub w postaci skorygowanej jako: 0 = 1 = 1 1 G ( M0)/( q r0) q r 0 G ( M)/( q r) q r R, (7) ( R ) gdzie: q r0 i q r to liczba stopni swobody odpowiadająca modelom M 0 i M, R współczynnik determinacji ocenianego modelu. Ze względu na uwzględnienie liczby stopni swobody każdego z badanych modeli, wartość skorygowanego współczynnika determinacji (7) jest nienormowana i może osiągać wartości ujemne. Wybrany model jest najczęściej kompromisem między jego złożonością a jakością dopasowania do danych. 3. Wykorzystanie modeli logarytmiczno-liniowych w analizie bezrobocia w latach Analiza logarytmiczno-liniowa w programie R dostępna jest w pakiecie MASS (funkcja loglm) oraz w pakiecie stats (funkcja glm). Zbiór danych pochodzący z Głównego Urzędu Statystycznego wykorzystany do zaprezentowania analizy logarytmiczno-liniowej dotyczy liczby osób bezrobotnych w Polsce w latach 004-
15 Wykorzystanie modeli logarytmiczno-liniowych do analizy bezrobocia w Polsce Dla każdego roku zbudowano tablice o wymiarach 6 5 dla trzech zmiennych nominalnych: Region [R] (Centralny, Południowy, Wschodni, Północno-zachodni, Południowo-zachodni, Północny), Wykształcenie [W] (Wyższe, Policealne i średnie zawodowe, Ogólnokształcące, Zasadnicze zawodowe, Gimnazjalne i poniżej), Płeć [P] (Kobieta, Mężczyzna). W tabeli 1 zaprezentowano liczebności poszczególnych tablic wraz ze stopą bezrobocia w danym roku. Tabela 1. Stopa bezrobocia oraz liczebność trójwymiarowych tablic kontyngencji w latach Rok Stopa bezrobocia 19% 17,6% 14,8% 11,% 9,5% 1,1% 1,4% 1,5% 13,4% Liczebność w tys. osób 999, , , ,75 189, , , ,815 Źródło: Główny Urząd Statystyczny ( W pierwszym etapie analizy zbudowano wszystkie modele zawierające trzy RWP, model zależności homogenicznej [ RW ][ RP][ WP ], RW RP, [ RW ][ WP ], [ RP][ WP ], modele nie- WP R oraz model niezależności zmienne, tj. model pełny [ ] modele zależności warunkowej [ ][ ] zależności częściowej [ RP][ E ], [ RW ][ P ], [ ][ ] całkowitej [ R][ W][ P ]. W pierwszym etapie analizy okazało się, że wartość prawdopodobieństwa testowego p przekracza ustalony poziom 0, 1 w przypadku modeli: [ WP][ R ], [ RP][ WP ], [ RW ][ WP ], [ RW ][ RP][ WP ] oraz [ RWP ]. Dla tych modeli różnice między wartościami empirycznymi i teoretycznymi są nieistotne o modele te należy uznać za akceptowalne. W drugim etapie analizy oceniono je za pomocą mierników 3-6. Oceny modeli dla danych z 01 r. przedstawia tabela. Istotny i interesujący w analizie dotyczącej bezrobocia w latach jest fakt, iż wyniki uzyskane dla lat są bardzo zbliżone. W pierwszym etapie analizy dla każdego roku na podstawie prawdopodobieństwa testowego p wskazywane są te same modele jako akceptowalne. Bardzo podobne wyniki uzyskuje się z podzielenia statystyki G przez odpowiadającą modelowi liczbę stopni swobody df. Prawie identyczne okazują się także kryteria informacyjne (4 i 5) oraz współczynniki determinacji (6 i 7). Jako najlepszy wybrany zostaje model, dla którego kryteria informacyjne osiągają wartość najmniejszą. Dla każdego roku jest to model niezależności częściowej [ WP][ R ], który można zapisać w postaci równania: R W P WP ln( mhjk ) = λ + λh + λj + λk + λjk. (8)
16 100 Justyna Brzezińska Tabela. Oceny modeli z trzema zmiennymi dla trójwymiarowej tablicy kontyngencji z 01 r. Model df G p R R AIC BIC [ P][ R][ W ] 49 13,13 0,000 0,000 0,0000 5,13 5,473 [ WP][ R ] 45 9,684 0,96 0,759 0, , ,334 [ RW ][ P ] 9 10,01 0,000 0,17 0, ,01 10,333 [ RP][ W ] ,756 0,000 0,036 0, ,756 18,595 [ RP][ WP ] 40 5,7 0,967 0,795 0,749 54,773 81,456 [ RW ][ WP ] 5 8,483 0,999 0,931 0, , ,194 [ RW ][ RP ] 4 97,555 0,000 0,08 0, ,555 86,455 [ PR][ PW ][ RW ] 0 0,89 1,000 0,993 0,983 39,108 15,450 [ PRW ] 0 0,000 1,000 1,000 1,0000 0,000 0,000 Źródło: opracowanie własne w programie R. Istotny jest również fakt, że współczynniki korelacji między wartościami empirycznymi a teoretycznymi dla modelu niezależności częściowej [WP][R] w poszczególnych latach, które również świadczą o jakości dopasowania modelu do danych (im mniejsze odchylenia, tym lepsze dopasowanie modelu), osiągają zbliżone wartości. Dla roku 01 współczynnik ten wynosi 0,968, co świadczy o niewielkich odchyleniach między wartościami empirycznymi a teoretycznymi wyznaczonymi dla danego modelu. Uzyskane wyniki świadczą o silnej regule i zależności występującej pomiędzy zmiennymi w sposób określony w modelu. Po wyznaczeniu parametrów modelu za pomocą funkcji param także widoczna jest pewna prawidłowość i podobieństwo pomiędzy wynikami uzyskanymi dla poszczególnych lat, zarówno w znakach, jak i wartościach parametrów. Znaki parametrów dla interakcji [WP] dla poziomu wykształcenia: wyższe, policealne i średnie zawodowe, ogólnokształcące są dodatnie, a dla poziomu zasadniczego zawodowe oraz gimnazjalnego i poniżej parametry te są ujemne, zarówno w grupie mężczyzn, jak i kobiet. Oznacza to, że w komórkach dla wykształcenia o wyższych kategoriach, dla których parametry są dodatnie, liczebność tej komórki jest większa względem liczebności średniej. Dla niższych kategorii, dla których parametry interakcji mają znaki ujemne, liczebności te są mniejsze niż liczebność przeciętna. Do oceny jakości dopasowania modelu do danych, szczególnie w przypadku znacznej liczby zmiennych, można posłużyć się wykresem mozaikowym [Friendly 1994, 1995, 000]. Wykresy mozaikowe składają się z prostokątnych płytek (tile, bin, box, rectangle), których pole jest proporcjonalne do liczebności empirycznej n, szerokość proporcjonalna jest do liczebności brzegowej hj proporcji n n h, a wysokość do hj. Budowa tego wykresu oparta jest na standaryzowanych resztach n h Pearsona, zdefiniowanych jako:
17 Wykorzystanie modeli logarytmiczno-liniowych do analizy bezrobocia w Polsce 101 d hj n ˆ hj mhj =. mˆ Jeśli reszta jest dodatnia, dany prostokąt oznaczony jest kolorem niebieskim, jeśli ujemna kolorem czerwonym. Przedziały, w których znajdują się reszty, oznaczone są coraz ciemniejszym kolorem w miarę wzrostu wartości d ( d > 0,, 4,... ). W programie R wykres mozaikowy uzyskuje się dzięki funkcji mosaic(). Kolejnym wykresem przeznaczonym do wizualizacji danych w wielowymiarowych tablicach kontyngencji jest wykres sitkowy (sieve plot), zwany także wykresem parkietowym (parquet diagram). Na wykresie tym powierzchnia każdego prostokąta jest proporcjonalna do liczebności oczekiwanych m, przy czym liczebność empiryczna odpowiada liczbie kwadratów w danym prostokącie [Friendly 000]. Szerokość każdego prostokąta jest proporcjonalna do liczebności brzegowych kolumn n j, a jego wysokość do liczebności brzegowych wierszy n h. Odchylenia liczebności empirycznych od teoretycznych ( n hj m hj ) przedstawione są w postaci kolorowych linii. Jeśli różnica ta jest ujemna, wówczas linia tworząca kwadraty w odpowiednim prostokącie jest czerwoną linią ciągłą. Jeśli różnica ta jest dodatnia, wówczas linia w danym prostokącie jest przerywana niebieska. Niezależność pomiędzy zmiennymi występuje wówczas, gdy zagęszczenie i struktura kwadratów jest jednorodna. W przypadku niejednorodności można przypuszczać, że zmienne są zależne [Friendly 00]. W programie R wykres sitkowy otrzymywany jest dzięki funkcji sieve(). hj hj hj hj Edukacja A B C D E 1 1 Edukacja A B C D E Pearson residuals: Region 5 3 Plec Region 3 Plec p-value = Rys. 1. Wykres sitkowy: (a) i mozaikowy (b) dla trójwymiarowej tablicy kontyngencji. Źródło: opracowanie własne w programie R.
18 10 Justyna Brzezińska Niewielkie odchylenia liczebności empirycznych od teoretycznych na wykresie mozaikowym (rys. 1a) świadczą o dobrym dopasowaniu modelu do danych. Strukturę poszczególnych komórek trójwymiarowej tablicy kontyngencji przedstawia wykres sitkowy (rys. 1b). Interpretacja parametrów modelu jest trudniejsza w przypadku większej liczby zmiennych. Wówczas interpretuje się jedynie końcowe równanie modelu, które poprzez uwzględnione parametry i interakcje określa rodzaj zachodzącej pomiędzy zmiennymi zależności. Modele te jednak opisują w szczegółowy sposób charakter powiązań pomiędzy zmiennymi w tablicy kontyngencji, zarówno w przypadku zmiennych nominalnych, jak i porządkowych. 4. Zakończenie Analiza logarytmiczno-liniowa jest metodą pozwalającą na badanie zależności zachodzących pomiędzy zmiennymi zapisanymi w wielowymiarowych tablicach kontyngencji. Metoda ta wykorzystywana jest zazwyczaj dla danych przekrojowych, dotyczących wielu zmiennych w tablicy kontyngencji badanej w danym momencie czasu. Zaletą tej metody jest fakt, iż może być ona stosowana dla tablic kontyngencji o dowolnych wymiarach, a także dla zmiennych nominalnych oraz porządkowych. W niniejszym artykule zaprezentowano jej wykorzystanie do analizy bezrobocia w latach Analizie poddano te same zmienne (Region, Wykształcenie, Płeć); dla każdego roku zbudowano trójwymiarową tablicę kontyngencji i przeprowadzono analizę, wybierając model najlepszy. Wybrany model dla każdego roku ma to samo równanie, co wskazuje, że istotna jest interakcja między zmienną Wykształcenie oraz Płeć. Współczynniki oceny jakości modelu dla każdego roku także mają zbliżone wartości. Analiza parametrów pozwala na wyciągnięcie interesujących wniosków. Znaki parametrów w przypadku interakcji [ WP ] dla wykształcenia wyższego, policealnego i średniego zawodowego oraz ogólnokształcącego mają znaki dodatnie, a dla zasadniczego zawodowego oraz gimnazjalnego i poniżej parametry te są ujemne, zarówno w grupie mężczyzn, jak i kobiet. Oznacza to, że w widoczna jest taka sama struktura zależności pomiędzy badanymi zmiennymi, co potwierdzone jest wyborem te samej postaci modelu w każdym roku. Analiza logarytmiczno-liniowa może także zostać wykorzystana w analizie zmiennych porządkowych oraz analizie klas ukrytych. Jej istotna przewaga nad innymi metodami analizy danych jakościowych polega na tym, iż możliwa jest wizualizacja wyników, znacznie ułatwiająca ich interpretację.
19 Wykorzystanie modeli logarytmiczno-liniowych do analizy bezrobocia w Polsce 103 Literatura Agresti A. (00), Categorical Data Analysis, John Wiley & Sons, Hoboken, New Jersey. Akaike H. (1973), Information theory and an extension of the maximum likelihood principle, Proceedings of the nd International Symposium on Information, Petrow B.N., Czaki F., Akademiai Kiado, Budapest. Christensen R. (1997), Log-linear Models and Logistic Regression, Springer-Verlag, New York. Friendly M. (1994), Mosaic displays for multi-way contingency tables, Journals of the American Statistical Association 49, s Friendly M. (1995), Conceptual and visual models for categorical data, The Amercian Statistician 49, s Friendly M. (000), Visualizing Categorical Data, SAS Institute. Knoke D., Burke P.J. (1980), Log-linear Models, Sage University Paper Series on Quantitative Applications in the Social Science, series no , Beverly Hills and London Sage. Raftery A.E. (1986), Choosing models for cross-classification, American Sociological Review 51, 1, s Schwarz G. (1978), Estimating the dimensions of a model, Annals of Statistics 6, s Zelterman D. (006), Models for Discrete Data, Oxford University Press. THE ANALYSIS OF UNEMPLOYMENT DATA IN POLAND IN WITH APPLICATION OF LOG-LINEAR MODELS Summary: Log-linear analysis allows to analyze the relationship between two or more categorical (e.g. nominal or ordinal) variables. There are several types of association. For testing the goodness of fit the Pearson chi-square statistic, likelihood ratio and information criteria are used. With the rising unemployment rate in recent years, unemployment is one of the most important socio-economic and social problems in Poland. The comparative log-linear analysis of unemployment will be presented on the data from the Central Statistical Office. Log-linear models are available in R software. Keywords: log-linear analysis, contingency table, unemployment.
ZASTOSOWANIE PAKIETU dcmnm PROGRAMU R W BADANIACH PREFERENCJI KONSUMENTÓW WÓDKI
PRACE NAUKOWE UNIWERSYEU EKONOMICZNEGO WE WROCŁAWIU nr 207 RESEARCH PAPERS OF WROCŁAW UNIVERSIY OF ECONOMICS nr 327 2014 aksonomia 22 ISSN 1899-3192 Klasyfikacja i analiza danych teoria i zastosowania
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Regresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
IMPLEMENTACJA METODY MAXIMUM DIFFERENCE SCALING W PAKIECIE MAXDIFF PROGRAMU R
EKONOMETRIA ECONOMETRICS 4(46) 2014 ISSN 1507-3866 Tomasz Bartłomowicz Uniwersytet Ekonomiczny we Wrocławiu e-mail: tomasz.bartlomowicz@ue.wroc.pl IMPLEMENTACJA METODY MAXIMUM DIFFERENCE SCALING W PAKIECIE
Badania eksperymentalne
Badania eksperymentalne Analiza CONJOINT mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu w schematach
Analiza. logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R. Justyna Brzeziƒska
Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R Justyna Brzeziƒska Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R Rodzicom Analiza logarytmiczno-liniowa
WYKORZYSTANIE MODELU LOGITOWEGO DO ANALIZY BEZROBOCIA WŚRÓD OSÓB NIEPEŁNOSPRAWNYCH W POLSCE W 2010 ROKU
STUDIA I PRACE WYDZIAŁU NAUK EKONOMICZNYCH I ZARZĄDZANIA NR 31 Beata Bieszk-Stolorz Uniwersytet Szczeciński WYKORZYSTANIE MODELU LOGITOWEGO DO ANALIZY BEZROBOCIA WŚRÓD OSÓB NIEPEŁNOSPRAWNYCH W POLSCE W
P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?
2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie
Wykład 8 Dane kategoryczne
Wykład 8 Dane kategoryczne Wrocław, 19.04.2017r Zmienne kategoryczne 1 Przykłady zmiennych kategorycznych 2 Zmienne nominalne, zmienne ordynalne (porządkowe) 3 Zmienne dychotomiczne kodowanie zmiennych
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.
Zadanie 1 Niech y t ma rozkład logarytmiczno normalny o funkcji gęstości postaci [ ] 1 f (y t ) = y exp (ln y t β ln x t ) 2 t 2πσ 2 2σ 2 Zakładamy, że x t jest nielosowe a y t są nieskorelowane w czasie.
Analiza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Badanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład
Implementacja klasycznej metody conjoint analysis w pakiecie conjoint programu R 1
Andrzej Bąk, Tomasz Bartłomowicz Uniwersytet Ekonomiczny we Wrocławiu Katedra Ekonometrii i Informatyki Implementacja klasycznej metody conjoint analysis w pakiecie conjoint programu R 1 1. Wprowadzenie
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
PRACE NAUKOWE Uniwersytetu Ekonomicznego we Wrocławiu
PRACE NAUKOWE Uniwersytetu Ekonomicznego we Wrocławiu RESEARCH PAPERS of Wrocław University of Economics Nr 327 Taksonomia 22 Klasyfikacja i analiza danych teoria i zastosowania Redaktorzy naukowi Krzysztof
Wykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych
dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo
GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana
GRUPY NIEZALEŻNE Chi kwadrat Pearsona Testy stosujemy w sytuacji, kiedy zmienna zależna mierzona jest na skali nominalnej Liczba porównywanych grup (czyli liczba kategorii zmiennej niezależnej) nie ma
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1
Temat: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00 0,20) Słaba
KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona
KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y 2. Współczynnik korelacji Pearsona 3. Siła i kierunek związku między zmiennymi 4. Korelacja ma sens, tylko wtedy, gdy związek między zmiennymi
Stanisław Cichocki. Natalia Nehrebecka. Wykład 9
Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności
Kilka uwag o testowaniu istotności współczynnika korelacji
341 Zeszyty Naukowe Wyższej Szkoły Bankowej we Wrocławiu Nr 20/2011 Piotr Peternek Uniwersytet Ekonomiczny we Wrocławiu Marek Kośny Uniwersytet Ekonomiczny we Wrocławiu Kilka uwag o testowaniu istotności
Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y
Zadanie 1 Rozpatrujemy próbę 4877 pracowników fizycznych, którzy stracili prace w USA miedzy rokiem 1982 i 1991. Nie wszyscy bezrobotni, którym przysługuje świadczenie z tytułu ubezpieczenia od utraty
(LMP-Liniowy model prawdopodobieństwa)
OGÓLNY MODEL REGRESJI BINARNEJ (LMP-Liniowy model prawdopodobieństwa) Dla k3 y α α α α + x + x + x 2 2 3 3 + α x x α x x + α x x + α x x + ε + x 4 2 5 3 6 2 3 7 2 3 Zał.: Wszystkie zmienne interakcyjne
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Analiza danych ankietowych Nazwa w języku angielskim: Categorical Data Analysis Kierunek studiów (jeśli dotyczy): Matematyka stosowana Specjalność
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji
Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
Regresja liniowa wprowadzenie
Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem
Mikroekonometria 9. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 9 Mikołaj Czajkowski Wiktor Budziński Wielomianowy model logitowy Uogólnienie modelu binarnego Wybór pomiędzy 2 lub większą liczbą alternatyw Np. wybór środka transportu, głos w wyborach,
Ekonometryczne modele nieliniowe
Ekonometryczne modele nieliniowe Wykład 10 Modele przełącznikowe Markowa Literatura P.H.Franses, D. van Dijk (2000) Non-linear time series models in empirical finance, Cambridge University Press. R. Breuning,
ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8
ANALIZA REGRESJI WIELOKROTNEJ Zastosowanie statystyki w bioinżynierii Ćwiczenia 8 ZADANIE 1A 1. Irysy: Sprawdź zależność długości płatków korony od ich szerokości Utwórz wykres punktowy Wyznacz współczynnik
OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp
tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE
Rozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU
Zał. nr 4 do ZW WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYCZNA ANALIZA DANYCH Nazwa w języku angielskim STATISTICAL DATA ANALYSIS Kierunek studiów (jeśli dotyczy):
PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego
PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH Janusz Wątroba, StatSoft Polska Sp. z o.o. Tematyka artykułu obejmuje wprowadzenie do problematyki modelowania statystycznego i jego roli w badaniu
Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
FORECASTING THE DISTRIBUTION OF AMOUNT OF UNEMPLOYED BY THE REGIONS
FOLIA UNIVERSITATIS AGRICULTURAE STETINENSIS Folia Univ. Agric. Stetin. 007, Oeconomica 54 (47), 73 80 Mateusz GOC PROGNOZOWANIE ROZKŁADÓW LICZBY BEZROBOTNYCH WEDŁUG MIAST I POWIATÓW FORECASTING THE DISTRIBUTION
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary dopasowania 4.
Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)
Statystyka I Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy) 1 Zmienne jakościowe qzmienne jakościowe niemierzalne kategorie: np. pracujący / bezrobotny qzmienna binarna Y=0,1 qczasami
Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17
Stanisław Cichocki Natalia Neherebecka Zajęcia 15-17 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary
Analiza wariancji - ANOVA
Analiza wariancji - ANOVA Analiza wariancji jest metodą pozwalającą na podział zmienności zaobserwowanej wśród wyników eksperymentalnych na oddzielne części. Każdą z tych części możemy przypisać oddzielnemu
dr hab. Dariusz Piwczyński, prof. nadzw. UTP
dr hab. Dariusz Piwczyński, prof. nadzw. UTP Cechy jakościowe są to cechy, których jednoznaczne i oczywiste scharakteryzowanie za pomocą liczb jest niemożliwe lub bardzo utrudnione. nominalna porządek
Ekonometria. Zajęcia
Ekonometria Zajęcia 16.05.2018 Wstęp hipoteza itp. Model gęstości zaludnienia ( model gradientu gęstości ) zakłada, że gęstość zaludnienia zależy od odległości od okręgu centralnego: y t = Ae βx t (1)
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
MODELOWE METODY ANALIZY DANYCH WIELOWYMIAROWYCH TABLIC KONTYNGENCJI W BADANIACH OPINII PUBLICZNEJ
Justyna Brzezińska Uniwersytet Ekonomiczny w Katowicac MODELOWE METODY ANALIZY DANYCH WIELOWYMIAROWYCH TABLIC KONTYNGENCJI W BADANIACH OPINII PUBLICZNEJ Wprowadzenie Tablice, które stanowią podstawową
Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym
Wiesława MALSKA Politechnika Rzeszowska, Polska Anna KOZIOROWSKA Uniwersytet Rzeszowski, Polska Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym Wstęp Wnioskowanie statystyczne
TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.
TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP
STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 12 listopada 2017 1 Analiza współzależności dwóch cech 2 Jednostka zbiorowości - para (X,Y ). Przy badaniu korelacji nie ma znaczenia, która
Korelacja krzywoliniowa i współzależność cech niemierzalnych
Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej
parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,
诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów
Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Modelowanie zmiennej jakościowej Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 8 Zmienna jakościowa 1 / 25 Zmienna jakościowa Zmienna ilościowa może zostać zmierzona
strona 1 / 12 Autor: Walesiak Marek Publikacje:
Autor: Walesiak Marek Publikacje: 1. Autorzy rozdziału: Borys Tadeusz; Strahl Danuta; Walesiak Marek Tytuł rozdziału: Wkład ośrodka wrocławskiego w rozwój teorii i zastosowań metod taksonomicznych, s.
You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Prezentacja materiału statystycznego Szeroko rozumiane modelowanie i prognozowanie jest zwykle kluczowym celem analizy danych. Aby zbudować model wyjaśniający relacje pomiędzy różnymi aspektami rozważanego
Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)
Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi) Czy miejsce zamieszkania różnicuje uprawianie sportu? Mieszkańcy
Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Wprowadzenie do modelowania ekonometrycznego Estymator Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 1 Estymator 1 / 16 Agenda 1 Literatura Zaliczenie przedmiotu 2 Model
Zadania ze statystyki, cz.6
Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z
Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków
Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków Wojciech Niemiro, Jacek Tomczyk i Marta Zalewska Uniwersytet
Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35
Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
WYKAZ PRAC PUBLIKOWANYCH
Dr hab. Andrzej Bąk Prof. nadzw. AE WYKAZ PRAC PUBLIKOWANYCH I. Publikacje zwarte I.1. KsiąŜki 1. Walesiak M., Bąk A. [1997], Realizacja badań marketingowych metodą conjoint analysis z wykorzystaniem pakietu
gdzie. Dla funkcja ma własności:
Ekonometria, 21 listopada 2011 r. Modele ściśle nieliniowe Funkcja logistyczna należy do modeli ściśle nieliniowych względem parametrów. Jest to funkcja jednej zmiennej, zwykle czasu (t). Dla t>0 wartośd
Zmienne Binarne w Pakiecie Stata
Karol Kuhl Zbiór (hipotetyczny) dummy.dta zawiera dane, na podstawie których prowadzono analizy opisane poniżej. Nazwy zmiennych oznaczają: doch dochód w jednostkach pieniężnych; plec płeć: kobieta (0),
Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 14 Mikołaj Czajkowski Wiktor Budziński Symulacje Analogicznie jak w przypadku ciągłej zmiennej zależnej można wykorzystać metody Monte Carlo do analizy różnego rodzaju problemów w modelach
ANALIZA PORÓWNAWCZA KONIUNKTURY GOSPODARKI WOJEWÓDZTWA ŚLĄSKIEGO I GOSPODARKI POLSKI
Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach ISSN 2083-8611 Nr 264 2016 Uniwersytet Ekonomiczny w Katowicach Wydział Zarządzania Katedra Ekonometrii jozef.biolik@ue.katowice.pl
Metody Ilościowe w Socjologii
Metody Ilościowe w Socjologii wykład 2 i 3 EKONOMETRIA dr inż. Maciej Wolny AGENDA I. Ekonometria podstawowe definicje II. Etapy budowy modelu ekonometrycznego III. Wybrane metody doboru zmiennych do modelu
Analiza współzależności dwóch cech I
Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych
STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno
STATYSTYKA POWTORZENIE Dr Wioleta Drobik-Czwarno Populacja Próba Parametry EX, µ Statystyki średnia D 2 X, δ 2 S 2 wnioskowanie DX, δ p ρ S w r...... JAK POWSTAJE MODEL MATEMATYCZNY Dane eksperymentalne
Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw
Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw dr Karolina Borowiec-Mihilewicz Uniwersytet Ekonomiczny we Wrocławiu Zastosowania
Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Model nieliniowe i funkcja produkcji Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 7 i funkcja produkcji 1 / 23 Agenda 1 2 3 Jakub Mućk Ekonometria Wykład 7 i funkcja
Testowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Kolokwium ze statystyki matematycznej
Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę
7.4 Automatyczne stawianie prognoz
szeregów czasowych za pomocą pakietu SPSS Następnie korzystamy z menu DANE WYBIERZ OBSERWACJE i wybieramy opcję WSZYSTKIE OBSERWACJE (wówczas wszystkie obserwacje są aktywne). Wreszcie wybieramy z menu
Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007
Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja
Cząstkowy układ czynnikowy i jego implementacja w module conjoint programu R Wprowadzenie
Tomasz Bartłomowicz, Andrzej Bąk Uniwersytet Ekonomiczny we Wrocławiu Katedra Ekonometrii i Informatyki Cząstkowy układ czynnikowy i jego implementacja w module conjoint programu R 1 1. Wprowadzenie W
WYKORZYSTYWANE W ANALIZIE WYNIKÓW METOD WYCENY OBSZARÓW CHRONIONYCH. Dr Dariusz Kayzer
Seminarium I: Przegląd metod wyceny przyrody METODY STATYSTYCZNE WYKORZYSTYWANE W ANALIZIE WYNIKÓW METOD WYCENY OBSZARÓW CHRONIONYCH Dr Dariusz Kayzer Katedra Metod Matematycznych i Statystycznych Uniwersytet
strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:
Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje: 1. Autorzy rozdziału: Borys Tadeusz; Strahl Danuta; Walesiak Marek Tytuł rozdziału: Wkład ośrodka wrocławskiego w rozwój teorii
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres
ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH
Małgorzata Szerszunowicz Uniwersytet Ekonomiczny w Katowicach ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH Wprowadzenie Statystyczna kontrola jakości ma na celu doskonalenie procesu produkcyjnego
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
ANALIZA REGRESJI SPSS
NLIZ REGRESJI SPSS Metody badań geografii społeczno-ekonomicznej KORELCJ REGRESJ O ile celem korelacji jest zmierzenie siły związku liniowego między (najczęściej dwoma) zmiennymi, o tyle w regresji związek
Zawansowane modele wyborów dyskretnych
Zawansowane modele wyborów dyskretnych Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Zawansowane modele wyborów dyskretnych grudzien 2013 1 / 16 Model efektów
Taksonomia 20. Klasyfikacja i analiza danych teoria i zastosowania. Krzysztof Jajuga Marek Walesiak
PRACE NAUKOWE Uniwersytetu Ekonomicznego we Wrocławiu RESEARCH PAPERS of Wrocław University of Economics 278 Taksonomia 20 Klasyfikacja i analiza danych teoria i zastosowania Redaktorzy naukowi Krzysztof
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
POLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych
Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych