MODELOWE METODY ANALIZY DANYCH WIELOWYMIAROWYCH TABLIC KONTYNGENCJI W BADANIACH OPINII PUBLICZNEJ

Wielkość: px
Rozpocząć pokaz od strony:

Download "MODELOWE METODY ANALIZY DANYCH WIELOWYMIAROWYCH TABLIC KONTYNGENCJI W BADANIACH OPINII PUBLICZNEJ"

Transkrypt

1 Justyna Brzezińska Uniwersytet Ekonomiczny w Katowicac MODELOWE METODY ANALIZY DANYCH WIELOWYMIAROWYCH TABLIC KONTYNGENCJI W BADANIACH OPINII PUBLICZNEJ Wprowadzenie Tablice, które stanowią podstawową formę zapisu zmiennyc niemetrycznyc, znane były w istorii uż ponad 000 lat przed naszą erą. Babilończycy wykorzystywali e do przedstawienia zależności w pewnym systemie liczbowym. Matematycy cińscy używali tablic liczbowyc w obliczeniac, które niewiele różniły się od znane dziś tabliczki mnożenia. Część etymologów uważa za źródłosłów terminu tablica słowo stół (table), który w czasac średniowiecznyc wykorzystywany był do układania na nim należności podatkowyc od obywateli danego państwa 1. W XVIII wieku, kiedy rozwinęła się statystyka państwowa, tablice były wykorzystywane do opisu zasobów państwa. Kluczowym okresem z punktu widzenia statystyki ako nauki est przełom XIX i XX wieku, kiedy zaczęto analizować formalne własności tablic. Pionierem w tym zakresie był Karl Pearson, który wprowadził po raz pierwszy poęcie korelaci należące do nabardzie fundamentalnyc narzędzi opisu i interpretaci zawisk w wielu dyscyplinac naukowyc, a także zdefiniował poęcie tablicy kontyngenci. Pearson, zainspirowany problemem losowości wyników ruletki Monte Carlo, zdefiniował także ako pierwszy współczynnik ci-kwadrat, dzięki czemu analiza zmiennyc niemetrycznyc wkroczyła w epokę rozwou i zainteresowania naukowego, która nadal trwa. W latac , równolegle do Pearsona, prace nad analizą tablic kontyngenci prowadził także Yule, który zdefiniował miarę zależności 1 Z. Sawiński: Zastosowania tablic w badaniac zawisk społecznyc. IFiS PAN, Warszawa 010.

2 1 Justyna Brzezińska zwaną współczynnikiem Yule a, a także poęcie ilorazu szans. W 1935 roku Bartlett ako pierwszy zaproponował metodę estymaci nawiększe wiarygodności, a w latac następnyc Deming i Stepan wykorzystanie algorytmu dopasowania iteracyno-proporconalnego. Wilks natomiast zaproponował iloraz wiarygodności, który est alternatywny dla statystyki ci-kwadrat Pearsona, natomiast ego modyfikacę zaproponował Neyman. Forma zapisu zmiennyc niemetrycznyc w postaci łącznego rozkładu zmiennyc sprawiła, że tablice stały się nadogodnieszym sposobem zapisu wielu zmiennyc. Wraz ze wzrostem liczby badanyc zmiennyc komplikue się sposób ic analizy. Zapotrzebowanie na wyspecalizowane narzędzia umożliwiaące analizę dużyc zbiorów danyc est obecnie tak duże, że wywołało konieczność rozwou wyspecalizowanyc tecnologii. Wiek XX stał się kluczowym okresem przełomowym w analizie danyc akościowyc. W ninieszym artykule przez dane akościowe rozumiane będą zmienne mierzone na słabyc skalac pomiaru (skala nominalna, porządkowa). W latac 60. powstały wyspecalizowane metody analizy wielowymiarowyc tablic kontyngenci pozwalaące na przedstawienie zależności zacodzące pomiędzy dowolną liczną zmiennyc. Metody te nazywane są modelowymi metodami analizy danyc (model- -based metods), gdyż w wyniku analizy budue się formalny model opisuący carakter zależności zacodzące pomiędzy zmiennymi. W ninieszym artykule zaprezentowane zostaną modelowe metody przeznaczone do analizy danyc wielowymiarowyc tablic kontyngenci. Celem artykułu est prezentaca zastosowania analizy logarytmiczno-liniowe w opisywaniu zawisk o carakterze ekonomicznym, a także wykorzystanie prezentowane metody w programie R. 1. Modelowe metody analizy tablic kontyngenci Analiza tablic kontyngenci pozwala na badanie zależności pomiędzy kilkoma zmiennymi niemetrycznymi (nominalnymi lub porządkowymi). Tradycynym sposobem analizy związku pomiędzy zmiennymi niemetrycznymi w tablicac dwuwymiarowyc est wyznaczenie współczynnika ci-kwadrat lub innyc statystyk na nim opartyc (Yule a, Czuprowa, Cramera, Pearsona), które mówią edynie o sile i kierunku zależności. Taki sposób pomiaru zależności należy do metod niemodelowyc. Gdy analizie poddana est wielowymiarowa tablica kontyngenci, współczynniki te staą się niewystarczalne i powinny wówczas zostać zastosowane metody modelowe, któryc wynikiem est formalny model opisu zależności.

3 Modelowe metody analizy danyc 13 W programie R tablice kontyngenci zapisane mogą zostać w postaci: case form, frequency form lub table form. Mogą one także zostać przekształcane z edne postaci w inną dzięki funkcom: expand.dft(),as.data.frame(), xtabs(~a+b), table(~a,b). Jedną z modelowyc metod pozwalaącyc na opisanie struktury zależności pomiędzy zmiennymi nominalnymi oraz porządkowymi est analiza logarytmiczno-liniowa. Metoda ta pozwala na zbudowanie wielu modeli określaącyc strukturę zależności pomiędzy zmiennymi mierzonymi na skali nominalne, ak i porządkowe. Ponadto metodę tę wyróżniaą liczne własności, któryc nie posiadaą niemodelowe metody analizy danyc takie ak: możliwość wizualizaci wyników w postaci zaawansowanyc graficznyc wykresów, wykorzystanie znane metody estymaci parametrów, szczegółowa analiza carakteru zależności oraz możliwość analizy nieograniczone liczby zmiennyc i kategorii.. Analiza logarytmiczno-liniowa Analiza logarytmiczno-liniowa pozwala na zbadanie zależności pomiędzy zmiennymi niemetrycznymi, mierzonymi zarówno na skali nominalne, ak i porządkowe, bez podziału na zmienną zależną i niezależną. W analizie logarytmiczno-liniowe rolę zmienne zależne odgrywaą liczebności teoretyczne o rozkładzie Poissona, natomiast zmiennymi obaśniaącymi są zmienne niemetryczne oraz ic kategorie. Dla trówymiarowe tablicy o liczebnościac empirycznyc n k ( = 1,... H, = 1,..., J, k = 1,..., K) model logarytmiczno-liniowy określony est równaniem : X Y Z XY XZ YZ XYZ ( m ) = λ + λ + λ + λ + λ + λ + λ + λ ln, (1) k gdzie: m k oznaczaą liczebności empiryczne, a λ są parametrami modelu wyznaczonymi metodą nawiększe wiarygodności. k k k k Y.M.M. Bisop et al.: Discrete multivariate analysis. MIT Press, Cambridge, Massacusetts 1975.

4 14 Justyna Brzezińska W celu wyznaczenia parametrów modelu spełniony est warunek: H J H J X Y Z λ = λ = λ = 0, K = 1 = 1 k = 1 H XY XY XZ XZ YZ YZ λ = λ = λ = λ = λ = λ = 0, () k k k = 1 = 1 = 1 k = 1 = 1 k = 1 H = 1 J K XYZ XYZ XYZ λ = λ = λ = 0. k = 1 k Gdy zmienne maą carakter porządkowy, możliwymi do zbudowania modelami są: ednorodny model asocaci (uniform association), model efektów wierszowyc i kolumnowyc (row-effects and column-effects model) oraz model RC Goodmana (Goodman s RC model, row and column effects model). Modelem, który wykorzystue porządek kategorii zmiennyc wierszowyc oraz kolumnowyc, est ednorodny model o równaniu: K k = 1 X Y ( m ) = μ + λ + λ + β ( u u )( v v ) k J k ln. (3) Model efektu wierszowego zdefiniowany est ako: X Y ( m ) = μ + λ + λ + τ ( v v ) ln, (4) natomiast model efektu kolumnowego można zapisać ako: X Y ( m ) = μ + λ + λ + τ ( u u ) ln. (5) Szczegółowy opis modeli logarytmiczno-liniowyc dla zmiennyc porządkowyc znaleźć można w pracy Masako Isii-Kuntz 3. W analizie logarytmiczno-liniowe wykorzystywane są formalne kryteria pozwalaące na ocenę stopnia dopasowania modelu do danyc. Należą do nic współczynnik ci-kwadrat i iloraz wiarygodności, kryteria informacyne oraz współczynnik determinaci. W celu wyboru modelu nalepie dopasowanego do danyc wykorzystue się współczynnik iloraz wiarygodności G zdefiniowany ako 4 : K k 3 4 M. Isii-Kuntz: Ordinal log-linear models. Sage University Paper Series on Quantitative Applications in te Social Science, Series No Sage, Beverly Hills, London A. Agresti: Analysis of ordinal categorical data. Jon Wiley & Sons, Hoboken, New Jersey 010; A. Agresti: Categorical data analysis. Jon Wiley & Sons, Hoboken, New Jersey 00; R. Cristensen: Log-linear models and logistic regression. Springer-Verlag, New York 1997; Y.M.M Bisop et al., op. cit.

5 Modelowe metody analizy danyc 15 G H J K n k = n k ln. (6) = 1 = 1 k= 1 mk Współczynnik ten wykorzystue się do porównywania ze sobą modeli sąsiednic, budowanyc wedle zasady ierarciczności 5. Koleną statystyką służącą do porównania większe ilości modeli est kryterium informacyne Akaike AIC (Akaike Information Criteria) 6 : AIC = G df, (7) gdzie df oznacza liczbę stopni swobody. Kryterium Bayesowskie BIC (Bayesian Information Criteria) est drugim kryterium postaci: BIC = G df ln n, (8) gdzie n oznacza liczebność tablicy kontyngenci 7. Minimalna wartość kryteriów informacynyc pozwala na wybór nalepszego modelu logarytmiczno-liniowego. Ic istotą nie est wskazanie modelu prawdziwego, lecz modelu, który zapewnia nawięce informaci o badanym zawisku. Mierniki te służą także do wyboru nalepszego modelu spośród kilku badanyc, dzięki czemu badacz dysponue obiektywnymi kryteriami wyboru modelu. 3. Wykorzystanie analizy logarytmiczno-liniowe w programie R W ninieszym badaniu wykorzystano dane sondażowe opublikowane przez Radę Monitoringu Społecznego w raporcie Diagnoza Społeczna 013. Warunki i akość życia Polaków. Raport dotyczy czasu spędzanego przed telewizorem przez osoby powyże 18. roku życia względem wieku. Próba liczyła respondentów. W badaniu uwzględniono dwie zmienne: czas oglądania telewizi (0-1, 1-3, 3 i więce godzin) oraz wiek (18-4, 5-34, 35-44, 45-59, 60-64, 65 i więce lat) S.E. Fienberg: Te analysis of multidimensional contingency tables. Ecology 1970, No. 51, s ; D. Knoke, P.J. Burke: Log-linear models. Sage University Paper Series on Quantitative Applications in te Social Science. Series No Sage, Beverly Hills and London H. Akaike: Information teory and an extension of te maximum likeliood principle. Proceedings of te nd International Symposium on Information. Akademiai Kiado, Budapest A.E. Raftery: Coosing models for cross-classification. American Sociological Review 1986, No. 51, s. 145, 146; G. Scwartz: Estimating te dimensions of a model. Annals of Statistics 1978, No. 6, s

6 16 Justyna Brzezińska W celu oceny współwystępowania kategorii zmiennyc oraz oceny siły zależności przeprowadzono klasyczną analizę korespondenci, traktuąc wszystkie zmienne ako nominalne. Wartość inerci całkowite λ = 0,0614 est niewielka i wskazue na brak zależności pomiędzy zmiennymi. Liczba wymiarów rzutowania wynosi, z czego pierwszy wymiar wyaśnia 91,3% inerci całkowite, natomiast dwa wymiary wyaśniaą łącznie 100% inerci całkowite. W sytuaci te metoda współwystępowania okazała się nieskuteczna, a zależność pomiędzy zmiennymi nie została wykryta. W celu przeprowadzenia pogłębione analizy zależności pomiędzy opisanymi zmiennymi można zastosować analizę logarytmiczno-liniową. Metoda ta est modelową analizą zależności i pozwala na analizę zmiennyc o niewielkie liczbie kategorii. Uwzględnia także porządek kategorii zmiennyc, co w analizie korespondenci est niemożliwe. Ponadto w wyniku przeprowadzone metody wybrany zostanie model opisuący liczebności teoretyczne. Zbudowane zostaną modele prezentuące różne rodzae zależności i uwzględniaące porządek kategorii zmiennyc w różnyc konfiguracac, tzn. raz traktowane są ako nominalne, a koleny raz ako porządkowe. Zbudowane zostaną następuące modele: ednorodny model asocaci, model efektów wierszowyc oraz model efektów kolumnowyc. Wartości mierników oceny modeli przedstawiono w tabeli 1. Wartości mierników oceny dopasowania modeli do danyc Model G df AIC Tabela 1 Model pełny ,93 Jednorodny model asocaci 190, ,03 Model efektów wierszowyc 18, ,58 Model efektów kolumnowyc 85,5 5 7,46 Model niezależności 1606, ,50 Model RC Goodmana 79, ,15 Spośród zbudowanyc modeli porządkowyc nalepsze dopasowanie do danyc zapewnia model efektów kolumnowyc. Dla tego modelu zarówno współczynnik G = 85,5 przy liczbie stopni swobody równe df = 5, ak i kryteria informacyne osiągaą namniesze wartości. Widoczne est to, że wartości parametrów dla interakci pomiędzy wiekiem a rangami przypisanymi zmienne kolumnowe stale rosną (0,0595; 0,1763; 0,4348; 0,8631; 0,9656). Oznacza to, że dla dane kolumny dodatnie znaki parametrów wskazuą, iż więce obserwaci poawia się w kolumnac reprezentuącyc wysokie wartości zmienne porządkowe, a mnie w kolumnac o niższyc wartościac w porównaniu z występowaniem niezależności zmiennyc.

7 Modelowe metody analizy danyc 17 Z przeprowadzone analizy wynika, że dla porządkowyc modeli logarytmiczno-liniowyc uzyskane wyniki są znacznie lepsze niż w przypadku modeli dla zmiennyc nominalnyc. Współczynniki G we wszystkic trzec przypadkac (ednorodny model asocaci, model efektów wierszowyc oraz model efektów kolumnowyc) osiągaą znacznie mnieszą wartość niż w przypadku modelu niezależności. Przeprowadzone badanie pokazue, że modele porządkowe wypełniaą obszerną lukę istnieącą pomiędzy modelem pełnym a modelem niezależności, zapewniaąc tym samym znaczną część informaci, które analiza nie est możliwa w przypadku zmiennyc nominalnyc. W badaniac ekonomicznyc nie zawsze dysponue się pełną informacą na temat zawiska, a badana tablica kontyngenci może zawierać zerowe liczebności. W ninieszym badaniu przeprowadzono analizę logarytmiczno-liniową dla tablicy kontyngenci zawieraące zerowe komórki. Dane wykorzystane do analizy logarytmiczno-liniowe pocodzą z Wyższego Urzędu Górniczego w Polsce ( i dotyczą łączne liczby wypadków w pracy w górnictwie w 013 roku. Zbudowano trówymiarową tablicę przedstawiaącą łączny rozkład liczby ofiar wypadków dla następuącyc zmiennyc: górnictwo (G) (górnictwo węgla kamiennego, górnictwo rud miedzi, górnictwo odkrywkowe, górnictwo otworkowe, pozostałe), załoga (Z) (załoga własna, firmy usługowe), wypadki (W) (śmiertelne, ciężko ranni, inne). Dla badane grupy liczące 588 wypadków tablica ma wymiary 3 5 i spośród 30 komórek 8 zawiera zerowe liczebności. Analiza liczebności trówymiarowe tablicy wypadków w górnictwie pokazue, iż kopalniami, w któryc naczęście docodziło do obrażeń, były kopalnie węgla kamiennego (w sumie 148 wypadki wśród górników pracuącyc w załodze własne i 455 wypadków wśród górników zatrudnionyc w firmac usługowyc). Nalicznieszą grupę wśród rannyc stanowili górnicy należący do komórki opisuące poszkodowanyc w załodze własne, którzy odnieśli inne obrażenia (1471 osób). Brak śmiertelnyc wypadków odnotowano natomiast w górnictwie otworkowym i innym, zarówno wśród załogi własne, ak i wśród górników zatrudnionyc w firmac usługowyc. Brak poważnyc wypadków odnotowano w górnictwie odkrywkowym, otworkowym oraz innym u górników zatrudnionyc w firmac usługowyc. Ze względu na to, że badana tablica zawiera zerowe liczebności, nie est możliwe przeprowadzenie analizy korespondenci, gdyż metoda ta nie powinna być stosowana w przypadku tablic zawieraącyc zera. W badanym przykładzie liczba wypadków est rezultatem wpływu procesów opisywanyc zmiennymi oraz interakcami pomiędzy nimi. Ze zbioru wszystkic możliwyc modeli

8 18 Justyna Brzezińska z trzema zmiennymi wybrano eden model optymalny. Z przeprowadzonego badania wynika, że nalepszym modelem opisuącym liczbę osób poszkodowanyc w wypadkac górniczyc est model zależności omogeniczne [GZ][GW][ZW]. Dla tego modelu iloraz wiarygodności 1, 804 przy df = 8, z prawdopodobieństwem testowym p = 0, 118. Model ten est modelem złożonym, gdyż zawiera wszystkie możliwe interakce pomiędzy zmiennymi. Równanie modelu zapisać można w postaci: lm( ) = λ + λ + λ + λ + λ + λ + λ. (9) m kl G Z Model ten pozwala opisać strukturę zależności zacodzące pomiędzy zmiennymi opisuącymi tablicę kontyngenci z zerowymi komórkami. Dla modelu zależności omogeniczne można wyznaczyć reszty Pearsona zdefiniowane ako: ~ n mˆ r =. (10) mˆ Ic wartości wskazuą na odcylenia każde liczebności tablicy od wyznaczonyc na podstawie modelu liczebności teoretycznyc. Im większe odcylenia liczebności, tym model wykazue słabsze dopasowanie do danyc. Model z zerowymi odcyleniami est modelem doskonale dopasowanym do danyc i takie reszty zaobserwować można edynie dla modelu pełnego, w którym liczebności empiryczne są równe liczebnościom teoretycznym. Dla badane tablicy kontyngenci wyznaczono reszty Pearsona (10).,, Wypadki = Śmiertelne Załoga Kopalnia Własna Firmy Węgla kamiennego Rud miedzi Odkrywkowa Otworkowa Inne ,, Wypadki = Inne Załoga Kopalnia Własna Firmy Węgla kamiennego Rud miedzi Odkrywkowa Otworkowa Inne W k GZ GW k ZW k

9 Modelowe metody analizy danyc 19,, Wypadki = Ciężko ranni Załoga Kopalnia Własna Firmy Węgla kamiennego Rud miedzi Odkrywkowa Otworkowa Inne Nawiększe odcylenia widoczne są dla komórek odpowiadaącyc górnikom, którzy byli zatrudnieni w firmac usługowyc i ulegli śmiertelnemu wypadkowi podczas pracy w kopalni rud miedzi (-1,5991) oraz byli ciężko ranni podczas pracy w innyc kopalniac (-1,4945) i w kopalniac odkrywkowyc (-1,1016). Zerowe odcylenia, które odpowiadaą zerowym liczebnościom empirycznym, widoczne są w komórkac dotyczącyc wypadków śmiertelnyc, które wydarzyły się w załogac własnyc, ak i w firmac usługowyc. Podsumowanie Istniee wiele metod analizy danyc niemetrycznyc w postaci tablic kontyngenci. Większość klasycznyc metod ograniczona est edynie do analizy zależności dwóc zmiennyc nominalnyc za pomocą klasycznyc współczynników zależności. W ninieszym artykule zaprezentowano analizę logarytmiczno-liniową, która wykorzystue formalny model opisuący zależność zacodzącą pomiędzy zmiennymi. Metoda ta z powodzeniem może być stosowana zarówno dla zmiennyc nominalnyc, ak i porządkowyc. Ponadto zapewnia ona formalny model liniowy opisuący strukturę zależności i uwzględnia interakce zacodzące między badanymi zmiennymi. Dodatkowo wykorzystue ona znaną metodę estymaci parametrów metodę nawiększe wiarygodności. Metoda ta nie wymaga też spełnienia żadnyc założeń i może być stosowana dla dowolnie duże liczby zmiennyc. Ponadto zaprezentowano model logarytmiczno-liniowy dla tablicy kontyngenci opisuące liczebność wypadków w górnictwie względem trzec zmiennyc nominalnyc w roku 013. W ninieszym artykule zaprezentowano wykorzystanie analizy logarytmiczno- -liniowe do analizy tablic kontyngenci zawieraącyc zarówno zmienne nominalne, ak i porządkowe. Wybrano model nalepie dopasowany do danyc, dla którego odcylenia liczebności empirycznyc od teoretycznyc są namniesze. Wszelkie obliczenia wykonane zostały w programie R z wykorzystaniem pakietu loglm oraz glm. Przy użyciu analizy logarytmiczno-liniowe możliwy est również opis zależności zacodzącyc pomiędzy zmiennymi porządkowymi.

10 0 Justyna Brzezińska Literatura Agresti A.: Analysis of ordinal categorical data. Jon Wiley & Sons, Hoboken, New Jersey 010. Agresti A.: Categorical data analysis. Jon Wiley & Sons, Hoboken, New Jersey 00. Akaike H.: Information teory and an extension of te maximum likeliood principle. Proceedings of te nd International Symposium on Information. Akademiai Kiado, Budapest Bisop Y.M.M., Fienberg E.F., Holland P.W.: Discrete multivariate analysis. MIT Press, Cambridge, Massacusetts Cristensen R.: Log-linear models and logistic regression. Springer-Verlag, New York Fienberg S.E.: Te analysis of multidimensional contingency tables. Ecology 1970, No. 51. Isii-Kuntz M.: Ordinal log-linear models. Sage University Paper Series on Quantitative Applications in te Social Science. Series No Sage, Beverly Hills, London Knoke D., Burke P.J.: Log-linear models. Sage University Paper Series on Quantitative Applications in te Social Science. Series No Sage, Beverly Hills and London Raftery A.E.: Coosing models for cross-classification. American Sociological Review 1986, No. 51. Sawiński Z.: Zastosowania tablic w badaniac zawisk społecznyc. IFiS PAN, Warszawa 010. Scwartz G.: Estimating te dimensions of a model. Annals of Statistics 1978, No. 6. MODEL-BASED METHODS FOR MULTI-WAY FREQUENCY TABLES IN A PUBLIC OPINION SURVEY Summary Te metods for analyzing cross-classified tables are usually to test relations between two variables taken one pair at a time. Furter development of tose metods allowed to move from two dimensional tables to ig dimensional tables, were dimensionality of a cross-table refers to te number of variables. It allowed to transform nonmodel-based to model-based metods providing te equation of a matematical model, te use of estimation metod and variety of visualizing tools. Tis paper describes ow complex qualitative data may be described by a matematical model. One of te metod presented is log-linear analysis.

Analiza. logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R. Justyna Brzeziƒska

Analiza. logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R. Justyna Brzeziƒska Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R Justyna Brzeziƒska Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R Rodzicom Analiza logarytmiczno-liniowa

Bardziej szczegółowo

Badanie zależności pomiędzy zmiennymi

Badanie zależności pomiędzy zmiennymi Badanie zależności pomiędzy zmiennymi Czy istnieje związek, a jeśli tak, to jak silny jest pomiędzy np. wykształceniem personelu a jakością świadczonych usług? Ogólnie szukamy miary zależności (współzależności),

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Badanie zależności skala nominalna

Badanie zależności skala nominalna Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

Janusz Wywiał Katedra Statystyki Akademia Ekonomiczna w Katowicach

Janusz Wywiał Katedra Statystyki Akademia Ekonomiczna w Katowicach Janusz Wywiał Katedra Statystyki Akademia Ekonomiczna w Katowicac Analiza dokładności ocen wartości średnic cec małyc firm W niniejszej pracy przedstawiono na odpowiednim materiale statystycznym praktyczny

Bardziej szczegółowo

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

dr hab. Dariusz Piwczyński, prof. nadzw. UTP dr hab. Dariusz Piwczyński, prof. nadzw. UTP Cechy jakościowe są to cechy, których jednoznaczne i oczywiste scharakteryzowanie za pomocą liczb jest niemożliwe lub bardzo utrudnione. nominalna porządek

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)

Bardziej szczegółowo

Testy zgodności 9 113

Testy zgodności 9 113 Testy zgodności 9 3 9. TESTY ZGODNOŚCI 9. Różne sytuace praktyczne W praktyce badań statystycznych, ak uż poprzednio stwierdzono, cały proces analizy statystyczne dzielimy na dwa etapy: formułowanie hipotezy

Bardziej szczegółowo

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe? 2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali

Bardziej szczegółowo

Analiza autokorelacji

Analiza autokorelacji Analiza autokorelacji Oblicza się wartości współczynników korelacji między y t oraz y t-i (dla i=1,2,...,k), czyli współczynniki autokorelacji różnych rzędów. Bada się statystyczną istotność tych współczynników.

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1 Temat: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00 0,20) Słaba

Bardziej szczegółowo

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana GRUPY NIEZALEŻNE Chi kwadrat Pearsona Testy stosujemy w sytuacji, kiedy zmienna zależna mierzona jest na skali nominalnej Liczba porównywanych grup (czyli liczba kategorii zmiennej niezależnej) nie ma

Bardziej szczegółowo

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Korelacja krzywoliniowa i współzależność cech niemierzalnych Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej

Bardziej szczegółowo

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 12 listopada 2017 1 Analiza współzależności dwóch cech 2 Jednostka zbiorowości - para (X,Y ). Przy badaniu korelacji nie ma znaczenia, która

Bardziej szczegółowo

Metodologia badań psychologicznych. Wykład 12. Korelacje

Metodologia badań psychologicznych. Wykład 12. Korelacje Metodologia badań psychologicznych Lucyna Golińska SPOŁECZNA AKADEMIA NAUK Wykład 12. Korelacje Korelacja Korelacja występuje wtedy gdy dwie różne miary dotyczące tych samych osób, zdarzeń lub obiektów

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

BADANIE WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO

BADANIE WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO BADANIE WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO Lis Anna Lis Marcin Kowalik Stanisław 2 Streszczenie. W pracy przedstawiono rozważania dotyczące określenia zależności pomiędzy wydobyciem

Bardziej szczegółowo

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi Zadanie 1 Zdaniem wielu komentatorów, kobiety częściej niż mężczyźni głosują na partię rządzącą. Wyniki badań przedstawia

Bardziej szczegółowo

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: ANALIZA DANYCH ANKIETOWYCH Nazwa w języku angielskim: Categorical Data Analysis Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Specjalność

Bardziej szczegółowo

ZASTOSOWANIE METOD SYMULACYJNYCH W ANALIZIE WIELOWYMIAROWYCH TABLIC WIELODZIELCZYCH

ZASTOSOWANIE METOD SYMULACYJNYCH W ANALIZIE WIELOWYMIAROWYCH TABLIC WIELODZIELCZYCH Grzegorz Kończak Magdalena Chmielińska Uniwersytet Ekonomiczny w Katowicach ZASTOSOWANIE METOD SYMULACYJNYCH W ANALIZIE WIELOWYMIAROWYCH TABLIC WIELODZIELCZYCH Wprowadzenie W ostatnich latach w badaniach

Bardziej szczegółowo

Skalowanie wielowymiarowe idea

Skalowanie wielowymiarowe idea Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Statystyka matematyczna. Wykład VI. Zesty zgodności

Statystyka matematyczna. Wykład VI. Zesty zgodności Statystyka matematyczna. Wykład VI. e-mail:e.kozlovski@pollub.pl Spis treści 1 Testy zgodności 2 Test Shapiro-Wilka Test Kołmogorowa - Smirnowa Test Lillieforsa Test Jarque-Bera Testy zgodności Niech x

Bardziej szczegółowo

Metoda Johansena objaśnienia i przykłady

Metoda Johansena objaśnienia i przykłady Metoda Johansena objaśnienia i przykłady Model wektorowej autoregresji rzędu p, VAR(p), ma postad gdzie oznacza wektor zmiennych endogenicznych modelu. Model VAR jest stabilny, jeżeli dla, tzn. wielomian

Bardziej szczegółowo

Wnioskowanie statystyczne. Statystyka w 5

Wnioskowanie statystyczne. Statystyka w 5 Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających

Bardziej szczegółowo

Wykład 8 Dane kategoryczne

Wykład 8 Dane kategoryczne Wykład 8 Dane kategoryczne Wrocław, 19.04.2017r Zmienne kategoryczne 1 Przykłady zmiennych kategorycznych 2 Zmienne nominalne, zmienne ordynalne (porządkowe) 3 Zmienne dychotomiczne kodowanie zmiennych

Bardziej szczegółowo

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss

Bardziej szczegółowo

Wykład 10 Skalowanie wielowymiarowe

Wykład 10 Skalowanie wielowymiarowe Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Rozkłady statystyk z próby. Statystyka

Rozkłady statystyk z próby. Statystyka Rozkłady statystyk z próby tatystyka Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających ten

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31 Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Jak trudne jest numeryczne całkowanie (O złożoności zadań ciągłych)

Jak trudne jest numeryczne całkowanie (O złożoności zadań ciągłych) Jak trudne jest numeryczne całkowanie (O złożoności zadań ciągłych) Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki leszekp@mimuw.edu.pl Horyzonty 2014 17-03-2014 Będlewo Zadania numeryczne

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji Ćwiczenie: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Stanisza r xy = 0 zmienne nie są skorelowane 0 < r xy 0,1

Bardziej szczegółowo

Kilka uwag o testowaniu istotności współczynnika korelacji

Kilka uwag o testowaniu istotności współczynnika korelacji 341 Zeszyty Naukowe Wyższej Szkoły Bankowej we Wrocławiu Nr 20/2011 Piotr Peternek Uniwersytet Ekonomiczny we Wrocławiu Marek Kośny Uniwersytet Ekonomiczny we Wrocławiu Kilka uwag o testowaniu istotności

Bardziej szczegółowo

Opis programu studiów

Opis programu studiów IV. Opis programu studiów Załącznik nr 9 do Zarządzenia Rektora nr 35/19 z dnia 1 czerwca 019 r. 3. KARTA PRZEDMIOTU Kod przedmiotu I-IŚ-103 Nazwa przedmiotu Statystyka w inżynierii środowiska Nazwa przedmiotu

Bardziej szczegółowo

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi) Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi) Czy miejsce zamieszkania różnicuje uprawianie sportu? Mieszkańcy

Bardziej szczegółowo

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA Opis zakładanych efektów kształcenia na studiach podyplomowych Nazwa studiów: BIOSTATYSTYKA PRAKTYCZNE ASPEKTY STATYSTYKI W BADANIACH MEDYCZNYCH Typ studiów: doskonalące Symbol Efekty kształcenia dla studiów

Bardziej szczegółowo

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

Analiza współzależności dwóch cech I

Analiza współzależności dwóch cech I Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych

Bardziej szczegółowo

BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI

BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI 14 BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI 14.1 WSTĘP Ogólne wymagania prawne dotyczące przy pracy określają m.in. przepisy

Bardziej szczegółowo

Prognozowanie na podstawie modelu ekonometrycznego

Prognozowanie na podstawie modelu ekonometrycznego Prognozowanie na podstawie modelu ekonometrycznego Przykład. Firma usługowa świadcząca usługi doradcze w ostatnich kwartałach (t) odnotowała wynik finansowy (yt - tys. zł), obsługując liczbę klientów (x1t)

Bardziej szczegółowo

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka Wnioskowanie statystyczne Weryfikacja hipotez Statystyka Co nazywamy hipotezą Każde stwierdzenie o parametrach rozkładu lub rozkładzie zmiennej losowej w populacji nazywać będziemy hipotezą statystyczną

Bardziej szczegółowo

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU Zał. nr 4 do ZW WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYCZNA ANALIZA DANYCH Nazwa w języku angielskim STATISTICAL DATA ANALYSIS Kierunek studiów (jeśli dotyczy):

Bardziej szczegółowo

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności. TEST STATYSTYCZNY Testem statystycznym nazywamy regułę postępowania rozstrzygająca, przy jakich wynikach z próby hipotezę sprawdzaną H 0 należy odrzucić, a przy jakich nie ma podstaw do jej odrzucenia.

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38 Statystyka Wykład 8 Magdalena Alama-Bućko 23 kwietnia 2017 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 1 / 38 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Metody Statystyczne. Metody Statystyczne

Metody Statystyczne. Metody Statystyczne #7 1 Czy straszenie jest bardziej skuteczne niż zachęcanie? Przykład 5.2. s.197 Grupa straszona: 8,5,8,7 M 1 =7 Grupa zachęcana: 1, 1, 2,4 M 2 =2 Średnia ogólna M=(M1+M2)/2= 4,5 Wnioskowanie statystyczne

Bardziej szczegółowo

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Analiza danych ankietowych Nazwa w języku angielskim: Categorical Data Analysis Kierunek studiów (jeśli dotyczy): Matematyka stosowana Specjalność

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9 Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności

Bardziej szczegółowo

STATYSTYKA wykład 5-6

STATYSTYKA wykład 5-6 TATYTYKA wykład 5-6 Twierdzenia graniczne Rozkłady statystyk z próby Wanda Olech Twierdzenia graniczne Jeżeli rozpatrujemy ciąg zmiennych losowych {X ; X ;...; X n }, to zdarza się, że ich rozkłady przy

Bardziej szczegółowo

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40 Statystyka Wykład 9 Magdalena Alama-Bućko 7 maja 2018 Magdalena Alama-Bućko Statystyka 7 maja 2018 1 / 40 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia miary

Bardziej szczegółowo

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36 Statystyka Wykład 7 Magdalena Alama-Bućko 3 kwietnia 2017 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 1 / 36 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

Wielomiany podstawowe wiadomości

Wielomiany podstawowe wiadomości Rozdział Wielomiany podstawowe wiadomości Funkcję postaci f s = a n s n + a n s n + + a s + a 0, gdzie n N, a i R i = 0,, n, a n 0 nazywamy wielomianem rzeczywistym stopnia n; jeżeli współczynniki a i

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe

Bardziej szczegółowo

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4 Stanisław Cichocki Natalia Nehrebecka Wykład 4 1 1. Własności hiperpłaszczyzny regresji 2. Dobroć dopasowania równania regresji. Współczynnik determinacji R 2 Dekompozycja wariancji zmiennej zależnej Współczynnik

Bardziej szczegółowo

W1. Wprowadzenie. Statystyka opisowa

W1. Wprowadzenie. Statystyka opisowa W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład

Bardziej szczegółowo

Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16

Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16 Value at Risk (VaR) Jerzy Mycielski WNE 2018 Jerzy Mycielski (Institute) Value at Risk (VaR) 2018 1 / 16 Warunkowa heteroskedastyczność O warunkowej autoregresyjnej heteroskedastyczności mówimy, gdy σ

Bardziej szczegółowo

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat Anna Rajfura 1 Przykład W celu porównania skuteczności wybranych herbicydów: A, B, C sprawdzano, czy masa chwastów na poletku zależy

Bardziej szczegółowo

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym Wiesława MALSKA Politechnika Rzeszowska, Polska Anna KOZIOROWSKA Uniwersytet Rzeszowski, Polska Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym Wstęp Wnioskowanie statystyczne

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Ekonometryczne modele nieliniowe

Ekonometryczne modele nieliniowe Ekonometryczne modele nieliniowe Wykład 10 Modele przełącznikowe Markowa Literatura P.H.Franses, D. van Dijk (2000) Non-linear time series models in empirical finance, Cambridge University Press. R. Breuning,

Bardziej szczegółowo

Monte Carlo, bootstrap, jacknife

Monte Carlo, bootstrap, jacknife Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział

Bardziej szczegółowo

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę) PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na

Bardziej szczegółowo

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y Zadanie 1 Rozpatrujemy próbę 4877 pracowników fizycznych, którzy stracili prace w USA miedzy rokiem 1982 i 1991. Nie wszyscy bezrobotni, którym przysługuje świadczenie z tytułu ubezpieczenia od utraty

Bardziej szczegółowo

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie STATYSTYKA OD PODSTAW Z SYSTEMEM SAS wersja 9.2 i 9.3 Szkoła Główna Handlowa w Warszawie Spis treści Wprowadzenie... 6 1. Podstawowe informacje o systemie SAS... 9 1.1. Informacje ogólne... 9 1.2. Analityka...

Bardziej szczegółowo

O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka Katedra Zastosowań Matematyki i Informatyki Uniwersytet Przyrodniczy w Lublinie Wisła 2012, 7.12.2012 Plan prezentacji 1 Wprowadzenie

Bardziej szczegółowo

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22 Spis treści Przedmowa do wydania pierwszego.... 11 Przedmowa do wydania drugiego.... 15 Wykaz symboli.... 17 Litery alfabetu greckiego wykorzystywane w podręczniku.... 17 Symbole wykorzystywane w zagadnieniach

Bardziej szczegółowo

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas: ROZWIĄZANIA I ODPOWIEDZI Zadanie A1. Można założyć, że przy losowaniu trzech kul jednocześnie kolejność ich wylosowania nie jest istotna. A więc: Ω = 20 3. a) Niech: - wśród trzech wylosowanych opakowań

Bardziej szczegółowo

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane

Bardziej szczegółowo

Wielowymiarowa Analiza Korespondencji. Wielowymiarowa Analiza Danych z wykorzystaniem pakietu SPSS. Joanna Ciecieląg, Marek Pęczkowski WNE UW

Wielowymiarowa Analiza Korespondencji. Wielowymiarowa Analiza Danych z wykorzystaniem pakietu SPSS. Joanna Ciecieląg, Marek Pęczkowski WNE UW Wielowymiarowa Analiza Korespondencji Wielowymiarowa Analiza Danych z wykorzystaniem pakietu SPSS Joanna Ciecieląg, Marek Pęczkowski WNE UW ANALIZA KORESPONDENCJI opisowa i eksploracyjna technika analizy

Bardziej szczegółowo

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR Wojciech Zieliński Katedra Ekonometrii i Statystyki SGGW Nowoursynowska 159, PL-02-767 Warszawa wojtek.zielinski@statystyka.info

Bardziej szczegółowo

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład

Bardziej szczegółowo

UWAGI O TESTACH JARQUE A-BERA

UWAGI O TESTACH JARQUE A-BERA PRZEGLĄD STATYSTYCZNY R. LVII ZESZYT 4 010 CZESŁAW DOMAŃSKI UWAGI O TESTACH JARQUE A-BERA 1. MIARY SKOŚNOŚCI I KURTOZY W literaturze statystycznej prezentuje się wiele miar skośności i spłaszczenia (kurtozy).

Bardziej szczegółowo

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Paweł Strawiński Uniwersytet Warszawski Wydział Nauk Ekonomicznych 16 stycznia 2006 Streszczenie W artykule analizowane są właściwości

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność

Bardziej szczegółowo

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ...

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ... Wykład 15 Układy równań liniowych Niech K będzie ciałem i niech α 1, α 2,, α n, β K. Równanie: α 1 x 1 + α 2 x 2 + + α n x n = β z niewiadomymi x 1, x 2,, x n nazywamy równaniem liniowym. Układ: a 21 x

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Stanisław Cichocki Natalia Nehrebecka. Wykład 7 Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

WIELOMIANOWE MODELE LOGITOWE WYBORÓW DYSKRETNYCH I ICH IMPLEMENTACJA W PAKIECIE DiscreteChoice PROGRAMU R

WIELOMIANOWE MODELE LOGITOWE WYBORÓW DYSKRETNYCH I ICH IMPLEMENTACJA W PAKIECIE DiscreteChoice PROGRAMU R PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU nr 07 RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS nr 37 014 Taksonomia ISSN 1899-319 Klasyfikacja i analiza danych teoria i zastosowania Andrzej

Bardziej szczegółowo

Prawdopodobieństwo i statystyka r.

Prawdopodobieństwo i statystyka r. Prawdopodobieństwo i statystyka 9.06.999 r. Zadanie. Rzucamy pięcioma kośćmi do gry. Następnie rzucamy ponownie tymi kośćmi, na których nie wypadły szóstki. W trzeciej rundzie rzucamy tymi kośćmi, na których

Bardziej szczegółowo

Metoda największej wiarogodności

Metoda największej wiarogodności Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 3. Zmienne losowe 4. Populacje i próby danych 5. Testowanie hipotez i estymacja parametrów 6. Test t 7. Test

Bardziej szczegółowo

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y 2. Współczynnik korelacji Pearsona 3. Siła i kierunek związku między zmiennymi 4. Korelacja ma sens, tylko wtedy, gdy związek między zmiennymi

Bardziej szczegółowo

Zróżnicowanie poziomu ubóstwa w Polsce z uwzględnieniem płci

Zróżnicowanie poziomu ubóstwa w Polsce z uwzględnieniem płci Zróżnicowanie poziomu ubóstwa w Polsce z uwzględnieniem płci Łukasz Wawrowski Katedra Statystyki Uniwersytet Ekonomiczny w Poznaniu Zróżnicowanie poziomu ubóstwa w Polsce z uwzględnieniem płci 2 / 23 Plan

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Analiza Współzależności

Analiza Współzależności Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy) Statystyka I Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy) 1 Zmienne jakościowe qzmienne jakościowe niemierzalne kategorie: np. pracujący / bezrobotny qzmienna binarna Y=0,1 qczasami

Bardziej szczegółowo