Analiza. logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R. Justyna Brzeziƒska

Podobne dokumenty
Badanie zależności skala nominalna

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Metody Ilościowe w Socjologii

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Algebra. macierzy brzegowych z zastosowaniami. Micha Kolupa Zbigniew Âleszyƒski

Skalowanie wielowymiarowe idea

Modelowanie i prognozowanie cen surowców energetycznych. Monika Papie Sławomir Âmiech

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Analiza korespondencji

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Podstawy statystyki matematycznej w programie R

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Badanie zależności pomiędzy zmiennymi

Analiza współzależności zjawisk

Konsument. na rynku usług. Grażyna Rosa. Redakcja naukowa. Wydawnictwo C.H.Beck

Jerzy Berdychowski. Informatyka. w turystyce i rekreacji. Materiały do zajęć z wykorzystaniem programu. Microsoft Excel

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2015/2016

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

INFORMATYKA. AMADEUS Selling Platform. AMADEUS Selling Platform. Jerzy Berdychowski. Materiały do zajęć z wykorzystaniem systemu.

Analiza współzależności dwóch cech I

Analiza Współzależności

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Statystyka opisowa SYLABUS A. Informacje ogólne

Imię, nazwisko i tytuł/stopień KOORDYNATORA (-ÓW) kursu/przedmiotu zatwierdzającego protokoły w systemie USOS Dr Roman Sosnowski

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Recenzja rozprawy doktorskiej mgr Bartosza Rymkiewicza pt. Społeczna odpowiedzialność biznesu a dokonania przedsiębiorstwa

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

PRZEWODNIK PO PRZEDMIOCIE. Statystyka opisowa. Zarządzanie. niestacjonarne. I stopnia. dr Agnieszka Strzelecka. ogólnoakademicki.

Ekonometria. Zajęcia

Wojciech Skwirz

Testowanie hipotez statystycznych.

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

STATYSTYKA MATEMATYCZNA

METODY ILOŚCIOWE W ZARZĄDZANIU

kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Mojej Kochanej Lusi, za miłość, wsparcie i cierpliwość

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

Wstęp Podstawowe oznaczenia stosowane w książce... 13

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Wydział Matematyki. Testy zgodności. Wykład 03

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Badania marketingowe. Podstawy metodyczne Stanisław Kaczmarczyk

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Prognozowanie na podstawie modelu ekonometrycznego

Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie...

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Wykład 10 Skalowanie wielowymiarowe

ćwiczenia Katedra Rozwoju Regionalnego i Metod Ilościowych

Imię, nazwisko i tytuł/stopień KOORDYNATORA (-ÓW) kursu/przedmiotu zatwierdzającego protokoły w systemie USOS Jacek Marcinkiewicz, mgr

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Metody statystyczne w pedagogice Kod przedmiotu

Statystyka matematyczna i ekonometria

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Kilka uwag o testowaniu istotności współczynnika korelacji

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08

Wykład ze statystyki. Maciej Wolny

Załącznik Nr 1 KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Elementy statystyki i demografii. 2. KIERUNEK: Pedagogika. 3. POZIOM STUDIÓW: I stopień

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE. Nie dotyczy. podstawowy i kierunkowy

STATYSTYKA MATEMATYCZNA

Badania eksperymentalne

OCENA RYZYKA ZAKUPU I SPRZEDAZY NIERUCHOMOSCI ZA POŚREDNICTWEM INTERNETOWYCH SERWISOW AUKCYJNYCH

Sposoby prezentacji problemów w statystyce

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w

PYTANIA NA EGZAMIN MAGISTERSKI KIERUNEK: EKONOMIA STUDIA DRUGIEGO STOPNIA. CZĘŚĆ I dotyczy wszystkich studentów kierunku Ekonomia pytania podstawowe

wersja elektroniczna - ibuk

W1. Wprowadzenie. Statystyka opisowa

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

SYLABUS. DOTYCZY CYKLU KSZTAŁCENIA (skrajne daty) Statystyka w badaniach medycznych. dr Bernard Sozański wykład, ćwiczenia konwersatoryjne

studiów Podstawy Statystyki TR/2/PP/STAT 7 3

Rachunek prawdopodobieństwa WZ-ST1-AG--16/17Z-RACH. Liczba godzin stacjonarne: Wykłady: 15 Ćwiczenia: 30. niestacjonarne: Wykłady: 9 Ćwiczenia: 18

Analiza statystyczna. Microsoft Excel 2010 PL.

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Z poprzedniego wykładu

Publikacja została dofinansowana z środków Narodowego Centrum Nauki w ramach projektu badawczego nr 2014/13/B/HS4/03204

CZĘŚĆ I. PRZYGOTOWANIE PROCESU BADAŃ MARKETINGOWYCH Faza identyfikacji problemów decyzyjnych lub okoliczności sprzyjających

SPIS TREŚCI PRZEDMOWA... 13

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Transkrypt:

Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R Justyna Brzeziƒska

Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R

Rodzicom

Analiza logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R Justyna Brzeziƒska WYDAWNICTWO C.H.BECK WARSZAWA 2015

Wydawca: Dorota Ostrowska-Furmanek Redakcja merytoryczna: Danuta Kamińska-Hass Recenzent: prof. dr hab. Adam Sagan Projekt okładki i stron tytułowych: Maryna Wiśniewska Ilustracja na okładce: c MarkEvans/iStockphoto Seria: Metody ilościowe Publikacja dofinansowana ze środków dotacji na działalność statutową (utrzymanie potencjału badawczego) Uniwersytetu Ekonomicznego w Katowicach przyznanych w roku 2015 Złożono programem TEX c Wydawnictwo C.H. Beck 2015 Wydawnictwo C.H. Beck Sp. z o.o. ul. Bonifraterska 17, 00-203 Warszawa Skład i łamanie: Wydawnictwo C.H. Beck Druk i oprawa: Elpil, Siedlce ISBN 978-83-255-7322-5 e-book 978-83-255-7323-2

Spis treści Wstęp........................................ 7 Rozdział 1. Analiza zależności zmiennych niemetrycznych........... 10 1.1. Pojęcie zależności w statystycznej analizie danych............. 10 1.2. Analiza zależności zmiennych nominalnych................ 14 1.2.1. Dwuwymiarowe tablice kontyngencji 2 2............ 14 1.2.2. Dwuwymiarowe tablice kontyngencji H J............ 24 1.2.3. Wielowymiarowe tablice kontyngencji 2 2 K......... 35 1.2.4. Wielowymiarowe tablice kontyngencji H J K........ 39 1.3. Analiza zależności zmiennych porządkowych............... 42 1.4. Tablice z zerowymi liczebnościami..................... 46 1.5. Interakcje.................................. 48 1.6. Przykłady z wykorzystaniem programu R................. 49 Rozdział 2. Analiza korespondencji....................... 57 2.1. Geneza analizy korespondencji....................... 57 2.2. Klasyczna analiza korespondencji..................... 58 2.3. Wielowymiarowa analiza korespondencji................. 60 2.4. Rozkład macierzy według wartości osobliwych SVD........... 66 2.5. Ocena jakości odwzorowania oraz interpretacja wyników......... 71 2.6. Przykłady z wykorzystaniem programu R................. 75 Rozdział 3. Analiza logarytmiczno-liniowa................... 80 3.1. Geneza modeli logarytmiczno-liniowych.................. 80 3.2. Rozkłady prawdopodobieństwa zmiennych niemetrycznych w tablicy kontyngencji................................. 81 3.3. Analiza logarytmiczno-liniowa dla tablic kontyngencji.......... 84 3.3.1. Rola zmiennych w analizie logarytmiczno-liniowej......... 84 3.3.2. Modele logarytmiczno-liniowe dla tablic dwuwymiarowych.... 86 3.3.3. Modele logarytmiczno-liniowe dla tablic wielowymiarowych... 92 3.3.4. Charakterystyka modeli hierarchicznych.............. 96 3.3.5. Estymacja parametrów modelu metodą największej wiarygodności 103 3.3.6. Wyznaczanie liczebności oczekiwanych.............. 105 3.4. Modele logarytmiczno-liniowe dla zmiennych porządkowych....... 108 3.4.1. Jednorodny model asocjacji..................... 109 3.4.2. Model efektów wierszowych i model efektów kolumnowych.... 110 3.4.3. Model efektów wierszowych i kolumnowych (model RC Goodmana)112 3.5. Mierniki oceny jakości dopasowania modelu................ 114 5

Spis treści 3.6. Przykłady z wykorzystaniem programu R................. 120 Rozdział 4. Analiza klas ukrytych........................ 127 4.1. Geneza analizy klas ukrytych........................ 127 4.2. Cel analizy klas ukrytych.......................... 129 4.3. Analiza klas ukrytych w modelach logarytmiczno liniowych....... 131 4.4. Kryteria wyboru liczby klas........................ 134 4.5. Przykłady z wykorzystaniem programu R................. 136 Rozdział 5. Metody wizualizacji zmiennych niemetrycznych w programie R. 141 5.1. Geneza metod wizualizacyjnych...................... 141 5.2. Przykłady wizualizacji tablic dwuwymiarowych.............. 142 5.2.1. Wykres czteropolowy........................ 142 5.2.2. Wykres sitkowy........................... 145 5.2.3. Wykres mozaikowy......................... 146 5.2.4. Wykres asocjacji........................... 147 5.3. Przykłady wizualizacji tablic wielowymiarowych............. 148 5.3.1. Wykres czteropolowy dla tablic o wymiarach 2 2 K..... 148 5.3.2. Wykres mozaikowy......................... 149 5.3.3. Wykres sitkowy........................... 151 5.3.4. Wykres dwuwarstwowy....................... 152 Zakończenie.................................... 154 Bibliografia..................................... 157 Spis rysunków................................... 177 Spis tabel...................................... 178 Indeks rzeczowy.................................. 179

Wstęp Niniejsza książka jest poświęcona szeroko rozumianej analizie zależności zmiennych niemetrycznych ze szczególnym uwzględnieniem analizy logarytmiczno-liniowej. Celem monografii jest prezentacja teoretycznych i metodologicznych podstaw analizy logarytmiczno-liniowej oraz jej zastosowanie w analizie danych z wykorzystaniem programu R. W monografii przedstawiono również inne metody analizy zależności, takie jak analiza korelacji, analiza korespondencji oraz analiza klas ukrytych, a także metody wizualizacji danych zapisanych w postaci tablicy kontyngencji. Książka ma charakter teoretyczno-empiryczny i składa się z pięciu rozdziałów. W rozdziale pierwszym zaprezentowano podstawowe pojęcia związane z analizą zależności zmiennych niemetrycznych dla tablic dwu- i wielowymiarowych. Przedstawiono tam opisowe metody wykorzystywane do badania siły zależności w przypadku tablic o wymiarach 2 2, do których należą: współczynnik chi-kwadrat, korekta Yatesa, statystyka Fishera, współczynnik McNemara oraz łączona statystka chi-kwadrat. W kolejnej części rozdziału zaprezentowano mierniki stosowane w przypadku tablic o wymiarach H J, do których należą współczynniki: chi-kwadrat, Cressie a i Reada, Yule a, Pearsona, zbieżności Czuprowa oraz Goodmana i Kruskala. W dalszej części rozdziału przedstawiono metody analizy tablic o wymiarach 2 2 K, do których należą: współczynnik chi-kwadrat dla łączonych tablic kontyngencji, statystyka Mantela Haenszela, zaprezentowano także paradoks Simpsona. Następnie przedstawiono metody analizy tablic wielowymiarowych H J K. Rozdział ten zakończono opisem metod analizy zależności zmiennych porządkowych, do których należą: współczynniki τ i W Kendalla, γ Goodmana i Kruskala, d Somersa oraz współczynnik korelacji Spearmana. Rozdział drugi poświęcono analizie korespondencji, której głównym celem jest ocena współwystępowania kategorii zmiennych nominalnych. Metoda ta pozwala na graficzne przedstawienie związków i relacji zachodzących pomiędzy kategoriami zmiennych. W rozdziale tym omówiono klasyczną analizę korespondencji, która jest wykorzystywana w przypadku tablic dwuwymiarowych, a także sposoby zapisu danych w przypadku wielowymiarowej analizy korespondencji w postaci tablicy Burta, złożonej macierzy znaczników, wielowymiarowej tablicy kontyngencji oraz łączonej tablicy kontyngencji. Zaprezentowano tam także rozkład macierzy według wartości osobliwych, który pozwala na wyznaczenie współrzędnych punktów reprezentujących kategorie wierszowe i kolumnowe. Porównano cztery sposo- 7

Wstęp by rozkładu macierzy różnic standaryzowanych według wartości osobliwych, które przeprowadzono na podstawie autorskich procedur napisanych w programie R. Rozdział trzeci poświęcono analizie logarytmiczno-liniowej, która jest modelową metodą analizy zależności zmiennych niemetrycznych. W metodzie tej modele logarytmiczno-liniowe uwzględniają interakcje pomiędzy zmiennymi i wskazują na charakter związku między nimi, dzięki czemu można opisać wiele rodzajów zależności. Celem analizy jest zbadanie, czy rozkład liczebności we wnętrzu danej tablicy kontyngencji może zostać wyrażony za pomocą prostszej struktury niż ta, która uwzględnia wszystkie dostępne zmienne i interakcje. W metodzie tej buduje się wiele modeli według zasady hierarchiczności, a wybór modelu najlepszego jest dokonywany w taki sposób, by różnica między liczebnościami empirycznymi a teoretycznymi była możliwie najmniejsza. Do oceny jakości modeli wykorzystuje się liczne kryteria określające stopień tych odchyleń. Wybrany zostaje model o jak najmniejszej złożoności, który jednocześnie cechuje się wystarczającym dopasowaniem do danych. Rozdział czwarty dotyczy analizy klas ukrytych, która znajduje zastosowanie wówczas, gdy badane zmienne są bezpośrednio nieobserwowalne. W metodzie tej zarówno zmienne obserwowalne, jak i ukryte mają charakter zmiennych skokowych. Analiza klas ukrytych ma na celu znalezienie oraz zidentyfikowanie odpowiedniej liczby klas ukrytych, w których zmienne obserwowalne są od siebie niezależne. Zbudowany model przydziela w efekcie obserwacje do klas ukrytych, a w dalszym etapie pozwala na przypuszczenie, jak zmienne obserwowalne zachowają się pod wpływem zmiennych ukrytych. W rozdziale tym zaprezentowano także liczne kryteria służące do oceny modelu. W rozdziale piątym zaprezentowano metody wizualizacji danych zapisanych w tablicach dwu- i wielowymiarowych. Do omawianych w rozdziale wykresów należą: czteropolowy, sitkowy, mozaikowy, asocjacji oraz dwuwarstwowy. Graficzna forma prezentacji danych w postaci zaawansowanych wykresów pełni istotną rolę w procesie analizy, a niekiedy zastępuje nawet formalne kryteria wykorzystywane w celu wyboru modelu najlepszego. Niniejsza monografia jest przeznaczona dla pracowników naukowych zajmujących się zastosowaniem metod analizy danych jakościowych w naukach społecznych, a w szczególności w psychologii, socjologii, ekonomii czy politologii. Ponadto odbiorcami książki mogą być studenci uczelni wyższych studiujący na specjalnościach ilościowych (informatyka ekonomiczna, statystyka i ekonometria, analityka gospodarcza), doktoranci, którzy wykorzystują w swych badaniach analizę danych jakościowych oraz analitycy rynku i pracownicy agencji marketingowych przeprowadzający analizy danych niemetrycznych z wykorzystaniem programu R. W badaniach empirycznych i we wszystkich obliczeniach prezentowanych w książce wykorzystano program R. Wersję instalacyjną programu oraz dodatkowe pakiety zaprezentowane w niniejszej monografii można pobrać ze strony pod adresem: http://www.r-project.org/. 8

Wstęp Pragnę serdeczne podziękować Panu Profesorowi Eugeniuszowi Gatnarowi za życzliwą pomoc, cenne uwagi merytoryczne oraz opiekę naukową, na którą zawsze mogłam liczyć. Dziękuję również Panu Profesorowi Markowi Walesiakowi z Uniwersytetu Ekonomicznego we Wrocławiu oraz Panu Profesorowi Adamowi Saganowi z Uniwersytetu Ekonomicznego w Krakowie za cenne i konstruktywne uwagi, które wpłynęły na ostateczny kształt monografii. Tę książkę pragnę zadedykować moim Rodzicom, którzy są spiritus movens tego, co w mym życiu najwspanialsze.