Zaawansowane metody analiz statystycznych

Podobne dokumenty
ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

Spis treści. Przedmowa Monika Książek Rozdział I Analiza danych jakościowych... 25

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

ZAWANSOWANE METODY ANALIZ STATYSTYCZNYCH ADVANCED STATISTICAL ANALYSIS METHODS. Część A

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

Szkolenia SAS Cennik i kalendarz 2017

ZGŁOSZENIE WSPÓLNEGO POLSKO -. PROJEKTU NA LATA: APPLICATION FOR A JOINT POLISH -... PROJECT FOR THE YEARS:.

Krytyczne czynniki sukcesu w zarządzaniu projektami

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

6. FORMULARZ DLA OGŁOSZENIODAWCÓW INSTYTUCJA: UNIWERSYTET OPOLSKI-INSTYTUT NAUK PEDAGOGICZNYCH

Probabilistic Methods and Statistics. Computer Science 1 st degree (1st degree / 2nd degree) General (general / practical)

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

ZGŁOSZENIE WSPÓLNEGO POLSKO -. PROJEKTU NA LATA: APPLICATION FOR A JOINT POLISH -... PROJECT FOR THE YEARS:.

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Cena netto (PLN) IV kwartał. Cena netto (PLN) Podstawy SAS INTRO

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

PROJECT. Syllabus for course Negotiations. on the study program: Management

Formularz recenzji magazynu. Journal of Corporate Responsibility and Leadership Review Form

Zaliczenie na ocenę 0,5 0,5

Życie za granicą Studia

PŁODNOŚĆ I MAŁZENSKOSC W POLSCE - analiza kohortowa: kohorty urodzeniowe

ITALIAN STUDIES ITALIANISTYKA. Study programme (table of courses) starting with the academic year

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Akademia Morska w Szczecinie. Wydział Mechaniczny

Przedmioty do wyboru oferowane na stacjonarnych studiach II stopnia (magisterskich) dla II roku w roku akademickim 2015/2016

WYDZIAŁ NAUK EKONOMICZNYCH. Studia II stopnia niestacjonarne Kierunek Międzynarodowe Stosunki Gospodarcze Specjalność INERNATIONAL LOGISTICS

Course syllabus. Mathematical Basis of Logistics. Information Technology in Logistics. Obligatory course. 1 1 English

POLITECHNIKA WARSZAWSKA. Wydział Zarządzania ROZPRAWA DOKTORSKA. mgr Marcin Chrząścik

PLANY I PROGRAMY STUDIÓW

PRZEWODNIK PO PRZEDMIOCIE. Negotiation techniques. Management. Stationary. II degree

Spis treści. Wprowadzenie 13

Regresja logistyczna z wykorzystaniem narzędzi SAS Logistic Regression with SAS

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

PROJECT. Syllabus for course Global Marketing. on the study program: Management

Opisy przedmiotów do wyboru

WYDZIAŁ NAUK EKONOMICZNYCH

Tychy, plan miasta: Skala 1: (Polish Edition)

Hard-Margin Support Vector Machines

Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to teachers

ANALIZA HISTORII ZDARZEŃ - ELEMENTY TEORII, WYBRANE PRZYKŁADY ZASTOSOWAŃ Z WYKORZYSTANIEM PAKIETU TDA

4. EKSPLOATACJA UKŁADU NAPĘD ZWROTNICOWY ROZJAZD. DEFINICJA SIŁ W UKŁADZIE Siła nastawcza Siła trzymania

Profil Czasopisma / The Scope of a Journal

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Opis Przedmiotu Zamówienia oraz kryteria oceny ofert. Części nr 10

Wydział Inżynierii Produkcji i Logistyki Faculty of Production Engineering and Logistics

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

PRZEWODNIK PO DOBREJ PRAKTYCE EKSPERYMENTALNEJ. Maria Kozłowska

PLAN STUDIÓW Wydział Elektroniki, Telekomunikacji i Informatyki, Wydział Zarządzania i Ekonomii Inżynieria danych

Fig 5 Spectrograms of the original signal (top) extracted shaft-related GAD components (middle) and

EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH

Metodyki projektowania i modelowania systemów Cyganek & Kasperek & Rajda 2013 Katedra Elektroniki AGH

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Institutional Determinants of IncomeLevel Convergence in the European. Union: Are Institutions Responsible for Divergence Tendencies of Some

SPECJALIZACJA: NOWOCZESNA BIBLIOTEKA (Specialization: Modern library) Liczba godzin Nazwa przedmiotu. Nazwa w języku angielskim

Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards

deep learning for NLP (5 lectures)

Inverse problems - Introduction - Probabilistic approach

PROJECT. Syllabus for course Principles of Marketing. on the study program: Management

P R A C A D Y P L O M O W A

Instructions for student teams

Komisja Krajobrazu Kulturowego Polskiego Towarzystwa Geograficznego. Cultural Landscape Commission of Polish Geographical Society.

Wykład Ćwiczenia Laboratorium Projekt Seminarium

PLANY I PROGRAMY STUDIÓW

Effective Governance of Education at the Local Level

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2013/2014

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

OCENA MOśLIWOŚCI WYKORZYSTANIA HODOWLI ŚWIŃ RASY ZŁOTNICKIEJ

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Auditorium classes. Lectures

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

ABOUT NEW EASTERN EUROPE BESTmQUARTERLYmJOURNAL

Kierunek: Informatyka rev rev jrn Stacjonarny EN 1 / 6

Unit of Social Gerontology, Institute of Labour and Social Studies ageing and its consequences for society

Oxford PWN Polish English Dictionary (Wielki Slownik Polsko-angielski)

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

STUDIA TURYSTYKI I REKREACJI W POLSCE

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to students

Wydział Fizyki, Astronomii i Informatyki Stosowanej Uniwersytet Mikołaja Kopernika w Toruniu

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

Latent Dirichlet Allocation Models and their Evaluation IT for Practice 2016

Cel szkolenia. Konspekt

Updated Action Plan received from the competent authority on 4 May 2017

Recenzja: dr hab. prof. Uniwersytetu Warszawskiego Tomasz Grzegorz Grosse. Redaktor prowadząca: Anna Raciborska. Redakcja: Dorota Kassjanowicz

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically


Health Resorts Pearls of Eastern Europe Innovative Cluster Health and Tourism

DOI: / /32/37

Wdrożenie archiwum ELO w firmie z branży mediowej. Paweł Łesyk

strona 1 / 12 Autor: Walesiak Marek Publikacje:

Edukacja akademicka z wykorzystaniem narzędzi SAS

PLANY I PROGRAMY STUDIÓW

Instytucje gospodarki rynkowej w Polsce

RACHUNEK PRAWDOPODOBIE STWA

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

Transkrypt:

Zaawansowane metody analiz statystycznych Zaawansowane metody analiz statystycznych redakcja naukowa Ewa Fr tczak OFICYNA WYDAWNICZA SZKO A G ÓWNA HANDLOWA W WARSZAWIE 02-554 Warszawa, al. Niepodleg o ci 162 tel. 22 564 94 77, fax 22 564 86 86 www.wydawnictwo.sgh.waw.pl e-mail:wydawnictwo@sgh.waw.pl OFICYNA WYDAWNICZA SZKO A G ÓWNA HANDLOWA W WARSZAWIE

Zaawansowane metody analiz statystycznych

Zaawansowane metody analiz statystycznych redakcja naukowa Ewa Fr tczak OFICYNA WYDAWNICZA SZKO A G ÓWNA HANDLOWA W WARSZAWIE WARSZAWA 2012

Prace nad przygotowaniem podręcznika zostały częściowo sfinansowane z tematu badawczego: Wybrane metody analizy zjawisk i procesów demograficznych i biznesowych poziom zaawansowany. Temat 03/S/0012/10, kierownik dr hab. Ewa Frątczak, Instytut Statystyki i Demografii, Kolegium Analiz Ekonomicznych, SGH, Warszawa 2010. Cerdit line: Premision to translate into Polish pages 733-756 from the SAS Publishing 2007 title, SAS for Mixed Models, Second Edition, by Ramon Littell and George Millike and include in book, Zaawansowane metody analiz statystycznych (Advanced methods ) with potential publication of ~300 copies has been received from SAS Publishing SAS Institute Inc. 100 SAS Campus Drive, J1156 Cary NC 27513 in 2011. Created with SAS software. Copyright 2007, SAS Institute Inc., Cary, NC, USA. All Rights Reserved. Reproduced with permission of SAS Institute Inc., Cary, NC Recenzent Tomasz Burzykowski Redaktor Izabela Różańska Copyright by Szkoła Główna Handlowa w Warszawie, Warszawa 2012 Wszelkie prawa zastrzeżone. Kopiowanie, przedrukowywanie i rozpowszechnianie całości lub fragmentów niniejszej publikacji bez zgody wydawcy zabronione. Wydanie I ISBN 978-83-7378-732-2 Szkoła Główna Handlowa w Warszawie Oficyna Wydawnicza 02-554 Warszawa, al. Niepodległości 162 tel. 22 564 94 77, 22 564 94 86, fax 22 564 86 86 www.wydawnictwo.sgh.waw.pl e-mail: wydawnictwo@sgh.waw.pl Projekt i wykonanie okładki Małgorzata Przestrzelska Skład i łamanie Elżbieta Giżyńska Druk i oprawa ESUS Drukarnia cyfrowa 62-835 Plewiska, ul. Południowa 54 www.esus.pl Zamówienie 90/VII/12

Przedmowa................................................................ 17 Monika Książek Rozdział I Analiza danych jakościowych................................................. 25 I. Teoria.................................................................... 25 I.1. Wprowadzenie...................................................... 25 I.2. Jednowymiarowa analiza zmiennych jakościowych...................... 26 I.3. Analiza zależności zmiennych jakościowych............................ 31 I.3.1. Test równości proporcji.......................................... 32 I.3.2. Miary zależności............................................... 33 I.3.3. Testy niezależności............................................. 38 I.3.4. Testy i mierniki dla zmiennych porządkowych..................... 40 I.3.5. Analiza zależności dwóch zmiennych jakościowych w warstwach wyznaczanych przez inne zmienne jakościowe......... 42 I.4. Modele log-liniowe................................................... 45 I.5. Zmienne jakościowe jako zmienne objaśniające.......................... 47 I.5.1.Kodowanie zmiennych jakościowych.............................. 47 I.5.2. Problemy związane z obecnością zmiennych jakościowych w modelu. 50 I.5.3. Interakcje zmiennych jakościowych............................... 52 I.5.4. Korzyści ze zmiany skali pomiaru zmiennych...................... 53 I.6. Zmienne jakościowe jako zmienne objaśniane........................... 54 I.6.1. Uogólnione modele liniowe dla zmiennych jakościowych............ 54 I.6.2. Interpretacja parametrów....................................... 59 I.6.3. Badanie istotności statystycznej parametrów....................... 60 I.6.4. Ocena jakości dopasowania modelu............................... 61 II. Przykłady................................................................ 63 II.1. Analiza jednowymiarowa............................................ 68 II.2. Analiza tabeli 2 2.................................................. 71 II.3. Analiza tabeli 2 2 w podgrupach.................................... 77 II.4. Model log-liniowy.................................................. 86

II.5. Kodowanie......................................................... 93 II.6. Binarna regresja logistyczna......................................... 101 II.7. Wielomianowa i porządkowa regresja logistyczna...................... 111 II.8. Uwzględnianie wpływów nieliniowych............................... 120 II.9. Interakcje......................................................... 130 Bibliografia................................................................. 137 Iga Sikorska Rozdział II Analiza zmiennych ukrytych................................................ 139 I. Model klas ukrytych (LCA)................................................ 139 I.1. Wprowadzenie..................................................... 139 I.2. Zapis modelu...................................................... 144 I.2.1. Założenia modelu klas ukrytych................................ 147 I.2.2. Parametry modelu klas ukrytych................................ 148 I.3. Estymacja modelu klas ukrytych..................................... 149 I.3.1. Estymacja parametrów w SAS................................... 153 I.4. Weryfikacja modelu klas ukrytych.................................... 154 I.4.1. Braki danych.................................................. 161 I.4.2. Ograniczenia nakładane na parametry........................... 162 I.4.3. Liczba klas ukrytych........................................... 163 I.4.4. Interpretacja klas ukrytych..................................... 165 I.4.5. Homogeniczność i rozróżnialność modeli klas ukrytych............ 166 I.5. Zmienne grupujące w modelu klas ukrytych........................... 168 I.6. Zmienne kontrolne w modelu klas ukrytych........................... 171 I.6.1. Weryfikacja modelu ze zmiennymi kontrolnymi................... 172 I.7. Procedury LCA i LTA............................................... 173 I.8. Przykład modelu klas ukrytych....................................... 176 II. Model stanów ukrytych (LTA)............................................. 193 II.1. Wprowadzenie..................................................... 193 II.2. Zapis modelu...................................................... 193 II.3. Estymacja i weryfikacja modelu stanów ukrytych...................... 198 II.3.1. Braki danych................................................. 199 II.3.2. Ograniczenia nakładane na parametry.......................... 199 II.4. Zmienne grupujące w modelu stanów ukrytych........................ 202 II.5. Zmienne kontrolne w modelu stanów ukrytych........................ 204 II.6. Przykład modelu stanów ukrytych................................... 206 Bibliografia................................................................. 220

Ewa Frątczak, Małgorzata Mianowska Rozdział III Modele mieszane........................................................... 223 I. Podstawy teoretyczne..................................................... 223 I.1. Liniowy model mieszany............................................ 228 I.1.1. Wprowadzenie................................................ 228 I.1.2. Zapis liniowego modelu mieszanego............................. 232 I.1.3. PROC GLM i PROC MIXED................................... 238 I.1.4. PROC HPMIXED............................................. 243 I.1.5. Diagnostyka i strategie budowy modelu.......................... 244 I.2. Uogólniony model mieszany......................................... 247 I.2.1. Wprowadzenie................................................ 247 I.2.2. Zapis uogólnionego liniowego modelu mieszanego................ 251 I.2.3. Procedura GLIMMIX i metody estymacji......................... 253 I.3. Nieliniowy model mieszany......................................... 254 I.3.1. Wprowadzenie................................................ 254 I.3.2. Zapis nieliniowego modelu mieszanego.......................... 254 I.3.3. Procedura NLMIXED i metoda estymacji........................ 255 I.4. Podsumowanie.................................................... 257 II. Przykłady estymacji modeli mieszanych..................................... 259 Wprowadzenie......................................................... 259 II.1. Przykład 1 model liniowy i liniowy model mieszany................... 262 II.2. Przykład 2 liniowy model mieszany z interakcją...................... 301 II.3. Przykład 3 model hierarchiczny.................................... 318 II.4. Przykład 4 uogólniony liniowy model mieszany i model nieliniowy.... 351 II.5. Przykład 5 estymacja modelu mieszanego w Enterprise Guide......... 369 Bibliografia................................................................ 378 Załącznik 1. Teoria liniowych modeli mieszanych............................. 381 1. Wprowadzenie....................................................... 381 2. Zapis macierzowy.................................................... 381 3. Określenie postaci modeli mieszanych.................................. 383 3.1. Ogólna postać liniowego modelu mieszanego....................... 383 3.2. Rozkłady warunkowe i brzegowe................................. 384 3.3. Przykład: Krzywa wzrostu z symetryczną strukturą kowariancji...... 386 3.4. Przykład: Układ podzielonych poletek (Split-Plot Design)............ 388 4. Estymacja parametrów, predykcja efektów losowych..................... 392 4.1. Estymacja β i prognoza u: równania modelu mieszanego............. 392 4.2. Efekty losowe, grzbietowe oraz kurczenie.......................... 394

4.3. Wszystko o metodzie SWEEP.................................... 396 4.4. Największa wiarygodność i ograniczona największa wiarygodność dla parametrów kowariancji........................ 399 5. Własności statystyczne............................................... 405 6. Wybór postaci modelu................................................ 407 6.1. Porównania modeli z wykorzystaniem testów ilorazu wiarygodności........................................... 408 6.2. Porównania modeli z wykorzystaniem kryteriów informacyjnych.... 409 7. Wnioskowanie i statystyki testujące.................................... 411 7.1. Wnioskowanie o parametrach kowariancji......................... 411 7.2. Wnioskowanie o efektach stałych i losowych....................... 412 8. Prace cytowane w załączniku......................................... 414 Wioletta Grzenda Rozdział IV Wybrane zagadnienia estymacji bayesowskiej................................. 419 I. Elementy teorii statystyki bayesowskiej...................................... 420 I.1. Metody bayesowskie................................................. 420 I.1.1. Twierdzenie Bayesa............................................ 422 I.1.2. Rozkłady a priori.............................................. 427 I.1.3. Wnioskowanie bayesowskie..................................... 432 I.1.4. Uwagi ogólne dotyczące metod bayesowskich..................... 435 I.2. Metody Monte Carlo oparte na łańcuchach Markowa................... 436 I.2.1. Wybrane własności łańcuchów Markowa......................... 437 I.2.2. Algorytm Metropolisa i algorytm Metropolisa Hastingsa.......... 442 I.2.3. Próbnik Gibbsa............................................... 444 I.2.4. Algorytm próbkowania adaptacyjnego z odrzucaniem............. 445 I.2.5. Zagadnienia dotyczące wyboru realizacji łańcucha Markowa........ 445 I.2.6. Ocena zbieżności łańcuchów Markowa........................... 447 I.2.7. Testy zbieżności łańcuchów Markowa............................ 451 II. Przykłady zastosowań.................................................... 459 II.1 Materiał empiryczny................................................ 460 II.2. Model regresji Poissona w ujęciu bayesowskim......................... 461 II.3. Bayesowska estymacja uogólnionych modeli liniowych w systemie SAS... 462 II.4. Przykłady bayesowskiej estymacji modeli regresji Poissona.............. 466 II.4.1. Model Poissona z nieinformacyjnymi rozkładami normalnymi a priori.......................................... 467 II.4.2. Model Poissona z informacyjnym rozkładem normalnym a priori i nieinformacyjnymi rozkładami normalnymi a priori..... 490 Bibliografia................................................................. 499

Kamil Konikiewicz Rozdział V Data Mining............................................................... 503 1. Wprowadzenie do aplikacji SAS Enterprise Miner............................. 505 2. Opis danych.............................................................. 512 3. Podział danych........................................................... 514 4. Eksploracja danych........................................................ 517 5. Drzewa decyzyjne......................................................... 524 5.1. Postać modelu...................................................... 524 5.2. Budowa modelu.................................................... 525 5.3. Dobór zmiennych i przygotowanie danych............................ 530 5.4. Lasy losowe........................................................ 540 6. Regresja logistyczna....................................................... 541 6.1. Postać modelu...................................................... 541 6.2. Przygotowanie danych.............................................. 542 7. Sieci neuronowe MLP...................................................... 554 7.1. Postać modelu...................................................... 554 7.2. Uczenie sieci....................................................... 556 8. Ocena i wybór modelu..................................................... 562 8.1. Statystyki dopasowania.............................................. 562 8.2. Przepróbkowanie................................................... 567 8.3. Scoring............................................................ 570 Bibliografia................................................................. 570 Ewa Falkiewicz-Szporer, Łukasz Leszewski Rozdział VI Wybrane zagadnienia jakości danych......................................... 573 I. Podstawowe pojęcia....................................................... 574 I.1. Cechy dobrej jakości danych.......................................... 574 I.2. Źródła złej jakości danych........................................... 577 I.3. Etapy tworzenia i transformacji informacji............................. 579 II. Metodologia zarządzania jakością danych................................... 580 III. Filary zarządzania jakością danych........................................ 584 III.1. Tworzenie otoczenia sprzyjającego jakości danych..................... 585 III.2. Rozwiązania organizacyjne......................................... 586 III.3. Zapewnienie standardów w organizacji.............................. 587 III.4. Monitorowanie i mierzenie jakości danych........................... 588 III.5. Rola hurtowni danych............................................. 591 III.6. Technologia i narzędzia........................................... 591

IV. Etapy procesu czyszczenia danych......................................... 593 IV.1. Profilowanie...................................................... 594 IV.2. Czyszczenie danych............................................... 595 IV.3. Integracja danych................................................. 596 IV.4. Wzbogacanie danych.............................................. 597 IV.5. Monitorowanie danych............................................. 597 V. Narzędzia i techniki jakości danych......................................... 598 V.1. DataFlux dfpower Studio............................................ 599 V.2. DataFlux Integration Server......................................... 602 V.3. SAS Data Integration Studio......................................... 603 VI. Standaryzacja danych.................................................... 604 VI.1. Tworzenie schematów standaryzacyjnych............................ 606 VI.2. Definicje standaryzacyjne.......................................... 609 VII. Przykład zastosowania implementacja procesów czyszczenia danych........ 610 VII.1. Profilowanie..................................................... 611 VII.2. Standaryzacja.................................................... 614 VII.3. Integracja danych................................................ 615 VIII. Podsumowanie........................................................ 617 Bibliografia................................................................ 618 Streszczenia Abstractcs.................................................... 619 Biogramy Biograms....................................................... 629

Table of contents Preface................................................................ 21 Monika Książek Chapter I Categorical data analysis................................................... 25 I. Theory.................................................................. 25 I.1. Introduction...................................................... 25 I.2. Unidimentional categorical data analysis............................. 26 I.3. Categorical data dependence analysis................................ 31 I.3.1. Proportions equality test....................................... 32 I.3.2. Dependence measures........................................ 33 I.3.3. Independence tests........................................... 38 I.3.4. Ordinal data tests and measures............................... 40 I.3.5. Stratified categorical data dependence analysis................... 42 I.4. Log-linear models................................................. 45 I.5. Categorical variables as independent variables......................... 47 I.5.1. Categorical variables coding................................... 47 I.5.2. Problems with categorical independent variables................. 50 I.5.3. Categorical independent variables interactions................... 52 I.5.4. Benefits from measurement scale change........................ 53 I.6. Categorical variables as dependent variables.......................... 54 I.6.1. Generalized linear models for categorical variables............... 54 I.6.2. Parameters interpretation..................................... 59 I.6.3. Parameters significance testing................................. 60 I.6.4. Model quality assessment..................................... 61 II. Examples............................................................... 63 II.1. Unidimentional categorical data analysis............................. 68 II.2. Analysis of 2 2 table............................................. 71 II.3. Stratified analysis of 2 2 table..................................... 77 II.4. Log-linear model................................................. 86

II.5. Coding.......................................................... 93 II.6. Binary logistic regression......................................... 101 II.7. Multinomial and ordinal logistic regression......................... 111 II.8. Nonlinear effects inclusion........................................ 120 II.9. Interactions..................................................... 130 Bibliography............................................................. 137 Iga Sikorska Chapter II Latent variable analysis................................................... 139 I. Latent class analysis (LCA)............................................... 139 I.1. Introduction..................................................... 139 I.2. The latent class model............................................. 144 I.2.1. Assumptions................................................ 147 I.2.2. Parameters................................................. 148 I.3. Estimation of latent class models.................................... 149 I.3.1. Estimation in SAS........................................... 153 I.4. Model fit........................................................ 154 I.4.1. Missing data................................................ 161 I.4.2. Parameter restrictions....................................... 162 I.4.3. Model selection............................................. 163 I.4.4. Interpretation of latent classes................................. 165 I.4.5. Homogenity and latent class separation........................ 166 I.5. Latent class model with grouping variables........................... 168 I.6. Latent class model with covariates.................................. 171 I.6.1. Verification of extended latent class model...................... 172 I.7. LCA and LTA procedures.......................................... 173 I.8. Example of latent class model...................................... 176 II. Latent transition analysis (LTA).......................................... 193 II.1. Introduction..................................................... 193 II.2. The latent transition model........................................ 193 II.3. Estimation of latent transition model and model fit................... 198 II.3.1. Missing data............................................... 199 II.3.2. Parameter restrictions....................................... 199 II.4. Latent transition model with grouping variables..................... 202 II.5. Latent transition model with covariates............................ 204 II.6. Example of the latent transition model............................. 206 Bibliography............................................................. 220

Ewa Frątczak, Małgorzata Mianowska Chapter III Mixed models............................................................ 223 I. Theoretical basis........................................................ 223 I.1. Linear mixed model............................................... 228 I.1.1. Introduction................................................ 228 I.1.2. Notation of a linear mixed model.............................. 232 I.1.3. PROC GLM, PROC MIXED and estimation methods............ 238 I.1.4. PROC HPMIXED........................................... 243 I.1.5. Diagnostics and model building strategies..................... 244 I.2. Generalized linear mixed model.................................... 247 I.2.1. Introduction................................................ 247 I.2.2. Notation of a generalized linear mixed model................... 251 I.2.3. PROC GLIMMIX and estimation methods..................... 253 I.3. Nonlinear mixed model........................................... 254 I.3.1. Introduction................................................ 254 I.3.2. Notation of a nonlinear mixed model.......................... 254 I.3.3. PROC NLMIXED and estimation methods..................... 255 I.4. Conclusions...................................................... 257 II. Examples of the mixed models estimation................................. 259 Introduction........................................................ 259 II.1.Example 1. Linear and linear mixed models.......................... 262 II.2. Example 2. Linear mixed model with interaction..................... 301 II.3. Example 3. Hierarchical mixed model.............................. 318 II.4. Example 4. Generalized linear mixed and nonlinear mixed models..... 351 II.5. Example 5. Linear mixed model estimation with Enterprise Guide..... 369 Bibliography............................................................. 378 Appendix 1. Linear mixed model theory.................................... 381 1. Introduction....................................................... 381 2. Matrix Notation................................................... 381 3. Formulation of the Mixed Model..................................... 383 3.1. The General Linear Mixed Model............................... 383 3.2. Conditional and Marginal Distributions......................... 384 3.3. Example: Growth Curve with Compound Symmetry.............. 386 3.4. Example: Split-Plot Design..................................... 388 4. Estimating Parameters, Predicting Random Effects.................... 392 4.1. Estimating β and Predicting u: The Mixed Model Equations........... 392 4.2. Random Effects, Ridging, and Shrinking............................ 394

4.3. It s All in the SWEEP............................................. 396 4.4. Maximum Likelihood and Restricted Maximum Likelihood for Covariance Parameters........................................ 399 5. Statistical Properties.............................................. 405 6. Model Selection.................................................. 407 6.1. Model Comparisons via Likelihood Ratio Tests.................. 408 6.2. Model Comparisons via Information Criteria....................... 409 7. Inference and Test Statistics......................................... 411 7.1. Inference about the Covariance Parameters...................... 411 7.2. Inference about Fixed and Random Effects....................... 412 8. Quoted in Appendix 1 publications................................... 414 Wioletta Grzenda Chapter IV Selected Bayesian estimation issues........................................ 419 I. Elements of the theory of Bayesian statistics............................... 420 I.1. Bayesian methods................................................ 420 I.1.1. Bayes theorem.............................................. 422 I.1.2. Prior distribution............................................ 427 I.1.3. Bayesian inference........................................... 432 I.1.4. Comments on Bayesian methods.............................. 435 I.2. Markov Chain Monte Carlo Methods.............................. 436 I.2.1. The properties of Markov chains............................... 437 I.2.2. Metropolis and Metropolis-Hastings algorithms............... 442 I.2.3. Gibbs sampler.............................................. 444 I.2.4. Adaptive rejection sampling algorithm........................ 445 I.2.5. The selection of the number of Markov chain samples........... 445 I.2.6. The assessment of Markov chain convergence.................. 447 I.2.7. Markov chains convergence tests.............................. 451 II. Examples.............................................................. 459 II.1. Empirical data.................................................. 460 II.2. Bayesian Poisson regression model................................. 461 II.3. Bayesian inference for generalized linear models in SAS.............. 462 II.4. Examples of Bayesian Poisson Regression Models................... 466 II.4.1. Poisson model with non-informative normal prior distributions..... 467 II.4.2. P oisson model with informative normal prior distribution and non-informative normal prior distributions..................... 490 Bibliography............................................................ 499

Kamil Konikiewicz Chapter V Data Mining............................................................. 503 1. Introduction to SAS Enterprise Miner..................................... 505 2. Data description........................................................ 512 3. Data division........................................................... 514 4. Data exploration........................................................ 517 5. Decision trees.......................................................... 524 5.1.Charactermodel................................................... 524 5.2. Model construction............................................... 525 5.3. Selection of variables and data preparation........................... 530 5.4. Random forests................................................. 540 6. Logistic regression...................................................... 541 6.1.Model notation................................................... 541 6.2. Data preparation................................................. 542 7. Neural networks........................................................ 554 7.1.Model notation................................................... 554 7.2.Learningnetwork................................................. 556 8. Model evaluation and selection........................................... 562 8.1.Goodness of fi t statistics........................................... 562 8.2.Resampling...................................................... 567 8.3.Scoring.......................................................... 570 Bibliography............................................................. 570 Ewa Falkiewicz-Szporer, Łukasz Leszewski Chapter VI Selected data quality issues................................................ 573 I. Basic definitions........................................................ 574 I.1. Characteristic of good data quality.................................. 574 I.2. Sources of bad data quality......................................... 577 I.3. Stages of creating and transforming information..................... 579 II. Data quality management methodology................................... 580 III. Pillars of data quality management...................................... 584 III.1. Creating conducive environment for data quality processes........... 585 III.2. Corporate solutions............................................. 586 III.3. Providing standards in organization............................... 587 III.4. Monitoring and data quality measurement......................... 588 III.5. Role of data warehouse........................................... 591 III.6. Technology and tools............................................ 591

IV. Stages of data cleansing process.......................................... 593 IV.1. Profiling........................................................ 594 IV.2. Data cleansing.................................................. 595 IV.3. Data integration................................................. 596 IV.4. Data enrichment................................................ 597 IV.5. Data monitoring................................................ 597 V. Data Quality tools and techniques........................................ 598 V.1. DataFlux dfpower Studio.......................................... 599 V.2. DataFlux Integration Server...................................... 602 V.3. SAS Data Integration Studio....................................... 603 VI. Data standardization.................................................. 604 VI.1. Creating standardization schemes................................ 606 VI.2. Standardization definitions...................................... 609 VII. Case study data quality process implementation......................... 610 VII.1. Profiling....................................................... 611 VII.2. Standardization................................................ 614 VII.3. Data integration................................................ 615 VIII. Summary........................................................... 617 Bibliography............................................................. 618 Chapter s summaries Polish and English version........................... 619 Biograms Polish and English version..................................... 629

Przedmowa E. Demidenko, autor książki Mixed Models Theory and Applications, opublikowanej przez wydawnictwo John Wiley and Sons w 2004 r., we wstępie do niej pisze: Postęp technologiczny zmienia świat, a statystyka nie jest wyjątkiem. Podstawą klasycznej statystyki jest pojęcie próby. Dzisiaj dane są bogatsze: możemy mieć dane zawierające powtórzone pomiary z tysiącami skupień; dane mogą być w postaci kształtów czy obrazów. Książka Mixed Models Theory and Applications jest o analizie statystycznej danych, które stanowią próbę z prób (a sample of samples). Ten nowy wymiar analizy statystycznej określony jako analiza danych, które stanowią próbę z prób, przenosi nas wykładowców i analityków na inny wymiar (poziom) analiz statystycznych w porównaniu z tym, co można zaliczyć do tradycyjnej statystyki stanowiącej przedmiot wykładu ze statystyki (opisowej i matematycznej) w programach nauczania na wielu kierunkach I i II poziomu studiów ekonomicznych. Nazwa zaawansowane metody analiz statystycznych wybrana na tytuł podręcznika oznacza zbiór wybranych metod i technik analitycznych, które stosowane są we współczesnej zaawansowanej analityce biznesowej. Książka powstała na gruncie doświadczeń naukowych i dydaktycznych z ostatnich pięciu lat pracy zespołu osób pracowników Zakładu Analizy Historii Zdarzeń i Analiz Wielopoziomowych Instytutu Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoły Głównej Handlowej w Warszawie i osób współpracujących z Zakładem w realizacji programu nauczania przedmiotów wykładanych w ramach: Certyfikatu Analityk Statystyczny z Systemem SAS ; Specjalności Analizy Statystyczne i Data Mining oraz dwóch Studiów Podyplomowych Analizy Statystyczne i Data Mining w Biznesie oraz Akademia Analityka: Analizy Statystyczne i Data Mining w Biznesie poziom zaawansowany. W ramach czterech oferowanych

Przedmowa programów realizowane są różne zestawy przedmiotów. Szczegółowe informacje znajdzie Czytelnik na stronie Zakładu: www.sgh.waw.pl/zaklady/zahziaw/ odpowiednio w zakładkach: Certyfikat Analityk Statystyczny SAS; Specjalność Analizy statystyczne i data mining ; Studia podyplomowe, w ramach których wykładane są metody i modele stanowiące rozdziały niniejszej książki. Podręcznik został napisany z myślą o naszych studentach, którzy zaufali nam, wybierając nasze oferty, a my zespół naukowo-dydaktyczny realizujemy proces ich kształcenia na miarę wyzwań analitycznych współczesnych czasów oraz czekającej ich (studentów) i nas (nauczycieli akademickich) wyzwań przyszłości. Zaawansowane metody analiz statystycznych przenoszą analizy statystyczne na kolejny wyższy poziom. Określenie tego wyższego poziomu pozostawiamy indywidualnie każdemu Czytelnikowi. Wśród wielu prezentowanych metod i modeli w tym podręczniku są przedstawione modele mieszane przegląd ogólny ich teorii i przykłady aplikacji. Autor cytowanego podręcznika E. Demidenko (op. cit., s. 1) mówi o modelach mieszanych następująco: Mixed model methodology brings statistics to the next level. Każdy z Autorów poszczególnych rozdziałów (biogramy znajdują się w końcowej części podręcznika) ma za sobą doświadczenia praktyczne związane z uczestnictwem w projekcie/projektach, gdzie metody i wiedza teoretyczna były i są weryfikowane w praktyce; są to z reguły projekty w instytucjach bankowych, ubezpieczeniowych, telekomunikacyjnych, resortach państwowych urzędach centralnych, ministerstwach. Żeby nie wymieniać wszystkich projektów, wspomnę o jednym z nich, z którym związani są statystycy i demografowie mianowicie Narodowym Spisie Powszechnym 2011, który realizowany był odmiennie od dotychczasowych spisów i był oparty na nowych technologiach pozyskiwania informacji. W pozyskiwaniu tych informacji wykorzystano liczne dostępne rejestry, w których zagadnienie jakości danych (data quality) było niezwykle ważne. Podręcznik składa się z siedmiu rozdziałów prezentujących różne metody i techniki analityczne. Każdy z rozdziałów stanowi odrębną całość. Struktura każdego z rozdziałów pomyślana została tak, że najpierw przedstawiona jest część teoretyczna opis metody, modeli, kolejno estymacja i weryfikacja, a po opisie teoretycznym przedstawiane są wybrane przykłady zastosowań. Cechą wspólną wszystkich rozdziałów jest to, że zamieszczone w książce przykłady empiryczne (analityczne) przedstawione są w Systemie SAS, który jest naszym zdaniem jedną z najlepszych platform analitycznych z doskonałą dokumentacją naukową i dobrze

Przedmowa sprawdzonymi produktami. SAS jest liderem w branży oprogramowania i narzędzi analitycznych dla zaawansowanych analiz biznesowych, ponadto jest największym dostawcą na rynku business intelligence. Więcej na temat możliwości SAS znajdzie Czytelnik na stronach: http://www.sas.com/ oraz http://www.sas.com/ offices/europe/poland/ Kolejne rozdziały podręcznika przedstawiają następujące zagadnienia: Rozdział I. Analiza zmiennych jakościowych Rozdział II. Analiza klas ukrytych Rozdział III. Modele mieszane Rozdział IV. Wybrane zagadnienia estymacji bayesowskiej Rozdział V. Data Mining Rozdział VI. Jakość danych Na końcu publikacji Czytelnik znajdzie streszczenie kolejnych rozdziałów w wersji polskiej i angielskiej oraz biogramy Autorów poszczególnych rozdziałów. Moim zamierzeniem jako osoby odpowiedzialnej za redakcję i koordynującej pracę nad podręcznikiem było w początkowej fazie prac nad książką włączenie oddzielnego rozdziału poświęconego analizie wielopoziomowej. Tak się stało, że dwa lata temu przetłumaczyłam na język polski podręcznik prof. J.W.R. Twiska Applied Multilevel Analysis. A Practical Guide wydany przez Cambridge University Press w roku 2006. Podręcznik Analiza wielopoziomowa przykłady zastosowań w wersji polskiej został opublikowany przez Oficynę Wydawniczą SGH w roku 2010 i już od dwóch lat wykorzystywany jest w dydaktyce realizowanej przez zespół pracowników Zakładu. Zatem podręcznik J.W.R. Twiska jest źródłem informacji merytorycznych na temat modelowania wielopoziomowego do prowadzonych przez zespół zajęć. Być może w kolejnej edycji podręcznika rozdział poświęcony modelowaniu wielopoziomowemu będzie dołączony. Współautorom podręcznika: Ewie Falkiewicz-Szporer, Wioletcie Grzendzie, Kamilowi Konikiewiczowi, Monice Książek, Łukaszowi Leszewskiemu, Małgorzacie Mianowskiej, Idze Sikorskiej, składam serdeczne podziękowania za trud współpracy zarówno przy pisaniu ksiązki, jak i przy realizacji procesu dydaktycznego oferowanego studentom przez Zakład, którym kieruję. Serdeczne podziękowania składam Pani Julie McAlpine Platt, Editor-in-Chief SAS Press SAS Publishing za wyrażenie zgody na publikację w wersji polskiej załącznika nr 1 z publikacji: SAS for Mixed Models, Second Edition, by Ramon Littell and George Millike, SAS Publishing 2007, który stanowi część rozdziału III niniejszej publikacji.

Przedmowa Na zakończenie składam serdeczne podziękowania dr. Tomaszowi Burzykowskiemu, profesorowi zwyczajnemu biostatystyki i bioinformatyki Uniwersytetu Hasselt (Belgia), za trud życzliwej i zawierającej wiele merytorycznych i porządkujących uwag recenzji, która wpłynęła na ostateczną postać przedkładanej pracy. Mam nadzieję, że publikacja Zaawansowane metody analiz statystycznych, która jest kolejną z serii podręczników napisanych z myślą o wspomaganiu procesu dydaktycznego (więcej o publikacjach na stronie: http://www.sgh.waw.pl/ zaklady/zahziaw/ozakl/publikacje/), posłuży studentom, analitykom oraz pracownikom naukowym. Warszawa, maj 2012 Ewa Frątczak

Preface In the introduction to his book Mixed Models Theory and Applications published by Jon Wiley and Sons in 2004, E. Demidenko, states that: Technological advances change the world, and statistics is no exception. The cornerstone of classical statistics is the notion of sample. Today, data are richer: We may have repeated measurements with thousands of clusters; data may come in the form of shapes or images. The book Mixed Models Theory and Applications is about statistical analysis of data that constitute a sample of samples. This new dimension of statistical analysis described as the analysis of data that comprise a sample of samples moves us lecturers and analysts to higher degree (level) of statistical analyses as compared with traditional statistics (descriptive and mathematical). This is the subject in the curricula in many fields of the I. and II. degrees of economic studies. The term advanced methods of statistical analyses chosen as the textbook title means a set of selected analytical methods and techniques that are used in the contemporary advanced business analytics. The book was based on the five-year scientific and didactic experience of the team of staff of the Event History and Multilevel Analysis Unit of the Institute of Statistics and Demography Collegium of Economic Analyses, Warsaw School of Economics. Also involved were individuals cooperating with the unit in implementation of the curriculum within the framework of: Certificate Statistical Analyst with SAS System ; Specialization Statistical Analyses and Data Mining and two Postgraduate Studies Statistical Analyses and Data Mining in Business and Analytics Academy: Statistical Analyses and Data Mining in Business advanced level. Various sets of courses are car ried out within the framework of the programmes offered. The reader will find detailed information on the unit s website: www.sgh.waw.pl/zaklady/ zahziaw/ respectively under: Statistical Analyst SAS Certificate; Specialization

Statistical Analyses and Data Mining ; postgraduate studies within the framework of which are taught the methods and models that constitute the chapters of this book. The book was written with our students in mind while we the researchdidactic team have taken efforts to provide students with adequate up to date analytical challenges, which will enable them to deal with the challenges they (students) and us (academic teachers) will face in the future. These advanced methods of statistical analyses bring them to the next higher level. We leave the definition of this higher level to each of our readers. Among the meth ods and models presented in this book are inter alia mixed models a general review of their theories and examples of application. The author of the above quoted book, E. Demidenko (op.cit. p. 1) expressed the following opinion con cerning mixed models: Mixed model methodology brings statistics to the next level. Each of the authors of individual chapters (biographical notes are included in the last part of the book) has had practical experience of participating in a project/projects, where methods and theoretical knowledge are verified in prac tice (these are usually projects in banking, insurance, and telecommunication institutions, state branches central offices, and ministries). So as not to mention all the projects, I will highlight only one that the statisticians and demographers are involved in i.e. the National Census on Population and Housing 2011, which was carried out differently to previous censuses, based on new informa tion gathering technologies. The several registers that are available where the issue of data quality was extremely significant were used to obtain this information. The book consists of seven chapters and presents various analytical methods and techniques. Each chapter constitutes an integral part. Each chapter has been structured in such a way that it presents the theory first a description of a method and models, followed by estimation and verification; following this the selected examples of application are presented. The com mon feature of all the chapters is the fact that the empirical (analytical) examples included in the book are presented by using SAS System, which we believe to be one of the best analytical platforms, with excellent scientific documentation and well-proven products. SAS is the leader in the branch of software and analytical tools for advanced business analyses. Moreover, it is the largest supplier on the business intelligence market. The reader can find more information about SAS capacities on the websites: http:// www.sas.com/ and http://www.sas.com/offices/ europe/poland/

The successive chapters of the book present the following topics: Chapter I. Qualitative data analysis Chapter II. Latent variable analysis Chapter III. Mixed models Chapter IV. Selected issues of Bayesian estimation Chapter V. Data Mining Chapter VI. Data quality The reader will find summaries of particular chapters in Polish and English and the biographical notes of the authors of particular chapters. In the initial phase of the project my intention as the individual responsible for the edition and coordination of the project was to include a separate chapter dedicated to multilevel analysis. Two years ego I decided to translate into Polish the book ed ited by J.W R. Twisk Applied Multilevel Analysis. A Practical Guide published by the Cambridge University Press 2006. Another publication by the same author Analiza wielopoziomowa przyklady zastosowań was also translated and has been published by the Printing Office Warsaw School of Economics in 2010 where it has been used for the last two years in the didactic process carried out by the Team of the Unit. These provide the methodological basis on multilevel modeling for the programmes carried out by the team. It is possible that a chapter dedicated to multilevel modeling will be included in the further edition of the current book. I would like to express my sincere gratitude to the co-authors of this book: Ewa Falkiewicz-Szporer, Wioletta Grzenda, Kamil Konikiewicz, Monika Książek, Łukasz Leszewski, Małgorzata Mianowska, Iga Sikorska for their efforts both in writing the book as well as carrying out the didactic process offered to students by the unit of which I am the leader. I would also like to thank very much Ms. Julie McAlpine Platt, Editor-in- Chief, SAS Press. SAS Publishing for giving her consent to publication of the Polish ver sion of the appendix no. 1 from the publication: SAS for Mixed Models, Second Edition, by Ramon Littell and George Millike, SAS Publishing 2007, which com prises a part of Chapter III of this book. Finally, I would like to express my sincere gratitude to Dr Tomasz Burzykowski, Professor of Biostatistics and Bioinformatics at the Hasselt University, Belgium for the efforts he kindly made in providing us with an extensive and thorough review enriched with many methodological and compiling comments which influenced the final form of the presented work.

I sincerely hope that students, analysts and research workers will find the publication Advanced methods of statistical analyses, which is the next one the series of textbooks targeted at facilitating the didactic process useful (more about the publications on website: http://www.sgh.waw.pl/zaklady/zahziaw/ozakl/ publikacje/). Warsaw, May 2012 Ewa Frątczak