Spis treści Przedmowa................................................................ 17 Monika Książek Rozdział I Analiza danych jakościowych................................................. 25 I. Teoria.................................................................... 25 I.1. Wprowadzenie...................................................... 25 I.2. Jednowymiarowa analiza zmiennych jakościowych...................... 26 I.3. Analiza zależności zmiennych jakościowych............................ 31 I.3.1. Test równości proporcji.......................................... 32 I.3.2. Miary zależności............................................... 33 I.3.3. Testy niezależności............................................. 38 I.3.4. Testy i mierniki dla zmiennych porządkowych..................... 40 I.3.5. Analiza zależności dwóch zmiennych jakościowych w warstwach wyznaczanych przez inne zmienne jakościowe......... 42 I.4. Modele log liniowe................................................... 45 I.5. Zmienne jakościowe jako zmienne objaśniające.......................... 47 I.5.1.Kodowanie zmiennych jakościowych.............................. 47 I.5.2. Problemy związane z obecnością zmiennych jakościowych w modelu. 50 I.5.3. Interakcje zmiennych jakościowych............................... 52 I.5.4. Korzyści ze zmiany skali pomiaru zmiennych...................... 53 I.6. Zmienne jakościowe jako zmienne objaśniane........................... 54 I.6.1. Uogólnione modele liniowe dla zmiennych jakościowych............ 54 I.6.2. Interpretacja parametrów....................................... 59 I.6.3. Badanie istotności statystycznej parametrów....................... 60 I.6.4. Ocena jakości dopasowania modelu............................... 61 II. Przykłady................................................................ 63 II.1. Analiza jednowymiarowa............................................ 68 II.2. Analiza tabeli 2 2.................................................. 71 II.3. Analiza tabeli 2 2 w podgrupach.................................... 77 II.4. Model log liniowy.................................................. 86
6 Spis treści II.5. Kodowanie......................................................... 93 II.6. Binarna regresja logistyczna......................................... 101 II.7. Wielomianowa i porządkowa regresja logistyczna...................... 111 II.8. Uwzględnianie wpływów nieliniowych............................... 120 II.9. Interakcje......................................................... 130 Bibliografia................................................................. 137 Iga Sikorska Rozdział II Analiza zmiennych ukrytych................................................ 139 I. Model klas ukrytych (LCA)................................................ 139 I.1. Wprowadzenie..................................................... 139 I.2. Zapis modelu...................................................... 144 I.2.1. Założenia modelu klas ukrytych................................ 147 I.2.2. Parametry modelu klas ukrytych................................ 148 I.3. Estymacja modelu klas ukrytych..................................... 149 I.3.1. Estymacja parametrów w SAS................................... 153 I.4. Weryfikacja modelu klas ukrytych.................................... 154 I.4.1. Braki danych.................................................. 161 I.4.2. Ograniczenia nakładane na parametry........................... 162 I.4.3. Liczba klas ukrytych........................................... 163 I.4.4. Interpretacja klas ukrytych..................................... 165 I.4.5. Homogeniczność i rozróżnialność modeli klas ukrytych............ 166 I.5. Zmienne grupujące w modelu klas ukrytych........................... 168 I.6. Zmienne kontrolne w modelu klas ukrytych........................... 171 I.6.1. Weryfikacja modelu ze zmiennymi kontrolnymi................... 172 I.7. Procedury LCA i LTA............................................... 173 I.8. Przykład modelu klas ukrytych....................................... 176 II. Model stanów ukrytych (LTA)............................................. 193 II.1. Wprowadzenie..................................................... 193 II.2. Zapis modelu...................................................... 193 II.3. Estymacja i weryfikacja modelu stanów ukrytych...................... 198 II.3.1. Braki danych................................................. 199 II.3.2. Ograniczenia nakładane na parametry.......................... 199 II.4. Zmienne grupujące w modelu stanów ukrytych........................ 202 II.5. Zmienne kontrolne w modelu stanów ukrytych........................ 204 II.6. Przykład modelu stanów ukrytych................................... 206 Bibliografia................................................................. 220
Spis treści 7 Ewa Frątczak, Małgorzata Mianowska Rozdział III Modele mieszane........................................................... 223 I. Podstawy teoretyczne..................................................... 223 I.1. Liniowy model mieszany............................................ 228 I.1.1. Wprowadzenie................................................ 228 I.1.2. Zapis liniowego modelu mieszanego............................. 232 I.1.3. PROC GLM i PROC MIXED................................... 238 I.1.4. PROC HPMIXED............................................. 243 I.1.5. Diagnostyka i strategie budowy modelu.......................... 244 I.2. Uogólniony model mieszany......................................... 247 I.2.1. Wprowadzenie................................................ 247 I.2.2. Zapis uogólnionego liniowego modelu mieszanego................ 251 I.2.3. Procedura GLIMMIX i metody estymacji......................... 253 I.3. Nieliniowy model mieszany......................................... 254 I.3.1. Wprowadzenie................................................ 254 I.3.2. Zapis nieliniowego modelu mieszanego.......................... 254 I.3.3. Procedura NLMIXED i metoda estymacji........................ 255 I.4. Podsumowanie.................................................... 257 II. Przykłady estymacji modeli mieszanych..................................... 259 Wprowadzenie......................................................... 259 II.1. Przykład 1 model liniowy i liniowy model mieszany................... 262 II.2. Przykład 2 liniowy model mieszany z interakcją...................... 301 II.3. Przykład 3 model hierarchiczny.................................... 318 II.4. Przykład 4 uogólniony liniowy model mieszany i model nieliniowy.... 351 II.5. Przykład 5 estymacja modelu mieszanego w Enterprise Guide......... 369 Bibliografia................................................................ 378 Załącznik 1. Teoria liniowych modeli mieszanych............................. 381 1. Wprowadzenie....................................................... 381 2. Zapis macierzowy.................................................... 381 3. Określenie postaci modeli mieszanych.................................. 383 3.1. Ogólna postać liniowego modelu mieszanego....................... 383 3.2. Rozkłady warunkowe i brzegowe................................. 384 3.3. Przykład: Krzywa wzrostu z symetryczną strukturą kowariancji...... 386 3.4. Przykład: Układ podzielonych poletek (Split-Plot Design)............ 388 4. Estymacja parametrów, predykcja efektów losowych..................... 392 4.1. Estymacja β i prognoza u: równania modelu mieszanego............. 392 4.2. Efekty losowe, grzbietowe oraz kurczenie.......................... 394
8 Spis treści 4.3. Wszystko o metodzie SWEEP.................................... 396 4.4. Największa wiarygodność i ograniczona największa wiarygodność dla parametrów kowariancji........................ 399 5. Własności statystyczne............................................... 405 6. Wybór postaci modelu................................................ 407 6.1. Porównania modeli z wykorzystaniem testów ilorazu wiarygodności........................................... 408 6.2. Porównania modeli z wykorzystaniem kryteriów informacyjnych.... 409 7. Wnioskowanie i statystyki testujące.................................... 411 7.1. Wnioskowanie o parametrach kowariancji......................... 411 7.2. Wnioskowanie o efektach stałych i losowych....................... 412 8. Prace cytowane w załączniku......................................... 414 Wioletta Grzenda Rozdział IV Wybrane zagadnienia estymacji bayesowskiej................................. 419 I. Elementy teorii statystyki bayesowskiej...................................... 420 I.1. Metody bayesowskie................................................. 420 I.1.1. Twierdzenie Bayesa............................................ 422 I.1.2. Rozkłady a priori.............................................. 427 I.1.3. Wnioskowanie bayesowskie..................................... 432 I.1.4. Uwagi ogólne dotyczące metod bayesowskich..................... 435 I.2. Metody Monte Carlo oparte na łańcuchach Markowa................... 436 I.2.1. Wybrane własności łańcuchów Markowa......................... 437 I.2.2. Algorytm Metropolisa i algorytm Metropolisa Hastingsa.......... 442 I.2.3. Próbnik Gibbsa............................................... 444 I.2.4. Algorytm próbkowania adaptacyjnego z odrzucaniem............. 445 I.2.5. Zagadnienia dotyczące wyboru realizacji łańcucha Markowa........ 445 I.2.6. Ocena zbieżności łańcuchów Markowa........................... 447 I.2.7. Testy zbieżności łańcuchów Markowa............................ 451 II. Przykłady zastosowań.................................................... 459 II.1 Materiał empiryczny................................................ 460 II.2. Model regresji Poissona w ujęciu bayesowskim......................... 461 II.3. Bayesowska estymacja uogólnionych modeli liniowych w systemie SAS... 462 II.4. Przykłady bayesowskiej estymacji modeli regresji Poissona.............. 466 II.4.1. Model Poissona z nieinformacyjnymi rozkładami normalnymi a priori.......................................... 467 II.4.2. Model Poissona z informacyjnym rozkładem normalnym a priori i nieinformacyjnymi rozkładami normalnymi a priori..... 490 Bibliografia................................................................. 499
Spis treści 9 Kamil Konikiewicz Rozdział V Data Mining............................................................... 503 1. Wprowadzenie do aplikacji SAS Enterprise Miner............................. 505 2. Opis danych.............................................................. 512 3. Podział danych........................................................... 514 4. Eksploracja danych........................................................ 517 5. Drzewa decyzyjne......................................................... 524 5.1. Postać modelu...................................................... 524 5.2. Budowa modelu.................................................... 525 5.3. Dobór zmiennych i przygotowanie danych............................ 530 5.4. Lasy losowe........................................................ 540 6. Regresja logistyczna....................................................... 541 6.1. Postać modelu...................................................... 541 6.2. Przygotowanie danych.............................................. 542 7. Sieci neuronowe MLP...................................................... 554 7.1. Postać modelu...................................................... 554 7.2. Uczenie sieci....................................................... 556 8. Ocena i wybór modelu..................................................... 562 8.1. Statystyki dopasowania.............................................. 562 8.2. Przepróbkowanie................................................... 567 8.3. Scoring............................................................ 570 Bibliografia................................................................. 570 Ewa Falkiewicz-Szporer, Łukasz Leszewski Rozdział VI Wybrane zagadnienia jakości danych......................................... 573 I. Podstawowe pojęcia....................................................... 574 I.1. Cechy dobrej jakości danych.......................................... 574 I.2. Źródła złej jakości danych........................................... 577 I.3. Etapy tworzenia i transformacji informacji............................. 579 II. Metodologia zarządzania jakością danych................................... 580 III. Filary zarządzania jakością danych........................................ 584 III.1. Tworzenie otoczenia sprzyjającego jakości danych..................... 585 III.2. Rozwiązania organizacyjne......................................... 586 III.3. Zapewnienie standardów w organizacji.............................. 587 III.4. Monitorowanie i mierzenie jakości danych........................... 588 III.5. Rola hurtowni danych............................................. 591 III.6. Technologia i narzędzia........................................... 591
10 Spis treści IV. Etapy procesu czyszczenia danych......................................... 593 IV.1. Profilowanie...................................................... 594 IV.2. Czyszczenie danych............................................... 595 IV.3. Integracja danych................................................. 596 IV.4. Wzbogacanie danych.............................................. 597 IV.5. Monitorowanie danych............................................. 597 V. Narzędzia i techniki jakości danych......................................... 598 V.1. DataFlux dfpower Studio............................................ 599 V.2. DataFlux Integration Server......................................... 602 V.3. SAS Data Integration Studio......................................... 603 VI. Standaryzacja danych.................................................... 604 VI.1. Tworzenie schematów standaryzacyjnych............................ 606 VI.2. Definicje standaryzacyjne.......................................... 609 VII. Przykład zastosowania implementacja procesów czyszczenia danych........ 610 VII.1. Profilowanie..................................................... 611 VII.2. Standaryzacja.................................................... 614 VII.3. Integracja danych................................................ 615 VIII. Podsumowanie........................................................ 617 Bibliografia................................................................ 618 Streszczenia Abstractcs.................................................... 619 Biogramy Biograms....................................................... 629
Table of contents Preface................................................................ 21 Monika Książek Chapter I Categorical data analysis................................................... 25 I. Theory.................................................................. 25 I.1. Introduction...................................................... 25 I.2. Unidimentional categorical data analysis............................. 26 I.3. Categorical data dependence analysis................................ 31 I.3.1. Proportions equality test....................................... 32 I.3.2. Dependence measures........................................ 33 I.3.3. Independence tests........................................... 38 I.3.4. Ordinal data tests and measures............................... 40 I.3.5. Stratified categorical data dependence analysis................... 42 I.4. Log-linear models................................................. 45 I.5. Categorical variables as independent variables......................... 47 I.5.1. Categorical variables coding................................... 47 I.5.2. Problems with categorical independent variables................. 50 I.5.3. Categorical independent variables interactions................... 52 I.5.4. Benefits from measurement scale change........................ 53 I.6. Categorical variables as dependent variables.......................... 54 I.6.1. Generalized linear models for categorical variables............... 54 I.6.2. Parameters interpretation..................................... 59 I.6.3. Parameters significance testing................................. 60 I.6.4. Model quality assessment..................................... 61 II. Examples............................................................... 63 II.1. Unidimentional categorical data analysis............................. 68 II.2. Analysis of 2 2 table............................................. 71 II.3. Stratified analysis of 2 2 table..................................... 77 II.4. Log-linear model................................................. 86
12 Table of contents II.5. Coding.......................................................... 93 II.6. Binary logistic regression......................................... 101 II.7. Multinomial and ordinal logistic regression......................... 111 II.8. Nonlinear effects inclusion........................................ 120 II.9. Interactions..................................................... 130 Bibliography............................................................. 137 Iga Sikorska Chapter II Latent variable analysis................................................... 139 I. Latent class analysis (LCA)............................................... 139 I.1. Introduction..................................................... 139 I.2. The latent class model............................................. 144 I.2.1. Assumptions................................................ 147 I.2.2. Parameters................................................. 148 I.3. Estimation of latent class models.................................... 149 I.3.1. Estimation in SAS........................................... 153 I.4. Model fit........................................................ 154 I.4.1. Missing data................................................ 161 I.4.2. Parameter restrictions....................................... 162 I.4.3. Model selection............................................. 163 I.4.4. Interpretation of latent classes................................. 165 I.4.5. Homogenity and latent class separation........................ 166 I.5. Latent class model with grouping variables........................... 168 I.6. Latent class model with covariates.................................. 171 I.6.1. Verification of extended latent class model...................... 172 I.7. LCA and LTA procedures.......................................... 173 I.8. Example of latent class model...................................... 176 II. Latent transition analysis (LTA).......................................... 193 II.1. Introduction..................................................... 193 II.2. The latent transition model........................................ 193 II.3. Estimation of latent transition model and model fit................... 198 II.3.1. Missing data............................................... 199 II.3.2. Parameter restrictions....................................... 199 II.4. Latent transition model with grouping variables..................... 202 II.5. Latent transition model with covariates............................ 204 II.6. Example of the latent transition model............................. 206 Bibliography............................................................. 220
Table of contents 13 Ewa Frątczak, Małgorzata Mianowska Chapter III Mixed models............................................................ 223 I. Theoretical basis........................................................ 223 I.1. Linear mixed model............................................... 228 I.1.1. Introduction................................................ 228 I.1.2. Notation of a linear mixed model.............................. 232 I.1.3. PROC GLM, PROC MIXED and estimation methods............ 238 I.1.4. PROC HPMIXED........................................... 243 I.1.5. Diagnostics and model building strategies..................... 244 I.2. Generalized linear mixed model.................................... 247 I.2.1. Introduction................................................ 247 I.2.2. Notation of a generalized linear mixed model................... 251 I.2.3. PROC GLIMMIX and estimation methods..................... 253 I.3. Nonlinear mixed model........................................... 254 I.3.1. Introduction................................................ 254 I.3.2. Notation of a nonlinear mixed model.......................... 254 I.3.3. PROC NLMIXED and estimation methods..................... 255 I.4. Conclusions...................................................... 257 II. Examples of the mixed models estimation................................. 259 Introduction........................................................ 259 II.1.Example 1. Linear and linear mixed models.......................... 262 II.2. Example 2. Linear mixed model with interaction..................... 301 II.3. Example 3. Hierarchical mixed model.............................. 318 II.4. Example 4. Generalized linear mixed and nonlinear mixed models..... 351 II.5. Example 5. Linear mixed model estimation with Enterprise Guide..... 369 Bibliography............................................................. 378 Appendix 1. Linear mixed model theory.................................... 381 1. Introduction....................................................... 381 2. Matrix Notation................................................... 381 3. Formulation of the Mixed Model..................................... 383 3.1. The General Linear Mixed Model............................... 383 3.2. Conditional and Marginal Distributions......................... 384 3.3. Example: Growth Curve with Compound Symmetry.............. 386 3.4. Example: Split-Plot Design..................................... 388 4. Estimating Parameters, Predicting Random Effects.................... 392 4.1. Estimating β and Predicting u: The Mixed Model Equations........... 392 4.2. Random Effects, Ridging, and Shrinking............................ 394
14 Table of contents 4.3. It s All in the SWEEP............................................. 396 4.4. Maximum Likelihood and Restricted Maximum Likelihood for Covariance Parameters........................................ 399 5. Statistical Properties.............................................. 405 6. Model Selection.................................................. 407 6.1. Model Comparisons via Likelihood Ratio Tests.................. 408 6.2. Model Comparisons via Information Criteria....................... 409 7. Inference and Test Statistics......................................... 411 7.1. Inference about the Covariance Parameters...................... 411 7.2. Inference about Fixed and Random Effects....................... 412 8. Quoted in Appendix 1 publications................................... 414 Wioletta Grzenda Chapter IV Selected Bayesian estimation issues........................................ 419 I. Elements of the theory of Bayesian statistics............................... 420 I.1. Bayesian methods................................................ 420 I.1.1. Bayes theorem.............................................. 422 I.1.2. Prior distribution............................................ 427 I.1.3. Bayesian inference........................................... 432 I.1.4. Comments on Bayesian methods.............................. 435 I.2. Markov Chain Monte Carlo Methods.............................. 436 I.2.1. The properties of Markov chains............................... 437 I.2.2. Metropolis and Metropolis-Hastings algorithms............... 442 I.2.3. Gibbs sampler.............................................. 444 I.2.4. Adaptive rejection sampling algorithm........................ 445 I.2.5. The selection of the number of Markov chain samples........... 445 I.2.6. The assessment of Markov chain convergence.................. 447 I.2.7. Markov chains convergence tests.............................. 451 II. Examples.............................................................. 459 II.1. Empirical data.................................................. 460 II.2. Bayesian Poisson regression model................................. 461 II.3. Bayesian inference for generalized linear models in SAS.............. 462 II.4. Examples of Bayesian Poisson Regression Models................... 466 II.4.1. Poisson model with non-informative normal prior distributions..... 467 II.4.2. P oisson model with informative normal prior distribution and non-informative normal prior distributions..................... 490 Bibliography............................................................ 499
Table of contents 15 Kamil Konikiewicz Chapter V Data Mining............................................................. 503 1. Introduction to SAS Enterprise Miner..................................... 505 2. Data description........................................................ 512 3. Data division........................................................... 514 4. Data exploration........................................................ 517 5. Decision trees.......................................................... 524 5.1.Charactermodel................................................... 524 5.2. Model construction............................................... 525 5.3. Selection of variables and data preparation........................... 530 5.4. Random forests................................................. 540 6. Logistic regression...................................................... 541 6.1.Model notation................................................... 541 6.2. Data preparation................................................. 542 7. Neural networks........................................................ 554 7.1.Model notation................................................... 554 7.2.Learningnetwork................................................. 556 8. Model evaluation and selection........................................... 562 8.1.Goodness of fi t statistics........................................... 562 8.2.Resampling...................................................... 567 8.3.Scoring.......................................................... 570 Bibliography............................................................. 570 Ewa Falkiewicz-Szporer, Łukasz Leszewski Chapter VI Selected data quality issues................................................ 573 I. Basic definitions........................................................ 574 I.1. Characteristic of good data quality.................................. 574 I.2. Sources of bad data quality......................................... 577 I.3. Stages of creating and transforming information..................... 579 II. Data quality management methodology................................... 580 III. Pillars of data quality management...................................... 584 III.1. Creating conducive environment for data quality processes........... 585 III.2. Corporate solutions............................................. 586 III.3. Providing standards in organization............................... 587 III.4. Monitoring and data quality measurement......................... 588 III.5. Role of data warehouse........................................... 591 III.6. Technology and tools............................................ 591
16 Table of contents IV. Stages of data cleansing process.......................................... 593 IV.1. Profiling........................................................ 594 IV.2. Data cleansing.................................................. 595 IV.3. Data integration................................................. 596 IV.4. Data enrichment................................................ 597 IV.5. Data monitoring................................................ 597 V. Data Quality tools and techniques........................................ 598 V.1. DataFlux dfpower Studio.......................................... 599 V.2. DataFlux Integration Server...................................... 602 V.3. SAS Data Integration Studio....................................... 603 VI. Data standardization.................................................. 604 VI.1. Creating standardization schemes................................ 606 VI.2. Standardization definitions...................................... 609 VII. Case study data quality process implementation......................... 610 VII.1. Profiling....................................................... 611 VII.2. Standardization................................................ 614 VII.3. Data integration................................................ 615 VIII. Summary........................................................... 617 Bibliography............................................................. 618 Chapter s summaries Polish and English version........................... 619 Biograms Polish and English version..................................... 629