Spis treści. Przedmowa Monika Książek Rozdział I Analiza danych jakościowych... 25

Podobne dokumenty
ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

Zaawansowane metody analiz statystycznych

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

ZAWANSOWANE METODY ANALIZ STATYSTYCZNYCH ADVANCED STATISTICAL ANALYSIS METHODS. Część A

Spis treści. Wprowadzenie 13

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Szkolenia SAS Cennik i kalendarz 2017

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Inverse problems - Introduction - Probabilistic approach

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Regresja logistyczna z wykorzystaniem narzędzi SAS Logistic Regression with SAS

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

ANALIZA HISTORII ZDARZEŃ - ELEMENTY TEORII, WYBRANE PRZYKŁADY ZASTOSOWAŃ Z WYKORZYSTANIEM PAKIETU TDA

PAKIETY STATYSTYCZNE

Probabilistic Methods and Statistics. Computer Science 1 st degree (1st degree / 2nd degree) General (general / practical)

STATISTICAL METHODS IN BIOLOGY

strona 1 / 12 Autor: Walesiak Marek Publikacje:

4. EKSPLOATACJA UKŁADU NAPĘD ZWROTNICOWY ROZJAZD. DEFINICJA SIŁ W UKŁADZIE Siła nastawcza Siła trzymania

Zaliczenie na ocenę 0,5 0,5

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

SPOTKANIE 3: Regresja: Regresja liniowa

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Cena netto (PLN) IV kwartał. Cena netto (PLN) Podstawy SAS INTRO

Spis treści 3 SPIS TREŚCI

Wydział Inżynierii Produkcji i Logistyki Faculty of Production Engineering and Logistics

5.3. Analiza maskowania przez kompaktory IED-MISR oraz IET-MISR wybranych uszkodzeń sieci połączeń Podsumowanie rozdziału

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Stanisław Cichocki. Natalia Nehrebecka

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Maciej Zastempowski. Uwarunkowania budowy potencja u innowacyjnego polskich ma ych i rednich przedsi biorstw

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

IDENTYFIKACJA I ANALIZA PARAMETRÓW GEOMETRYCZNYCH I MECHANICZNYCH KOŚCI MIEDNICZNEJ CZŁOWIEKA

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Instrumenty i efekty wsparcia Unii Europejskiej dla regionalnego rozwoju obszarów wiejskich w Polsce

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Ekonometryczne modele nieliniowe

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Materiałowe i technologiczne uwarunkowania stanu naprężeń własnych i anizotropii wtórnej powłok cylindrycznych wytłaczanych z polietylenu

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Stanisław Cichocki. Natalia Nehrebecka

Quick Launch Manual:

UWAGI O TESTACH JARQUE A-BERA

PRZEWODNIK PO PRZEDMIOCIE

Opisy przedmiotów do wyboru

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

(LMP-Liniowy model prawdopodobieństwa)

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

PLAN STUDIÓW Wydział Elektroniki, Telekomunikacji i Informatyki, Wydział Zarządzania i Ekonomii Inżynieria danych

Instytucje gospodarki rynkowej w Polsce

Stanisław Cichocki. Natalia Nehrebecka

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Barbara Adamczyk. Dzieci ulicy. w Polsce i na świecie. Definicja. typologia etiologia

advanced analytics Statistical Business Analyst Certification Modele statystyczne część I: MST1-2 dni Zastosowanie i techniki segmentacji SEG - 2 dni

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Conference programme

Projektowanie (design) Eurostat

Auditorium classes. Lectures

Dodatek 3 Oprogramowanie przeznaczone do analizy IRT

Imputacja brakujacych danych binarnych w modelu autologistycznym 1

STATYSTYKA MATEMATYCZNA

PRZEWODNIK PO PRZEDMIOCIE. Negotiation techniques. Management. Stationary. II degree

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Własności estymatorów regresji porządkowej z karą LASSO

NOWY PROGRAM STUDIÓW 2016/2017 SYLABUS PRZEDMIOTU AUTORSKIEGO: Wprowadzenie do teorii ekonometrii. Część A

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Eksploracja danych mikromacierzowych sieci Bayesa. Inżynieria Danych, 30 listopada 2009, Tomasz Kułaga

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Metody systemowe i decyzyjne w informatyce

Spis treści. Wprowadzenie... 13

Własności statystyczne regresji liniowej. Wykład 4

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

strona 1 / 5 Specjalizacja: B4. Analiza kointegracyjna Publikacje:

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

PŁODNOŚĆ I MAŁZENSKOSC W POLSCE - analiza kohortowa: kohorty urodzeniowe

Algorytm Metropolisa-Hastingsa

Uogolnione modele liniowe

Rozdział 1. Modele regresji przestrzennej zmiennych ukrytych i ograniczonych

Maximum A Posteriori Chris Piech CS109, Stanford University

Porównanie skuteczności sieci MLP z regresją liniową na przykładzie danych epidemiologicznych

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Czesław Domański* MOC TESTÓW LOSOWOŚCI OPARTYCH NA LICZBIE SERII WIELOKROTNYCH

OCENA MOśLIWOŚCI WYKORZYSTANIA HODOWLI ŚWIŃ RASY ZŁOTNICKIEJ

Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem przedsięwzięcia z wykorzystaniem metod sieciowych PERT i CPM

tum.de/fall2018/ in2357

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

Wprowadzenie do uczenia maszynowego. Jakub Tomczak

Leszek Klank. Sukcesja gospodarstw rolnych w Polsce

ANALIZA PłODNOŚCI KOBIET W POLSCE Z WYKORZYSTANIEM BAYESOWSKIEGO MODELU REGRESJI POISSONA 1 1. WSTĘP

PRZEWODNIK PO DOBREJ PRAKTYCE EKSPERYMENTALNEJ. Maria Kozłowska

Transkrypt:

Spis treści Przedmowa................................................................ 17 Monika Książek Rozdział I Analiza danych jakościowych................................................. 25 I. Teoria.................................................................... 25 I.1. Wprowadzenie...................................................... 25 I.2. Jednowymiarowa analiza zmiennych jakościowych...................... 26 I.3. Analiza zależności zmiennych jakościowych............................ 31 I.3.1. Test równości proporcji.......................................... 32 I.3.2. Miary zależności............................................... 33 I.3.3. Testy niezależności............................................. 38 I.3.4. Testy i mierniki dla zmiennych porządkowych..................... 40 I.3.5. Analiza zależności dwóch zmiennych jakościowych w warstwach wyznaczanych przez inne zmienne jakościowe......... 42 I.4. Modele log liniowe................................................... 45 I.5. Zmienne jakościowe jako zmienne objaśniające.......................... 47 I.5.1.Kodowanie zmiennych jakościowych.............................. 47 I.5.2. Problemy związane z obecnością zmiennych jakościowych w modelu. 50 I.5.3. Interakcje zmiennych jakościowych............................... 52 I.5.4. Korzyści ze zmiany skali pomiaru zmiennych...................... 53 I.6. Zmienne jakościowe jako zmienne objaśniane........................... 54 I.6.1. Uogólnione modele liniowe dla zmiennych jakościowych............ 54 I.6.2. Interpretacja parametrów....................................... 59 I.6.3. Badanie istotności statystycznej parametrów....................... 60 I.6.4. Ocena jakości dopasowania modelu............................... 61 II. Przykłady................................................................ 63 II.1. Analiza jednowymiarowa............................................ 68 II.2. Analiza tabeli 2 2.................................................. 71 II.3. Analiza tabeli 2 2 w podgrupach.................................... 77 II.4. Model log liniowy.................................................. 86

6 Spis treści II.5. Kodowanie......................................................... 93 II.6. Binarna regresja logistyczna......................................... 101 II.7. Wielomianowa i porządkowa regresja logistyczna...................... 111 II.8. Uwzględnianie wpływów nieliniowych............................... 120 II.9. Interakcje......................................................... 130 Bibliografia................................................................. 137 Iga Sikorska Rozdział II Analiza zmiennych ukrytych................................................ 139 I. Model klas ukrytych (LCA)................................................ 139 I.1. Wprowadzenie..................................................... 139 I.2. Zapis modelu...................................................... 144 I.2.1. Założenia modelu klas ukrytych................................ 147 I.2.2. Parametry modelu klas ukrytych................................ 148 I.3. Estymacja modelu klas ukrytych..................................... 149 I.3.1. Estymacja parametrów w SAS................................... 153 I.4. Weryfikacja modelu klas ukrytych.................................... 154 I.4.1. Braki danych.................................................. 161 I.4.2. Ograniczenia nakładane na parametry........................... 162 I.4.3. Liczba klas ukrytych........................................... 163 I.4.4. Interpretacja klas ukrytych..................................... 165 I.4.5. Homogeniczność i rozróżnialność modeli klas ukrytych............ 166 I.5. Zmienne grupujące w modelu klas ukrytych........................... 168 I.6. Zmienne kontrolne w modelu klas ukrytych........................... 171 I.6.1. Weryfikacja modelu ze zmiennymi kontrolnymi................... 172 I.7. Procedury LCA i LTA............................................... 173 I.8. Przykład modelu klas ukrytych....................................... 176 II. Model stanów ukrytych (LTA)............................................. 193 II.1. Wprowadzenie..................................................... 193 II.2. Zapis modelu...................................................... 193 II.3. Estymacja i weryfikacja modelu stanów ukrytych...................... 198 II.3.1. Braki danych................................................. 199 II.3.2. Ograniczenia nakładane na parametry.......................... 199 II.4. Zmienne grupujące w modelu stanów ukrytych........................ 202 II.5. Zmienne kontrolne w modelu stanów ukrytych........................ 204 II.6. Przykład modelu stanów ukrytych................................... 206 Bibliografia................................................................. 220

Spis treści 7 Ewa Frątczak, Małgorzata Mianowska Rozdział III Modele mieszane........................................................... 223 I. Podstawy teoretyczne..................................................... 223 I.1. Liniowy model mieszany............................................ 228 I.1.1. Wprowadzenie................................................ 228 I.1.2. Zapis liniowego modelu mieszanego............................. 232 I.1.3. PROC GLM i PROC MIXED................................... 238 I.1.4. PROC HPMIXED............................................. 243 I.1.5. Diagnostyka i strategie budowy modelu.......................... 244 I.2. Uogólniony model mieszany......................................... 247 I.2.1. Wprowadzenie................................................ 247 I.2.2. Zapis uogólnionego liniowego modelu mieszanego................ 251 I.2.3. Procedura GLIMMIX i metody estymacji......................... 253 I.3. Nieliniowy model mieszany......................................... 254 I.3.1. Wprowadzenie................................................ 254 I.3.2. Zapis nieliniowego modelu mieszanego.......................... 254 I.3.3. Procedura NLMIXED i metoda estymacji........................ 255 I.4. Podsumowanie.................................................... 257 II. Przykłady estymacji modeli mieszanych..................................... 259 Wprowadzenie......................................................... 259 II.1. Przykład 1 model liniowy i liniowy model mieszany................... 262 II.2. Przykład 2 liniowy model mieszany z interakcją...................... 301 II.3. Przykład 3 model hierarchiczny.................................... 318 II.4. Przykład 4 uogólniony liniowy model mieszany i model nieliniowy.... 351 II.5. Przykład 5 estymacja modelu mieszanego w Enterprise Guide......... 369 Bibliografia................................................................ 378 Załącznik 1. Teoria liniowych modeli mieszanych............................. 381 1. Wprowadzenie....................................................... 381 2. Zapis macierzowy.................................................... 381 3. Określenie postaci modeli mieszanych.................................. 383 3.1. Ogólna postać liniowego modelu mieszanego....................... 383 3.2. Rozkłady warunkowe i brzegowe................................. 384 3.3. Przykład: Krzywa wzrostu z symetryczną strukturą kowariancji...... 386 3.4. Przykład: Układ podzielonych poletek (Split-Plot Design)............ 388 4. Estymacja parametrów, predykcja efektów losowych..................... 392 4.1. Estymacja β i prognoza u: równania modelu mieszanego............. 392 4.2. Efekty losowe, grzbietowe oraz kurczenie.......................... 394

8 Spis treści 4.3. Wszystko o metodzie SWEEP.................................... 396 4.4. Największa wiarygodność i ograniczona największa wiarygodność dla parametrów kowariancji........................ 399 5. Własności statystyczne............................................... 405 6. Wybór postaci modelu................................................ 407 6.1. Porównania modeli z wykorzystaniem testów ilorazu wiarygodności........................................... 408 6.2. Porównania modeli z wykorzystaniem kryteriów informacyjnych.... 409 7. Wnioskowanie i statystyki testujące.................................... 411 7.1. Wnioskowanie o parametrach kowariancji......................... 411 7.2. Wnioskowanie o efektach stałych i losowych....................... 412 8. Prace cytowane w załączniku......................................... 414 Wioletta Grzenda Rozdział IV Wybrane zagadnienia estymacji bayesowskiej................................. 419 I. Elementy teorii statystyki bayesowskiej...................................... 420 I.1. Metody bayesowskie................................................. 420 I.1.1. Twierdzenie Bayesa............................................ 422 I.1.2. Rozkłady a priori.............................................. 427 I.1.3. Wnioskowanie bayesowskie..................................... 432 I.1.4. Uwagi ogólne dotyczące metod bayesowskich..................... 435 I.2. Metody Monte Carlo oparte na łańcuchach Markowa................... 436 I.2.1. Wybrane własności łańcuchów Markowa......................... 437 I.2.2. Algorytm Metropolisa i algorytm Metropolisa Hastingsa.......... 442 I.2.3. Próbnik Gibbsa............................................... 444 I.2.4. Algorytm próbkowania adaptacyjnego z odrzucaniem............. 445 I.2.5. Zagadnienia dotyczące wyboru realizacji łańcucha Markowa........ 445 I.2.6. Ocena zbieżności łańcuchów Markowa........................... 447 I.2.7. Testy zbieżności łańcuchów Markowa............................ 451 II. Przykłady zastosowań.................................................... 459 II.1 Materiał empiryczny................................................ 460 II.2. Model regresji Poissona w ujęciu bayesowskim......................... 461 II.3. Bayesowska estymacja uogólnionych modeli liniowych w systemie SAS... 462 II.4. Przykłady bayesowskiej estymacji modeli regresji Poissona.............. 466 II.4.1. Model Poissona z nieinformacyjnymi rozkładami normalnymi a priori.......................................... 467 II.4.2. Model Poissona z informacyjnym rozkładem normalnym a priori i nieinformacyjnymi rozkładami normalnymi a priori..... 490 Bibliografia................................................................. 499

Spis treści 9 Kamil Konikiewicz Rozdział V Data Mining............................................................... 503 1. Wprowadzenie do aplikacji SAS Enterprise Miner............................. 505 2. Opis danych.............................................................. 512 3. Podział danych........................................................... 514 4. Eksploracja danych........................................................ 517 5. Drzewa decyzyjne......................................................... 524 5.1. Postać modelu...................................................... 524 5.2. Budowa modelu.................................................... 525 5.3. Dobór zmiennych i przygotowanie danych............................ 530 5.4. Lasy losowe........................................................ 540 6. Regresja logistyczna....................................................... 541 6.1. Postać modelu...................................................... 541 6.2. Przygotowanie danych.............................................. 542 7. Sieci neuronowe MLP...................................................... 554 7.1. Postać modelu...................................................... 554 7.2. Uczenie sieci....................................................... 556 8. Ocena i wybór modelu..................................................... 562 8.1. Statystyki dopasowania.............................................. 562 8.2. Przepróbkowanie................................................... 567 8.3. Scoring............................................................ 570 Bibliografia................................................................. 570 Ewa Falkiewicz-Szporer, Łukasz Leszewski Rozdział VI Wybrane zagadnienia jakości danych......................................... 573 I. Podstawowe pojęcia....................................................... 574 I.1. Cechy dobrej jakości danych.......................................... 574 I.2. Źródła złej jakości danych........................................... 577 I.3. Etapy tworzenia i transformacji informacji............................. 579 II. Metodologia zarządzania jakością danych................................... 580 III. Filary zarządzania jakością danych........................................ 584 III.1. Tworzenie otoczenia sprzyjającego jakości danych..................... 585 III.2. Rozwiązania organizacyjne......................................... 586 III.3. Zapewnienie standardów w organizacji.............................. 587 III.4. Monitorowanie i mierzenie jakości danych........................... 588 III.5. Rola hurtowni danych............................................. 591 III.6. Technologia i narzędzia........................................... 591

10 Spis treści IV. Etapy procesu czyszczenia danych......................................... 593 IV.1. Profilowanie...................................................... 594 IV.2. Czyszczenie danych............................................... 595 IV.3. Integracja danych................................................. 596 IV.4. Wzbogacanie danych.............................................. 597 IV.5. Monitorowanie danych............................................. 597 V. Narzędzia i techniki jakości danych......................................... 598 V.1. DataFlux dfpower Studio............................................ 599 V.2. DataFlux Integration Server......................................... 602 V.3. SAS Data Integration Studio......................................... 603 VI. Standaryzacja danych.................................................... 604 VI.1. Tworzenie schematów standaryzacyjnych............................ 606 VI.2. Definicje standaryzacyjne.......................................... 609 VII. Przykład zastosowania implementacja procesów czyszczenia danych........ 610 VII.1. Profilowanie..................................................... 611 VII.2. Standaryzacja.................................................... 614 VII.3. Integracja danych................................................ 615 VIII. Podsumowanie........................................................ 617 Bibliografia................................................................ 618 Streszczenia Abstractcs.................................................... 619 Biogramy Biograms....................................................... 629

Table of contents Preface................................................................ 21 Monika Książek Chapter I Categorical data analysis................................................... 25 I. Theory.................................................................. 25 I.1. Introduction...................................................... 25 I.2. Unidimentional categorical data analysis............................. 26 I.3. Categorical data dependence analysis................................ 31 I.3.1. Proportions equality test....................................... 32 I.3.2. Dependence measures........................................ 33 I.3.3. Independence tests........................................... 38 I.3.4. Ordinal data tests and measures............................... 40 I.3.5. Stratified categorical data dependence analysis................... 42 I.4. Log-linear models................................................. 45 I.5. Categorical variables as independent variables......................... 47 I.5.1. Categorical variables coding................................... 47 I.5.2. Problems with categorical independent variables................. 50 I.5.3. Categorical independent variables interactions................... 52 I.5.4. Benefits from measurement scale change........................ 53 I.6. Categorical variables as dependent variables.......................... 54 I.6.1. Generalized linear models for categorical variables............... 54 I.6.2. Parameters interpretation..................................... 59 I.6.3. Parameters significance testing................................. 60 I.6.4. Model quality assessment..................................... 61 II. Examples............................................................... 63 II.1. Unidimentional categorical data analysis............................. 68 II.2. Analysis of 2 2 table............................................. 71 II.3. Stratified analysis of 2 2 table..................................... 77 II.4. Log-linear model................................................. 86

12 Table of contents II.5. Coding.......................................................... 93 II.6. Binary logistic regression......................................... 101 II.7. Multinomial and ordinal logistic regression......................... 111 II.8. Nonlinear effects inclusion........................................ 120 II.9. Interactions..................................................... 130 Bibliography............................................................. 137 Iga Sikorska Chapter II Latent variable analysis................................................... 139 I. Latent class analysis (LCA)............................................... 139 I.1. Introduction..................................................... 139 I.2. The latent class model............................................. 144 I.2.1. Assumptions................................................ 147 I.2.2. Parameters................................................. 148 I.3. Estimation of latent class models.................................... 149 I.3.1. Estimation in SAS........................................... 153 I.4. Model fit........................................................ 154 I.4.1. Missing data................................................ 161 I.4.2. Parameter restrictions....................................... 162 I.4.3. Model selection............................................. 163 I.4.4. Interpretation of latent classes................................. 165 I.4.5. Homogenity and latent class separation........................ 166 I.5. Latent class model with grouping variables........................... 168 I.6. Latent class model with covariates.................................. 171 I.6.1. Verification of extended latent class model...................... 172 I.7. LCA and LTA procedures.......................................... 173 I.8. Example of latent class model...................................... 176 II. Latent transition analysis (LTA).......................................... 193 II.1. Introduction..................................................... 193 II.2. The latent transition model........................................ 193 II.3. Estimation of latent transition model and model fit................... 198 II.3.1. Missing data............................................... 199 II.3.2. Parameter restrictions....................................... 199 II.4. Latent transition model with grouping variables..................... 202 II.5. Latent transition model with covariates............................ 204 II.6. Example of the latent transition model............................. 206 Bibliography............................................................. 220

Table of contents 13 Ewa Frątczak, Małgorzata Mianowska Chapter III Mixed models............................................................ 223 I. Theoretical basis........................................................ 223 I.1. Linear mixed model............................................... 228 I.1.1. Introduction................................................ 228 I.1.2. Notation of a linear mixed model.............................. 232 I.1.3. PROC GLM, PROC MIXED and estimation methods............ 238 I.1.4. PROC HPMIXED........................................... 243 I.1.5. Diagnostics and model building strategies..................... 244 I.2. Generalized linear mixed model.................................... 247 I.2.1. Introduction................................................ 247 I.2.2. Notation of a generalized linear mixed model................... 251 I.2.3. PROC GLIMMIX and estimation methods..................... 253 I.3. Nonlinear mixed model........................................... 254 I.3.1. Introduction................................................ 254 I.3.2. Notation of a nonlinear mixed model.......................... 254 I.3.3. PROC NLMIXED and estimation methods..................... 255 I.4. Conclusions...................................................... 257 II. Examples of the mixed models estimation................................. 259 Introduction........................................................ 259 II.1.Example 1. Linear and linear mixed models.......................... 262 II.2. Example 2. Linear mixed model with interaction..................... 301 II.3. Example 3. Hierarchical mixed model.............................. 318 II.4. Example 4. Generalized linear mixed and nonlinear mixed models..... 351 II.5. Example 5. Linear mixed model estimation with Enterprise Guide..... 369 Bibliography............................................................. 378 Appendix 1. Linear mixed model theory.................................... 381 1. Introduction....................................................... 381 2. Matrix Notation................................................... 381 3. Formulation of the Mixed Model..................................... 383 3.1. The General Linear Mixed Model............................... 383 3.2. Conditional and Marginal Distributions......................... 384 3.3. Example: Growth Curve with Compound Symmetry.............. 386 3.4. Example: Split-Plot Design..................................... 388 4. Estimating Parameters, Predicting Random Effects.................... 392 4.1. Estimating β and Predicting u: The Mixed Model Equations........... 392 4.2. Random Effects, Ridging, and Shrinking............................ 394

14 Table of contents 4.3. It s All in the SWEEP............................................. 396 4.4. Maximum Likelihood and Restricted Maximum Likelihood for Covariance Parameters........................................ 399 5. Statistical Properties.............................................. 405 6. Model Selection.................................................. 407 6.1. Model Comparisons via Likelihood Ratio Tests.................. 408 6.2. Model Comparisons via Information Criteria....................... 409 7. Inference and Test Statistics......................................... 411 7.1. Inference about the Covariance Parameters...................... 411 7.2. Inference about Fixed and Random Effects....................... 412 8. Quoted in Appendix 1 publications................................... 414 Wioletta Grzenda Chapter IV Selected Bayesian estimation issues........................................ 419 I. Elements of the theory of Bayesian statistics............................... 420 I.1. Bayesian methods................................................ 420 I.1.1. Bayes theorem.............................................. 422 I.1.2. Prior distribution............................................ 427 I.1.3. Bayesian inference........................................... 432 I.1.4. Comments on Bayesian methods.............................. 435 I.2. Markov Chain Monte Carlo Methods.............................. 436 I.2.1. The properties of Markov chains............................... 437 I.2.2. Metropolis and Metropolis-Hastings algorithms............... 442 I.2.3. Gibbs sampler.............................................. 444 I.2.4. Adaptive rejection sampling algorithm........................ 445 I.2.5. The selection of the number of Markov chain samples........... 445 I.2.6. The assessment of Markov chain convergence.................. 447 I.2.7. Markov chains convergence tests.............................. 451 II. Examples.............................................................. 459 II.1. Empirical data.................................................. 460 II.2. Bayesian Poisson regression model................................. 461 II.3. Bayesian inference for generalized linear models in SAS.............. 462 II.4. Examples of Bayesian Poisson Regression Models................... 466 II.4.1. Poisson model with non-informative normal prior distributions..... 467 II.4.2. P oisson model with informative normal prior distribution and non-informative normal prior distributions..................... 490 Bibliography............................................................ 499

Table of contents 15 Kamil Konikiewicz Chapter V Data Mining............................................................. 503 1. Introduction to SAS Enterprise Miner..................................... 505 2. Data description........................................................ 512 3. Data division........................................................... 514 4. Data exploration........................................................ 517 5. Decision trees.......................................................... 524 5.1.Charactermodel................................................... 524 5.2. Model construction............................................... 525 5.3. Selection of variables and data preparation........................... 530 5.4. Random forests................................................. 540 6. Logistic regression...................................................... 541 6.1.Model notation................................................... 541 6.2. Data preparation................................................. 542 7. Neural networks........................................................ 554 7.1.Model notation................................................... 554 7.2.Learningnetwork................................................. 556 8. Model evaluation and selection........................................... 562 8.1.Goodness of fi t statistics........................................... 562 8.2.Resampling...................................................... 567 8.3.Scoring.......................................................... 570 Bibliography............................................................. 570 Ewa Falkiewicz-Szporer, Łukasz Leszewski Chapter VI Selected data quality issues................................................ 573 I. Basic definitions........................................................ 574 I.1. Characteristic of good data quality.................................. 574 I.2. Sources of bad data quality......................................... 577 I.3. Stages of creating and transforming information..................... 579 II. Data quality management methodology................................... 580 III. Pillars of data quality management...................................... 584 III.1. Creating conducive environment for data quality processes........... 585 III.2. Corporate solutions............................................. 586 III.3. Providing standards in organization............................... 587 III.4. Monitoring and data quality measurement......................... 588 III.5. Role of data warehouse........................................... 591 III.6. Technology and tools............................................ 591

16 Table of contents IV. Stages of data cleansing process.......................................... 593 IV.1. Profiling........................................................ 594 IV.2. Data cleansing.................................................. 595 IV.3. Data integration................................................. 596 IV.4. Data enrichment................................................ 597 IV.5. Data monitoring................................................ 597 V. Data Quality tools and techniques........................................ 598 V.1. DataFlux dfpower Studio.......................................... 599 V.2. DataFlux Integration Server...................................... 602 V.3. SAS Data Integration Studio....................................... 603 VI. Data standardization.................................................. 604 VI.1. Creating standardization schemes................................ 606 VI.2. Standardization definitions...................................... 609 VII. Case study data quality process implementation......................... 610 VII.1. Profiling....................................................... 611 VII.2. Standardization................................................ 614 VII.3. Data integration................................................ 615 VIII. Summary........................................................... 617 Bibliography............................................................. 618 Chapter s summaries Polish and English version........................... 619 Biograms Polish and English version..................................... 629