ANOVA podstawy analizy wariancji



Podobne dokumenty
Analiza wariancji - ANOVA

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Analizy wariancji ANOVA (analysis of variance)

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Elementy statystyki STA - Wykład 5

JEDNOCZYNNIKOWA ANOVA

Analiza wariancji - ANOVA

Statystyka i Analiza Danych

Statystyka w analizie i planowaniu eksperymentu

Analiza wariancji. dr Janusz Górczyński

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

ANALIZA WARIANCJI - KLASYFIKACJA JEDNOCZYNNIKOWA

Weryfikacja hipotez statystycznych

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Wykład 9 Wnioskowanie o średnich

Jednoczynnikowa analiza wariancji

Regresja liniowa wprowadzenie

Testowanie hipotez statystycznych.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Matematyka i statystyka matematyczna dla rolników w SGGW

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Kolokwium ze statystyki matematycznej

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Prawdopodobieństwo i rozkład normalny cd.

Zestaw 6 (jednoczynnikowa i wieloczynnikowa analiza wariancji (ANOVA))

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

PDF created with FinePrint pdffactory Pro trial version

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Testowanie hipotez statystycznych.

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Regresja liniowa w R Piotr J. Sobczyk

ANALIZA WARIANCJI - KLASYFIKACJA WIELOCZYNNIKOWA

Wykład 5 Teoria eksperymentu

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Testy post-hoc. Wrocław, 6 czerwca 2016

Analiza wariancji, część 2

Analiza wariancji i kowariancji

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Szkice rozwiązań z R:

Efekt główny Efekt interakcyjny efekt jednego czynnika zależy od poziomu drugiego czynnika Efekt prosty

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Testy nieparametryczne

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Wykład 3 Hipotezy statystyczne

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Wprowadzenie do analizy korelacji i regresji

Przykład 1. (A. Łomnicki)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wprowadzenie do statystyki dla. chemików testowanie hipotez

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Rozdział 8. Regresja. Definiowanie modelu

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

STATYSTYKA

Testowanie hipotez statystycznych.

Rozkłady statystyk z próby

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

MODELE LINIOWE. Dr Wioleta Drobik

Copyright by Wydawnictwo Naukowe Scholar, Warszawa 2000, 2008

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

WNIOSKOWANIE STATYSTYCZNE

JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

STATYSTYKA MATEMATYCZNA

KORELACJE I REGRESJA LINIOWA

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

ANALIZA WARIANCJI - PRZYPOMNIENIE

Statystyka matematyczna dla leśników

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Zmienne zależne i niezależne

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Estymacja parametrów w modelu normalnym

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Testowanie hipotez statystycznych cd.

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Transkrypt:

ANOVA podstawy analizy wariancji Marcin Kolankowski 11 marca 2009

Do czego służy analiza wariancji Analiza wariancji (ang. ANalysis Of VAriance - ANOVA) służy do wykrywania różnic pomiędzy średnimi w wielu populacjach. Zmienna lub zmienne objaśniające występują na różnych poziomach, przez co możemy wyodrębnić grupy w całej populacji. Analiza wariancji sprawdza, czy znajdowanie się w danej grupie ma wpływ na wartość zmiennej objaśnianej - wynik eksperymentu.

Przykłady Możemy badać: wagę osób poddanych kilku rodzajom diety i badać, czy średnia waga w danej grupie różni się istotnie w zależności od przynależności do grupy. trwałość stopu metalu w zależności od proporcji składników użytych przy wytopie plon zboża w zależności od poziomu nawożenia

Co i jak testujemy Zakładamy, że mamy k grup z których każda liczy N k obserwacji. Wynik naszych obserwacji możemy przedstawić jako: Y 1,1 Y 1,2... Y 1,k Y 2,1 Y 2,2... Y 2,k...... Y N1,1 Y N2,2... Y Nk,k gdzie Y i,j to i-ta obserwacja z grupy j-tej. Obserwacje pochodzą odpowiedno z rozkładów N (µ 1, σ 2 ), N (µ 2, σ 2 ),..., N (µ k, σ 2 )

Hipotezy do testowania Testujemy hipotezę zerową, która mówi o tym, że średnie we wszystkich grupach są takie same przeciw alternatywie, że przynajmniej jedna z grup posiada inną średnią. H 0 : µ 1 = µ 2 = = µ k H 1 : i, j : µ i µ j

Procedura testowania Model analizy wariancji oparty jest o następujące spostrzeżenie: suma kwadratów odchyleń wszystkich pomiarów od średniej ogólnej ze wszyskich obserwacji jest równa sumie kwadratów odchyleń wszystkich pomiarów od odpowiednich średnich z grup i sumie odpowiednio ważonych odchyleń średnich z grup od średniej ogólnej N k j (Y i,j Y ) 2 = j=1 i=1 N k j (Y i,j Y j ) 2 + j=1 i=1 k N j (Y j Y ) 2 j=1 gdzie Y j oznacza średnią w grupie j, a Y - średnią ze wszystkich obserwacjach.

Procedura testowania cd Wprowadźmy dalej oznaczeniach: s 2 w = s 2 b = k j=1 Nj i=1 (Y i,j Y j ) 2 N k k j=1 N j(y j Y ) 2 k 1 Okazuje się, że s 2 w jest nieobciążonym estymatorem parametru σ 2. Gdy założymy prawdziwość hipotezy zerowej o równości średnich, również s 2 b jest nieobciążonym estymatorem parametru σ 2. Gdy jednak średnie różnią się od siebie, wartość oczekiwana s 2 b nie zbiega do σ2. Ponadto s 2 b /s2 w ma rozkład F-Snedecora odpowiednio z N k i k 1 stopniami swobody. Dlatego konstrukcja testu opiera się na porównywaniu wartości otrzymanych przy policzeniu ilorazu s 2 b /s2 w z odpowiednią wartością krytyczną dla rozkładu F.

Opis modelu - jednoczynnikowa analiza wariancji Rozpatrujemy k grup dzielących całą populacje. Każda z tych grup składa się z N k obserwacji. Zakładamy ponadto, że obserwacje pochodzą z modelu: Y i,j = µ + α i + ε i,j i = 1,..., k j = 1,..., N k gdzie: Y i,j - j-ta wartość zmiennej objaśnianej w i-tej grupie; µ - stała wartość ta sama dla każdej z grup; α i - wpływ i-tego czynnika na wartość zmiennej objaśnianej; ε i,j - czynnik losowy, z założenia o rozkładzie N (0, σ 2 );

Założenia dotyczące modelu Model analizy wariancji zakłada, że: czynniki losowe ε i,j są niezależne; czynniki losowe mają rozkład N (0, σ 2 ); ostatnie założenie jest równoważne z tym, że wariancje w grupach są takie same;

Dane i ich wstępna analizak W dalszej części będziemy analizować przykładowe dane o nazwie coagulation,związne z krzepnięciem krwi u zwierząt poddanych różnym rodzajom diety. Pierwsze, co możemy zrobić to przyjrzeć się danym używając wykresów pudełkowych - boxplot. Dzieki temu możemy wychwycić: obserwacje odstające - outliers to obserwacje widoczne w postaci pojedyńczych punktów skośność rozkładu - asymetria wykresów pudełkowych wielkość wariancji - związana z rozmiarem wykresu pudełkowego Należy pamiętać, że duży wpływ na wielkość wykresów pudełkowych ma liczba obserwacji, więc nierówność związana z rozmiarem nie koniecznie musi oznaczać różne wariancje w grupach

Boxplot dla danych coagulation plot(coag diet, data=coagulation, lwd=2, cex.axis=1.5, cex.lab=1.5)

Dalsza diagnostyka danych Możemy dopasować model liniowy do naszych danych. Dzięki temu możemy wykonać dalszą diagnostykę danych - porównać dopasowany model z danymi przez wykresy residuów oraz przez QQ-plot. model=lm(coag diet, data=coagulation) qqnorm(model$res, lwd=2, cex.main=1.5, cex.lab=1.5, cex.axis=1.5) plot((model$fit+(rnorm(24, 0, 1))/7), model$res, xlab= dane dopasowane zaburzone, ylab= residua, cex.main=1.5, cex.axis=1.5, lwd=2, cex.lab=1.5)

Testowanie założeń o homogeniczności warianjci Do testowania założeń o jednorodności wariancji używam testu Levene a. Większość testów przy analizie wariancji nie jest bardzo czuła na niejednorodność wariancji, więc problem nie spełnienia założeń zaczynamy dostrzegać przy p-value mniejszym niż 0.01. Test ten stosujemy biorąc do modelu liniowego wartości bezwzględne residuów i patrzymy na wartość statystyki F. summary(lm(abs(model$res) coagulation$diet)) Coefficients: Estimate Std.Error t value Pr(> t ) (Intercept) 1.500 0.716 2.10 0.049 coag$dietb 0.500 0.924 0.54 0.594 coag$dietc -0.500 0.924-0.54 0.594 coag$dietd 0.500 0.877 0.57 0.575 F-statistic: 0.705 on 3 and 20 DF, p-value: 0.56

Wykrywanie różnic pomiędzy grupami W celu wykrycia różnic pomiędzy grupami stosujemy opisaną wcześniej procedurę związaną z rozkładem F. Test ten przeprowadzany jest automatycznie przy dopasowaniu modelu. Aby sprawdzić p-value wybieramy albo podsumowanie dla modelu liniowego albo funkcją anova. summary(model) Call: lm(formula = coag diet, data = coagulation)... Coefficients: Estimate Std.Error t value Pr(> t ) (Intercept) 6.100e+01 1.183e+00 51.554 <2e-16 *** dietb 5.000e+00 1.528e+00 3.273 0.003803 ** dietc 7.000e+00 1.528e+00 4.583 0.000181 *** dietd -1.071e-14 1.449e+00-7.39e-15 1.000000 F-statistic: 13.57 on 3 and 20 DF, p-value: 4.658e-05

Porównywanie poszczególnych grup ze sobą Porównywanie poszczególnych grup ze sobą przeprowadzimy po dopasowaniu modelu. Gdy testujemy tylko jedną hipotezę: α i = α j możemy użyć testu t-studenta, dokładniej: ˆα i ˆα j ± t α/2 N kˆσ 1 N i + 1 N j Przyjmujemy hipotezę α i = α j, gdy w przedziale (( ˆα i ˆα j ) t α/2 N kˆσ 1 N i + 1 N j, ( ˆα i ˆα j ) + t α/2 N kˆσ 1 N i + 1 N j ) znajduje się zero.

Parametry do testowania różnic w R Parametry do obliczenia przedziału uzyskujemy dzięki: t α/2 N k =qt(1-α/2, N-k) ˆσ=summary(model)$ sig k=levels(coagulation$ diet) N =length(coagulation$ diet) N i =length(coagulation$diet[coagulation$diet==levels(coagulation$diet)[i]])]) ˆα i ˆα j - odczytujemy z tabeli summary(model)

Przykład testowania różnic pomiędzy grupami Dla testowania różnic pomiędzy dietą A i B uzyskujemy: qt(1-0.05/2, 20)*2.366*sqrt(1/4+1/6) [1] 3.18578 c(5-3.186, 5+3.186) [1] 1.814 8.186 więc diety A i B różnią się (gdyż otrzymany przedział nie zawiera 0) Dla testowania różnic pomiędzy dietą B i C uzyskujemy: qt(1-0.05/2, 20)*2.366*sqrt(1/6+1/6) [1] 2.849448 c(2-2.849, 2+2.849) [1] -0.849 4.849 więc diety B i C nie różnią się

Wielokrotne porównywanie grup - HSD Opisana wyżej procedura sprawdza się przy pojedyńczych porównaniach grup. Gdy testujemy więcej hipotez błąd I rodzaju wzrasta znacząco przy zwiększaniu liczby porównań. Pewnym rozwiązaniem jest stosowanie procedur Bonferroni ego. Jednak dla dużej liczby porównań stosujemy w analizie wariancji procedure zwaną Tukey s Honest Significant Difference (HSD). Opiera się ona na porównaniu różnic pomiędzy α i i α j z tzw studentized range distribution. Taki rozkład ma zmienna określona w następujący sposób: ( max X i min X i)/ˆσ i=1,...,n i=1,...,n gdzie X 1,..., X n - niezależne, jednakowo rozłożone zmienne losowe o rozkładzie N (µ, σ 2 ).

HSD w praktyce Aby porównywać wielokrotnie różnice pomiędzy poszczegółnymi grupami stosujemy funkcje TukeyHSD. Przykład jej wywołania poniżej TukeyHSD(aov(coag diet, coagulation)) diet diff lwr upr p adj B-A 5 0.72455 9.27545 0.01833 C-A 7 2.72455 11.27545 0.00096 D-A 0-4.05604 4.05604 1.00000 C-B 2-1.82407 5.82407 0.47660 D-B -5-8.57709-1.42291 0.00441 D-C -7-10.57709-3.42291 0.00013

Model matematyczny analizy dwuczynnikowej W rzeczywistości często wynik eksperymentu lub badania zależy nie od jednego czynnika na wielu poziomach, tylko od kilku czynników. Dlatego też stosuje się analizę wielu czynników jednocześnie. Najprostrzy model zakłada wpływ dwóch różnych czynników na wynik eksperymentu: Y i,j,k = µ + α i + β j + Ψα i β j + ε i,j,k gdzie: Y i,j,k - k-ta wartość zmiennej objaśnianej w grupe α i, β j ; µ - stała wartość ta sama dla każdej z grup; α i - wpływ i-tego czynnika α na wartość zmiennej objaśnianej; β j - wpływ j-tego czynnika β na wartość zmiennej objaśnianej; α i β j - interakcja czynnika α i β ε i,j,k - czynnik losowy, z założenia o rozkładzie N (0, σ 2 );

Założenia do modelu niezależne czynniki losowe o rozkładzie normalnym ze taką samą wariancją w poszczególnych grupach równoliczność obserwacji w każdej z grup

Interakcje czynników Rzeczą różniącą jednoczynnikową analizę wariancji od wieloczynnikowej jest fakt występowania interakcji pomiędzy czynnikami. W najprostrzym przypadku z dwoma czynnikami występuje interakcja w postaci czynnika α i β j, ale w większych modelach takich interakcji jest odpowiedno więcej. Interakcje to po prostu oddziaływanie na siebie dwóch czynników i związany z tym ich wpływ na zmienną objaśnianą.

Wykrywanie iterakcji za pomocą wykresów Do wykrywania interakcji pomiędzy czynnikami możemu użyć polecenia interaction.plot. Interakcje zachodzą, gdy krzywe otrzymane przez powyższe polecenie przecinają się. Czasami ciężko za pomocą wykresu odczytać prawidłowo, czy interakcje zachodzą, ze względu na zaburzenia związane z losowością. Przykład wywołania dla danych dotyczących czasu do wyleczenia przy podaniu 3 rodzajów leku z podziałem na płeć. Jak widać na dalszym rysunku dla leku 1 i 2 nie ma interakcji, natomiast lek 2 i 3 wchodzą ze sobą w interkacje. interaction.plot(dane$lek,dane$plec,dane$czas, xlab= rodzaj leku, ylab= czas, col=c( red, blue ))

Interakcje a model liniowy Aby zbadać, czy występujące interakcje są istotne, możemy umieścić je w formule przy konstrukcji modelu liniowego. W tabeli podsumowującej model możemy odczytać p-value dla zmiennej odpowiadającej za interakcje. Duże wartości p-value świadczą o nieistotności interakcji. model1=lm(czas lek*plec, data=dane) anova(model1) Analysis of Variance Table Responce:czas Df Sum Sq Mean Sq F value Pr(>F) lek 1 60.063 60.063 9.9847 0.0049 plec 1 8.762 8.762 1.466 0.2415 lek:plec 1 156.491 156.491 26.0147 5.458e-05 Residuals 20 120.309 6.015

Jak postępować z interakcjami W przypadku, gdy interakcje nie są istotne, możemy skonstruować model pomijający ich wpływ. Dokładniej możemy zbadać tylko wpływ czynników głównych ich wzajemną relacje na zmienną objaśnianą. W przypadku, gdy interakcje są istotne jedynym rozwiązaniem jest konstrukcja modelu w postaci: Y i,j,k = µ i,j,k + ε i,j,k Czyli traktować model jako model jednoczynnikowej analizy wariancji z parametrem znajdującym się na większej ilości poziomów.

Definicja Kwadraty łacińskie stosujemy, gdy chcemy porównać wpływ danego czynnika, który znajduje się na kilku poziomach, mając dodatkowo dwa inne czynniki znajdujące sie na tylu samych poziomach. Przykładem mogą być badania w rolnictwie dotyczące plonów. Załużmy, że dysponujemy 4 gatunkami nasion: A, B, C, D, które rozsiewane są przez 4 różne maszyny prowadzone przez 4 osoby. Wpływ na plon może mieć zarówno gatunek rośliny jak i użyta maszyna przy sadzeniu oraz sposób siewu za który odpowiada operator. Najłatwiej takie dane przedstawić w formie tabeli, która ma postać kwadratu łacińskiego: 1 2 3 4 I A B C D II B D A C III C A D B IV D C B A

Model matematyczny Zakładamy, że obserwacje pochodzą z modelu opisanego równaniem: Y i,j,k = µ + τ i + β j + γ k + ε i,j,k dla i, j, k = 1,..., n Do testowania istotności różnic pomiędzy grupami stosujemy przedziały, niech q n,(n 1)(n 2) oznacza wartość krytyczna dla zmiennej losowej o rozkładzie jak przy HSD z odpowiednimi parametrami. Przedziały konstruujemy jak wcześniej. 1 τ i τ j ± q n,(n 1)(n 2)ˆσ n

Przykład analizy danych Jako przykład możemy użyć danych breaking. Dane te dotyczą stopu metalu tworzonego przez materiał pochodzący od 4 dostawców - A, B, C, D. Dodatkowo każdy stop jest tworzony przez 4 różnych operatorów i w 4 różne dni. Dane możemy przedstawić w postaci tabeli:

data(breaking) matrix(breaking$supplier,4, 4) [, 1] [, 2] [, 3] [, 4] [1, ] B C D A [2, ] C D A B [3, ] A B C D [4, ] D A B C matrix(breaking$y, 4, 4) [, 1] [, 2] [, 3] [, 4] [1, ] 810 1100 840 650 [2, ] 1080 880 540 740 [3, ] 700 780 1055 1025 [4, ] 910 600 830 900

Dopasowanie modelu Dopasowanie modelu do danych i odczytanie efektu poszczególnych zmiennych robimy standardowo. W tym miejscu oczywiście należy sprawdzić założenia dotyczące modelu, poprzez np wykresy boxplot i rozkład residuów, co pomijamy. model3=lm(y day+operator+supplier, data=breaking) anova(model3) Analysis of Variance Table Responce:czas Df Sum Sq Mean Sq F value Pr(>F) day 3 17600 5867 0.9450 0.475896 operator 3 7662 2554 0.4114 0.750967 supplier 3 371137 123712 19.9268 0.001602 Residuals 6 37250 6208 Z p-value widać, że istnieje wpływ czynnika dostawca, natomiast pozostałe czynniki nie są istotne.

Aby porównać dostawców możemy użyć boxplot lub porównać parametry wyestymowane z danych: summary(model3) Call: lm(formula = y day+operator+supplier, data = breaking)... Coefficients: Estimate Std.Error t value Pr(> t ) (Intercept) 667.50 62.29 10.716 <3.9e-05 *** dayday2-40 55.72-0.718 0.499782 dayday3 40 55.72 0.718 0.499782 dayday4-40 55.72-0.718 0.499782 operatorop2-35 55.72-0.628 0.553020 operatorop3-58.75 55.72-1.054 0.332266 operatorop4-46.25 55.72-0.830 0.438247 supplierb 167.50 55.72 3.006 0.023812 * supplierc 411.25 55.72 7.381 0.000317 *** supplierd 291.25 55.72 5.227 0.001962 ** F-statistic: 7.094 on 9 and 6 DF, p-value: 0.01348

plot(y supplier, data=breaking)

Z wykresów i estymowanych parametrów modelu wynika, że najlepszym dostawcą jest C, zaraz za nim D. Aby sprawdzić, czy różnica jest istotna statystycznie wyznaczamy przedziały i sprawdzamy, czy znajduje się w nich 0: qtukey(0.95, 4, 6)*55.7/sqrt(4) 136.3424 Konstrukcje przedziałów możemy pominąć, wystarczy znać różnice pomiędzy poszczególnymi wpływami dostawców. Możemy to zrobić konstruując tabelę: x=c(0, model3$coef[8:10]) outer(x, x, - ) supplierb supplierc supplierd 0.00-167.75-411.25-291.25 supplierb 167.50 0.00-243.75-123.75 supplierc 411.25 243.75 0.00 120.00 supplierd 291.25 123.75-120.00 0.00 Z danych wynika, że dostawcy (B, D) i (C, D) nie różnią się między sobą, pozostali natomiast tak.

Bibliografia Przy opracowaniu prezentacji korzystałem głównie z: Julian J. Faraway, Practical Regression and Anova using R, dostępnej pod adresem: http://cran.us.r-project.org/doc/contrib/faraway-pra.pdf