Statystyczna analiza danych (molekularnych) modele liniowe

Podobne dokumenty
Matematyczne metody w naukach biomedycznych: regresja i analiza wariancji.

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Metoda najmniejszych kwadratów

Statystyczna analiza danych

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Statystyczna analiza danych 1

Weryfikacja hipotez statystycznych

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Ważne rozkłady i twierdzenia c.d.

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Statystyczna analiza danych (molekularnych) estymacja bayesowska i MLE

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Testowanie hipotez statystycznych.

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Wprowadzenie do analizy korelacji i regresji

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

PDF created with FinePrint pdffactory Pro trial version

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Natalia Neherbecka. 11 czerwca 2010

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Agata Boratyńska Statystyka aktuarialna... 1

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Rozdział 8. Regresja. Definiowanie modelu

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Testowanie hipotez statystycznych.

166 Wstęp do statystyki matematycznej

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testowanie hipotez statystycznych.

Stosowana Analiza Regresji

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

1.1 Klasyczny Model Regresji Liniowej

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

MODELE LINIOWE. Dr Wioleta Drobik

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Własności statystyczne regresji liniowej. Wykład 4

Prawdopodobieństwo i statystyka r.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Elementy statystyki STA - Wykład 5

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Stosowana Analiza Regresji

Metody probabilistyczne

WYKŁAD 8 ANALIZA REGRESJI

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

1 Gaussowskie zmienne losowe

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Analiza regresji - weryfikacja założeń

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Prawdopodobieństwo i statystyka

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Stosowana Analiza Regresji

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Statystyka matematyczna dla leśników

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Estymacja parametrów w modelu normalnym

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych

3. Modele tendencji czasowej w prognozowaniu

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Statystyka Matematyczna Anna Janicka

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Transkrypt:

Statystyczna analiza danych (molekularnych) modele liniowe Anna Gambin 14 kwietnia 2012 Spis treści 1 Analiza regresji 1 1.1 Historia..................................... 2 2 Modele liniowe 2 3 Estymacja najmniejszych kwadratów 4 4 Twierdzenie Gaussa Markowa: optymalność ˆβ 5 4.1 Jakość dopasowania............................... 7 5 Model liniowy dla ekspresji genów 8 1 Analiza regresji Analiza regresji jest używana modelowania związków zachodzących pomiędzy zmienną losową Y (zwaną często odpowiedzią, zmienną zależną lub zmienna objaśniana), a jedną lub więcej zmiennymi objaśniajacymi (zwanymi też predyktorami): X 1, X 2,... X p. Dla p = 1 mamy do czynienia z prostą regresją, natomiast dla p > 1 mówimy o regresji wielorakiej. Najczęściej przyjmujemy, że odpowiedź Y jest zmienną ciągłą, natomiast zmienne X 1, X 2,... X p mogą być zarówno ciągłe jak i dyskretne. Podstawowe cele jakie stawiamy sobie w zadaniu regresji to: przewidywanie przyszłych obserwacji; 1

opisanie wpływu predyktorów na odpowiedź Y ; uzyskanie ogólnego opisu struktury posiadanych danych. Istnieje wiele uogólnień zadania regresji, których nie będziemy rozważać, zainteresowanych odsyłam do szerokiej literatury (również odpowiednich pakietów R-owych: http: //cran.r-project.org/). Wspomniane uogólnienia to: dopuszczenie wielu odpowiedzi Y 1, Y 2,... Y k, przypadek w którym odpowiedź Y jet binarna (regresja logistyczna), oraz regresja Poissona, gdzie zakłada się, że odpowiedź Y przyjmuje wartości całkowite nieujemne. 1.1 Historia Po raz pierwszy zadanie regresji zostało sformułowane w XVII wieku w kontekście zastosowań wiedzy astronomicznej do nawigacji. Metoda najmniejszych kwadratów (którą przedstawimy poniżej) została zaproponowana przez francuskiego matematyka Adrien-Marie Legendre w roku 1805. Książe matematyków Carl Friedrich Gauss utrzymywał, że opracował tę metodę jeszcze wcześniej i w roku 1809 udowodnił, że najmniejsze kwadraty prowadzą do rozwiązania optymalnego przy założeniu, że błędy mają rozkład normalny. 2 Modele liniowe Zacznijmy od rozważenia (zupełnie nie bioinformatycznego) przykładu: niech zmienna objaśniana Y opisuje zużycie paliwa. Jako predyktory (zmienne objaśniające) posłużą nam dane o X 1, czyli wadze pojazdu, X 2 mocy silnika, oraz X 3 liczbie cylindrów. Załóżmy, że dysponujemy n obserwacjami (przypadkami): y 1 x 11 x 12 x 13 y 2 x 21 x 22 x 23...... y n x n1 x n2 x n3 Najbardziej ogólna postać modelu opisującego nasze dane mogłaby być następująca: y = f(x 1, X 2, X 3 ) + ɛ gdzie f jest pewną nieznaną funkcją, ɛ addytywnym błędem. Zazwyczaj nie posiadamy wystarczającej liczby danych, żeby podjąć próbę estymacji dowolnie dzikiej funkcji f i dlatego 2

przyjmujemy upraszczające założenia co do klasy rozważanych funkcji. Bardzo prostym, a jednocześnie wystarczająco elastycznym założeniem jest, że ma ona postać liniową: Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ɛ Stałe β i nazywamy parametrami, i całe zadanie zbudowania modelu liniowego sprowadza się do ich estymacji z danych. Zauważmy, że założenie liniowości dotyczy parametrów modelu, natomiast zmienne predyktory mogą występować w dowolnej postaci. Np model: Y = β 0 + β 1 X 1 + β 2 log X 2 + β 3 log X 3 + ɛ pozostaje modelem liniowym, natomiast model: Y = β 0 + β 1 X 1 + β 2 X β 3 2 + ɛ nie jest liniowy ze względu na parametry. Wróćmy do naszego samochodowego przykładu (oczywiście, jak bardzo nam zależy możemy zamiast o zużyciu paliwa myśleć o niezbędnej dawce leku, a parametry pojazdu zamienić na dane o stanie pacjenta). Dla i = 1, 2,... n możemy zapisać: y i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 + ɛ i W postaci macierzowej równanie regresji wygląda bardziej przejrzyście: y = Xβ + ɛ gdzie y = (y 1,... y n ) T, ɛ = (ɛ 1,... ɛ n ) T, β = (β 0,... β 3 ) T oraz 1 x 11 x 12 x 13 X = 1 x 21 x 22 x 23...... 1 x n1 x n2 x n3 Przykład 1 Zapiszmy w notacji macierzowej bardzo prosty model, w którym nie występuja żadne zmienne objaśniajace: y = µ + ɛ, czyli obserwacje opisujemy za pomoca wartości średniej oraz błędu (zmiennej losowej o zerowej wartości oczekiwanej). y 1 1 ɛ 1 1 y 2... = y n... 1 µ + ɛ 2... ɛ n 3

Przykład 2 Załóżmy, że badamy odpowiedź na określona terapię w dwóch rozłacznych grupach pacjentów. W pierwszej grupie odpowiedzi oznaczamy y 1,... y m a średnia odpowiedź wynosi µ y, natomiast w drugiej grupie obserwujemy odpowiedzi z 1,... z n ze średnia µ z. Macierz zmiennych objaśniajacych jest w tym przypadku zero-jedynkowa i wskazuje przynależność danego pacjenta do grupy. y 1 1 0 y 2 1 0 ɛ 1......... ( ) ɛ 2 y m z 1 = 1 0 µy 0 1 +... µ z... z 2 0 1............ ɛ n+m z n 0 1 3 Estymacja najmniejszych kwadratów Zastanówmy się teraz jak estymować parametry β i. Naszym zadaniem jest możliwie najdokładniejsza reprezentacja danych wymiaru n za pomocą modelu wymiaru p. Oczywiście pozostaną jeszcze losowe fluktuacje, czyli błąd. Geometrycznie możemy wyobrazić sobie optymalny model jako rzut ortogonalny wektora y (leżącego w przestrzeni n-wymiarowej na przestrzeń p wymiarową rozpinaną przez predyktory. Pozostawiając na chwile intuicję geometryczną (która nota bene jest zbieżna z poniższą metodą) załóżmy, że estymując β chcemy minimalizować sumę kwadratów błędów, czyli ɛ T ɛ. Szukamy wektora ˆβ minimalizującego: R = i ɛ 2 i = ɛ T ɛ = (y Xβ) T (y Xβ) Przekształcay powyższe, różniczkujemy ze względu na β i przyrównujemy do zera: R = y T y 2βX T y + β T X T Xβ R β = 0 = XT X ˆβ = X T y Przy założeniu, że macierz X T X jest odwracalna mamy: ˆβ = (X T X) 1 X T y 4

Zauważmy, że x ˆβ = X(X T X) 1 X T y jest po prostu rzutem ortogonalnym y na przestrzeń rozpinaną przez X. Macierz H = X(X T X) 1 X T jest macierzą rzutu prostopadłego, zgrabnym obiektem teoretycznych rozważań, jednak zupełnie nieprzydatnym w praktyce ze względu na jej wymiar n x n. Podsumujmy: wartości przewidywane przez model: ŷ = Hy = X ˆβ. residua modelu: ˆɛ = y X ˆβ = y ŷ = (I H)y. suma kwadratów residuów: ˆɛ T ˆɛ = y T (I H)y. Przykład 3 Policzmy teraz ˆβ dla prostego modelu bez zmiennych objaśniajacych: Mamy y = µ + ɛ, czyli X = 1 i β = µ, więc X T X = 1 T 1 = n. Dalej ˆβ = (X T X) 1 X T y = 1 n 1T y = ȳ 4 Twierdzenie Gaussa Markowa: optymalność ˆβ Podamy teraz argumenty za tym, że ˆβ uzyskane metodą najmniejszych kwadratów jest sensownym oszacowaniem dla parametrów modelu liniowego. Po pierwsze jak pokazaliśmy, odpowiada ono rzutowi prostopadłemu na przestrzeń modelu. Po drugie jeśli błędy są niezależne i pochodzą z rozkładu normalnego estymator uzyskany metodą najmniejszych kwadratów jest tożsamy z estymatorem największej wiarygodności, czyli jest takim oszacowaniem parametrów, które maksymalizuje prawdopodobieństwo zaobserwowania danych przy założeniu modelu. Jako trzeci argument przytoczymy twierdzenie Gaussa Markowa, które mówi, że jest to najlepszy (BEST), liniowy (LINEAR), nieobciążony (UNBIASED) Estymator (w angielskim sktócie: BLUE). Do sformułowania twierdzenia potrzebujemy pojęcia funkcji estymowalnej. Powiemy, że liniowa kombinacja parametrów Ψ = c T β jest estymowalna wtedy i tylko wtedy jeśli istnieje liniowa kombinacja a T y, taka że: E(a T y) = c T β Twierdzenie: Załóżmy teraz, że wartość oczekiwana błędu wynosi zero: E(ɛ) = 0 oraz wariancja var(ɛ) = σ 2 I. Dodatkowo załóżmy, że strukturalna część modelu E(y) = Xβ jest skonstruowana poprawnie. Niech Ψ = c T β będzie estymowalną funkcją, wtedy spośród wszystkich nieobciążonych liniowych estymatorów Ψ, estymator najmniejszych kwadratów ˆβ ma najmniejszą wariancję i jest wyznaczony jednoznacznie. 5

dowód: Załóżmy, że a T y jest pewnym nieobciążonym estymatorem c T β, czyli E(a T y) = c T β = a T Xβ β Wnioskujemy stąd, że a T X = c T, czyli wektor c leży w przestrzeni rozpiętej przez kolumny X T, a więc również przez X T X. Oznacza to, że istnieje wektor współczynników λ, pozwalający wyrazić c jako kombinację liniową wektorów z bazy: c = X T Xλ c T ˆβ = λ T X T X ˆβ = λ T X T y Pokażemy teraz, że nasz estymator ma najmniejszą wariancję. Weźmy dowolny estymator a T y i policzmy jego wariancję: var(a T y) = var(a T y c T ˆβ + c T ˆβ) = var(a T y λ T X T y + c T ˆβ) = = var(a T y λ T X T y) + var(c T ˆβ) + 2cov(a T y λ T X T y, λ T X T y) Można pokazać, że cov(a T y λ T X T y, λ T X T y) = 0 1, czyli var(a T y) = var(a T y λ T X T y) + var(c T ˆβ) Ponieważ wariancje są nieujemne, widzimy, że var(a T y) > var(c T ˆβ). Pozostaje jeszcze wykazać jednoznaczność estymatora ˆβ. Mamy var(a T y) = var(c T ˆβ) jedynie dla var(a T y λ T X T y) = 0, czyli a T y λ T X T y = 0, co oznacza, że a T y = λ T X T y = c T ˆβ. Powyższe twierdzenie uzasadnia, że estymator najmniejszych kwadratów jest dobrym wyborem, jednak jeśli błędy są skorelowane, albo mają różnicowaną wariancję mogą istnieć lepsze estymatory; podobnie jeśli błędy nie pochodzą z rozkładu normalnego. Policzymy jeszcze wartość oczekiwaną wariancję dla ˆβ. E( ˆβ) = (X T X) 1 X T Xβ = β czyli jak obiecywaliśmy, estymator jest nieobciążony. var( ˆβ) = (X T X) 1 X T σ 2 IX(X T X) 1 = (X T X) 1 σ 2 1 Przypomnijmy, że kowariancja dla dwóch zmiennych losowych X i Y jest zdefiniowana następująco: cov(x, Y ) = E(X Y ) EX EY 6

Rysunek 1: Strzałka kropkowana pokazuje rozrzut odpowiedzi y pod warunkiem, że znamy x, natomiast strzałka ciągła odpowiada zmienności odpowiedzi y, jeśli nie znamy zmiennej objaśniającej x. 4.1 Jakość dopasowania Jako miarę jakości dopasowania modelu do danych rozważmy współczynnik zwany procentem wyjaśnionej wariancji: R 2 (ŷi y i ) 2 = 1 (yi ȳ) 2 Współczynnik R 2 przyjmuje wartości od 0 do 1, przy czym wartości bliższe 1 odpowiadają lepszemu dopasowaniu modelu do danych. Intuicja stojąca za jego definicją jest następująca: załóżmy, że chcemy przewidzieć odpowiedź y. Jeśli nie znamy x to najlepszą predykcją będzie ȳ, ale jej rozrzut będzie duży. Jeżeli natomiast znamy x to za najlepszą predykcję uznamy dopasowanie przy pomocy regresji, czyli ŷ. Jeżeli istnieje jakaś systematyczna zależność między x i y to zmienność (rozrzut) takiej predykcji powinna być mniejsza (por. Rys. 1). Współczynnik R 2 wynosi 1 minus stosunek sum kwadratów dla tych obydwu predykcji. Jeżeli dopasowanie regresyjne jest idealne, to ten stosunek wynosi 0, a procent wyjaśnionej wariancji 1. 7

5 Model liniowy dla ekspresji genów Na poprzednich wykładach omawialiśmy T-test, który potrafi wskazać geny o zróżnicowanej ekspresji w dwóch grupach pacjentów. Nasuwa się oczywiste uogólnienie, co czynić jeśli interesują nas geny różnicujące trzy populacje. Pomoże nam w tym zadaniu odpowiedni model liniowy i technika zwana analizą wariancji (ANOVA). Jak zwykle poprawność naszego rozwiązania jest warunkowana założeniem, że poziomy ekspresji badanych genów mają rozkład normalny o identycznej wariancji we wszystkich grupach. Niech zmienna Y i oznacza oznacza poziom ekspresji. Rozważamy k grup pacjentów. Zakładamy następujący model liniowy: Y i = k x ij β j + ɛ i j=1 gdzie x ij = 1 jeśli pacjent i-ty należy do grupy j-tej i x ij = 0 wpp. W powyższym modelu rozpoznajemy omawiany już model bez predyktorów, dla którego parametry β 1, β 2,... β k odpowiadają wartościom średnim w grupach. Załóżmy, że chcemy przetestować hipotezę zerową mówiąca, że średnia ekspresja danego genu w trzech lub więcej rozważanych grupach jest równa, czyli H 0 : µ 1 = µ 2 = µ 3. Niech pomiary ekspresji badanego genu w pierwszej grupie będą oznaczane jako y 11, y 21,... y n1, w drugiej grupie odpowiednio y 12, y 22,..., y n2, i analogicznie w trzeciej grupie y 13, y 23,..., y n3. Policzmy średnie ekspresje genu w grupach: ȳ i = 1 n n y ji, dla i = 1, 2, 3 j=1 Niech ȳ oznacza średnią ekspresje we wszystkich grupach, czyli ȳ = 1 3 (ȳ 1 + ȳ 2 + ȳ 3 ) Policzymy teraz dwie sumy kwadratów odchyleń od średniej: wewnątrz grup (SSW) i pomiędzy grupami (SSB): 3 n SSW = (y ji ȳ i ) 2, i=1 j=1 3 n 3 SSB = (ȳ i ȳ) 2 = n (ȳ i ȳ) 2. i=1 j=1 i=1 8

Zdefiniujemy teraz f-statystykę jako: f = jeśli rozważamy k grup statystyka jest równa: f = SSB /(3 1) SSW /(3n 3) SSB /(k 1) SSW /(kn k) Przy założeniu, że dane pochodzą z rozkładu normalnego f-statystyka ma rozkład F k 1,kn k, czyli rozkład F o (k 1, kn k) stopniach swobody. Możemy teraz odrzucić hipotezę zerową jeżeli P (F k 1,kn k > f) < α. Intuicyjnie przy założeniu hipotezy zerowej (jeśli średnie w grupach są równe) to wartość statystyki SSB powinna być mała, podobnie jak wartość f- statystyki, co spowoduje przyjęcie H 0. Literatura [1] Julian J. Faraway Practical Regression and Anova using R, 2002. [2] K. Seefeld, E. Linder, Statistics using R with biological examples, 2007. [3] W.P. Krijnen Applied statistics for bioinformatics using R, 2009. [4] S.K. Mathur, Statistical Bioinformatics with R, Elsevier Academic Press, 2010. [5] W. J. Ewens, G. R. Grant, Statistical Methods in Bioinformatics Springer-Verlag, 2001. 9