W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. dr hab. Jerzy Nakielski Katedra Biofizyki i Morfogenezy Roślin

Plan wykładu: 1. Etapy wnioskowania statystycznego 2. Hipotezy statystyczne, poziom istotności, obszary krytyczne, błędy I i II rodzaju 3. Wnioskowanie statystyczne w modelu opartym na rozkładzie Bernoulliego 4. Rozkład normalny (Gaussa) i standaryzacja pomiarów 5. Wnioskowanie statystyczne w modelu opartym na rozkładzie Gaussa 6. Testowanie przykładowych hipotez w modelach opartych na innych rozkładach (t- Studenta oraz 2 )

wnioskowanie statystyczne próba zbiorowość próbna obliczamy statystyki, np. średnia arytmetyczna i odchylanie standardowe (litery łacińskie) populacja generalna zbiorowość generalna obliczamy parametry, np. średnia arytmetyczna i odchylenie standardowe (litery greckie) wnioskowanie statystyczne (estymacja i weryfikacja hipotez)

Otrzymaną na podstawie próby wartość parametru populacji generalnej nazywamy estymatorem tego parametru Estymatorami są, na przykład, średnia arytmetyczna, czy wariancja Najbardziej pożądany estymator ma następujące cechy: 1. jest nieobciążony dla którego wartość oczekiwana jest równa wartości parametru 2. jest zgodny który, gdy n dąży do nieskończoności zbliża się do wartości parametru, 3. jest efektywny - posiada najmniejszą wariancje, a to ma miejsce wówczas, gdy oceny skupione są wokół wartości parametru

Etapy wnioskowania statystycznego 1. Przyjęcie założeń odnośnie: - modelu opisującego doświadczenie losowe - hipotezy zerowej H 0 oraz odpowiadającej jej hipotezy alternatywnej H 1 2. Dobór testu statystycznego 3. Otrzymanie rozkładu z próby 4. Wyznaczenie poziomu istotności obszaru krytycznego 5. Przeprowadzenie badań i wyliczenie statystyki testu (w oparciu o dane pochodzące z próby) 6. Podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy zerowej

Hipotezą statystyczną nazywamy każde przypuszczenie odnoszące się do populacji generalnej wysunięte w oparciu o próbę Hipotezy mogą dotyczyć: - wartości badanych zmiennych, - różnicy pomiędzy cechami opisującymi badaną populacje, - zależności pomiędzy badanymi zmiennymi, - kształtu zależności badanych zmiennych - porównania rozkładu zmiennych istotności (czy statystyki różnych prób różnią się istotnie) Hipotezy statystyczne niezależności (czy istnieje współzależność pomiędzy cechami) zgodności (gdy dotyczy oceny rozkładu zmiennej losowej, lub zgodności rozkładów dwóch niezależnych prób)

W badaniach statystycznych zawsze istnieje prawdopodobieństwo: 1. odrzucenia hipotezy H 0 mimo, że jest prawdziwa, 2. przyjęcia hipotezy H 0 mimo, że jest fałszywa. W pierwszym przypadku popełniamy błąd I rodzaju (alfa), w drugim przypadku popełniamy błąd II rodzaju (beta). moc testu = 1- beta (zdolność uniknięcia błędu II rodzaju) poziom istotności (ułamek wyrażający ryzyko popełnienia błędu I rodzaju)

obszar krytyczny przedział ufności obszar krytyczny

Wnioskowane w zakresie struktury zjawisk

Analiza dynamiki zjawisk

Analiza zależności zjawisk

Do weryfikacji hipotez służą testy statystyczne

Zmienna losowa i jej rozkład

Funkcje zmiennej losowej

Rozkład dwumianowy

Zmienna losowa dyskretna. Rozkład dwumianowy (Bernoulliego) p=0.5, n=15

p=0.3, n=20 k- liczba sukcesów p=0.2, n=5 p=0.2, n=20

1. Przyjęcie założeń odnośnie: - modelu opisującego doświadczenie losowe - hipotezy zerowej H 0 oraz odpowiadającej jej hipotezy alternatywnej H 1 2. Dobór testu statystycznego 3. Otrzymanie rozkładu z próby 4. Wyznaczenie poziomu istotności obszaru krytycznego 5. Przeprowadzenie badań i wyliczenie statystyki testu (w oparciu o dane pochodzące z próby) 6. Podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy zerowej

p=0.5, n=10

Zmienna losowa ciągła. Rozkład normalny W statystyce znaczenie dominujące ma rozkład normalny: m krzywa Gaussa (dzwonowata ) 1. Większość cech populacji biologicznych ma rozkład w przybliżeniu normalny bądź rozkład, który można zamienić na normalny po odpowiednim przekształceniu 2. Wiele rozkładów w określonych warunkach zbliża się do rozkładu normalnego (np. rozkład dwumianowy ze wzrostem n nawet dla p odległych od 0.5) 3. Jeśli zmienne X i są niezależne oraz mają skończone średnie i wariancje to suma tych zmiennych ma w przybliżeniu rozkład normalny (przybliżenie jest tym lepsze im więcej jest zmiennych). Gdy każda z tych zmiennych ma rozkład normalny, ich suma i średnia też mają rozkłady normalne.

m=20 s=2 własności gęstości f(x): 1. symetryczna względem x=m 2. maksimum dla x=m 3. punkty przegięcia dla x=m-s i dla x=m+s 4. f(x)>0, 5. m ma sens wartości oczekiwanej

6. Jeśli X ma rozkład opisywany przez f(x) z parametrami m oraz s to prawdopodobieństwo, że losowo wybrana wartość X zawarta będzie w przedziale od a do b wynosi: 7. Całka od minus nieskończoności do x z f(x) daje dystrybuantę F(x)

8. Reguła trzech sigm

standaryzacja pomiarów

Powierzchnia pod krzywą rozkładu normalnego standaryzowanego (licząc od z = 0 do wartości podanej w pierwszej kolumnie)

F(3)-F(2)= 0,99865-0,87725=0,0214

Rozkład t- Studenta

Przykład: Pojedyncza próba

Wartości krytyczne rozkładu t dla różnych poziomów istotności

Testy statystyczne

Rozkład chi- kwadrat ( 2 )

test dwustronny obszar krytyczny przedział ufności obszar krytyczny

Weryfikowanie hipotez dotyczących wariancji

Testy statystyczne

Materiały pochodzą z następujących podręczników: 1. Cann A., Maths from Scratch for Biologists, Wiley, Chichester, 2003 2. Gondko R., Zgirski A., Adamska M. Biostatystyka w zadaniach. Wyd. Uniwersytetu Łódzkiego, Łódź 1994 3. Kala R., Statystyka dla przyrodników, Wyd. Akademii Rolniczej, Poznań 2002 4. Krysicki W. i inni. Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach. Cz.II. Statystyka matematyczna, Wydawnictwo Naukowe PWN, Warszawa 2000 5. Leitner R., Zacharski J., Zarys matematyki wyższej dla studentów, cz.iii, Wyd. Naukowo-Techniczne, Warszawa 1995 6. Łomnicki A., Wprowadzenie do statystyki dla przyrodników, Wyd. Naukowe PWN, Warszawa 1995 7. Neuhauser C., Calculus for Biology and Medicine, Pearson Education 2004 8. Stanisz A., Przystępny kurs statystyki, StatSoft, Kraków 1998 9. Żuk B. Biometria stosowana, PWN Warszawa 1989