STATYSTYKA POWTORZENIE Dr Wioleta Drobik-Czwarno
Populacja Próba Parametry EX, µ Statystyki średnia D 2 X, δ 2 S 2 wnioskowanie DX, δ p ρ S w r......
JAK POWSTAJE MODEL MATEMATYCZNY Dane eksperymentalne Dane uzyskane na podstawie modelu Problem badawczy Rozwiązanie i weryfikacja modelu Sformułowanie modelu matematycznego Helen M. Byrne (2010), Nature Reviews Cancer Proces modelowania ma charakter iteracyjny i multidyscyplinarny
Etapy analizy statystycznej Problem badawczy Hipotezy badawcze Wybór próby i narzędzi badawczych Gromadzenie danych Analiza danych Wnioski
STATYSTYKA OPISOWA (OPIS PRÓBY) Miary położenia (skupienia, tendencji centralnej): średnia arytmetyczna, mediana, dominanta Miary zmienności (rozproszenia, rozrzutu, dyspersji): wariancja, odchylenie standardowe, wskaźnik zmienności Miary asymetrii (skośności): Średnia a mediana Współczynniki asymetrii
ASYMETRIA
ESTYMACJA badana cecha: masa ciała ryjówki malutkiej badanie nr 1 średnia = 4,8 g badanie nr 2 średnia = 6,2 g badanie nr 3 średnia = 5,1 g
ESTYMACJA PRZEDZIAŁOWA (PRZEDZIAŁY UFNOŚCI) P(x 1 < EX <x 2 ) = 1 - α np.: P(3 < EX < 7) = 0,99 P(4 < EX < 6) = 0,95
WERYFIKACJA HIPOTEZ STATYSTYCZNYCH Hipoteza badawcza: leki A i B różnie wpływają na stan kliniczny pacjentów EXA EXB (na tym nam zależy) Hipoteza statystyczna (H0): lek A i B tak samo wpływają na stan kliniczny pacjentów EXA = EXB (łatwiejsze do zbadania)
TEST STATYSTYCZNY Zbiór reguł postępowania, w wyniku których podejmujemy decyzję o przyjęciu lub odrzuceniu H 0. decyzja prawdziwa przyjmujemy + odrzucamy błąd I rodzaju poziom istotności (α) 0,05; 0,01 fałszywa błąd II rodzaju (β) moc testu (1-β) 0,8-0,9 +
WYBÓR TESTU STATYSTYCZNEGO Czy istnieje zależność między grupami badawczymi? (tak/nie) Ile mamy grup badawczych? (2/>2) Jaka jest skala pomiarowa zmiennych? (nominalna/porządkowa/ilościowa) Jaki jest rozkład zmiennych? (normalny/inny) Czy wariancje w poszczególnych grupach są jednorodne? (tak/nie)
ANALIZY STATYSTYCZNE W R
PRZYKŁADOWA BAZA DANYCH Baza survey z pakietu MASS Baza zawiera odpowiedzi 237 studentów uniwersytetu Adelaide na pytania zawarte w ankiecie Przykładowe zmienne: Płeć: Male, Female W.Hnd: praworęczność right lub leworęczność left, Pulse (uderzenia serca na minute) Smoke (jak dużo papierosów pali student): Heavy, Regul, Occas, Never Height (wzrost w cm) Age (wiek)
PRZYKŁADOWA BAZA DANYCH
CECHY JAKOŚCIOWE Tabela liczebności (kontyngencji) funkcja table() zestawienie liczebności w grupach Przykład:
STATYSTYKA OPISOWA CECHY ILOŚCIOWE Cechy ilościowe - najważniejsze funkcje: length długość wektora (liczba elementów) sum suma elementów wektora max, min maksymalna i minimalna wartość z wektora mean średnia arytmetyczna Jeśli podamy dodatkowy parametr trim - to funkcja policzy, średnią po odrzuceniu określonego odsetka wartości skrajnych, np. mean(x,trim=0.1) to średnia z x po odrzuceniu 10% wartości skrajnych quantile dowolny kwantyl, np. quantile(x,.5) - to mediana z x, inaczej median(x) sd odchylenie standardowe var wariancja moda wartość występująca najczęściej
STATYSTYKA OPISOWA Funkcja summary() wyświetla proste podsumowania wektora obserwacji Dla zmiennej jakościowej: Liczebności obserwacji w każdym z możliwych poziomów Dla zmiennej ilościowej: Wektor z wartościami: Minimum Maksimum Średnia Mediana Kwartyle
STATYSTYKA OPISOWA Wynik funkcji summary() dla przykładowej ramki danych
WYKRESY Możliwość wykorzystania jednego z dwóch systemów graficznych Pakiet graphics wykorzystany w podstawowej wersji R Pakiet grid wykorzystany w dodatkowych pakietach np. lattice, ggplot2 Pakiet graphics Pakiet lattice Pakiet ggplot2 plot(pulse,height) xyplot(height~pulse) qplot(pulse,height)
WYKRESY Histogram przedstawia liczebności obiektów w poszczególnych przedziałach (klasach) danej zmiennej Funkcja hist() Histogram, ustawienia domyślne Zmiana liczby przedziałów (breaks)
Wykresy Wykres pudełkowy zmienność pojedynczej lub kilku zmiennych Funkcja boxplot() Obserwacje odstające (ang. outliers) - ponad 1,5 przedziału międzykwartylowego (IQR) od kwartyli
WYKRESY Wykres rozrzutu zależności między parą zmiennych ilościowych Funkcja plot() plot(pulse,height,col=rainbow(2),pch=19)
WYKRESY Najważniejsze argumenty wykresów main tytuł np. main= wykres xlab, ylab - tytuły osi np. xlab= nazwa osi x ylim dolna i górna granica wartości dla osi y np. zakres od 0 do 50 co 5: ylim=c(0,50,5) breaks liczba przedziałów przy tworzeniu histogramu col - kolory
TESTOWANIE HIPOTEZ p-value = prawdopodobieństwo testowe, graniczny poziom istotności Prawdopodobieństwo uzyskania analizowanych danych przy założeniu, że hipoteza zerowa jest prawdziwa Miara prawdopodobieństwa popełnienia błędu pierwszego rodzaju czyli nieodrzucenia fałszywej hipotezy zerowej p-value > 0.05 brak podstaw do odrzucenia hipotezy zerowej p-value <= 0.05 istotnie odrzucamy hipotezę zerową p-value <= 0.01 wysokoistotnie odrzucamy hipotezę zerową
WYBRANE TESTY STATYSTYCZNE Sprawdzanie czy zmienna ma rozkład normalny Ograniczenia przy powtórzonych wartościach w próbie Test Shapiro-Wilka Wartość empiryczna testu shapiro.test(x) H 0 : badana zmienna ma rozkład normalny Czyli: 1 x 10^-16 Prawdopodobieństwo testowe < 0.01 więc odrzucamy hipotezę zerową wysokoistotnie Prawdopodobieństwo testowe > 0.05 więc brak podstaw do odrzucenia hipotezy zerowej
WYBRANE TESTY STATYSTYCZNE Sprawdzanie zgodności rozkładu z założonym (ang. Chi square goodness of fit test) H 0 : Rozkład jest zgodny z założonym (1:7:1:1) zakładamy, że 70% studentów należy do osób nie palących, a w każdej z pozostałych grup znajduje się po 10% studentów
WYBRANE TESTY STATYSTYCZNE Test na jednorodność wariancji F-Snedecora var.test(x,y) H 0 : σ 2 1= σ 2 2
WYBRANE TESTY STATYSTYCZNE Test na proporcje mała próba binom.test(x=9,n=20,p=0.2) Oparty na rozkładzie dwumianowym 9 sukcesów w 20 próbach prawdopodobieństwo sukcesu 20% H 0 : p=0.2
WYBRANE TESTY STATYSTYCZNE Test na proporcje duża próba (odpowiednik testu U) Oparty na statystyce Chi-kwadrat prop.test(x=2000,n=100000,p=0.2) 2000 sukcesów w 100 000 prób prawdopodobieństwo sukcesu 20% H 0 : p=0.2
WYBRANE TESTY STATYSTYCZNE Test na średnią w jednej populacji Zakłada rozkład normalny Test t-studenta Przykład: Czy średni wzrost studentów był równy 170 cm? t.test(x,mu=170) H 0 : μ=170
WYBRANE TESTY STATYSTYCZNE Test na średnią w dwóch populacjach Zakłada rozkład normalny i jednorodność wariancji Test t-studenta Przykład: Czy średnia wzrostu dla studentów obu płci jest taka sama? t.test(wzrost_m,wzrost_f) H 0 : μ 1 = μ 2
WYBRANE TESTY STATYSTYCZNE Test na niezależność chi-kwadrat Musimy mieć tabelę liczebności np: Kolejne elementy to gatunek filmowy: sensacyjny, komedia, horror kobiety<-c(21,12,32) mezczyzni<-c(33,22,33) chisq.test(bind(kobiety, mezczyzni)) H 0 : Cechy są niezależne
WYBRANE TESTY STATYSTYCZNE Test na niezależność chi-kwadrat Czy częstotliwość palenia tytoniu u studentów zależy od płci?
WYBRANE TESTY STATYSTYCZNE Korelacja liniowa Pearsona Wartości od -1 do +1 Liniowa zależność pomiędzy dwoma zmiennymi ilościowymi funkcja: cor() lub z testem istotności cor.test()