Bioinformatyka - rozwój oferty edukacyjnej Uniwersytetu Przyrodniczego we Wrocławiu projekt realizowany w ramach Programu Operacyjnego Kapitał Ludzki współfinansowanego ze środków Europejskiego Funduszu Społecznego Wyklad 1 Analiza danych za pomocą pakietu SAS Graficzna reprezentacja danych Statystyki opisowe Podstawy testowania Małgorzata Bogdan Politechnika Wrocławska Obiekty i zmienne Obiekty np. ludzie, zwierzęta, przedmioty Zmienna charakterystyka obiektu Rodzaje zmiennych Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne
Rodzaje zmiennych Jakościowe Porządkowe: np. wybory w ankiecie ; nigdy, rzadko, czasami, często, zawsze Nie porządkowe: Kształt, kolor, rasa itp Ilościowe Ciągłe : wzrost, waga, stężenie Dyskretne : liczba kwiatów itp. Informacje o pracownikach CyberStat Graficzna reprezentacja danych Zmienne jakościowe Wykres słupkowy Wykres kołowy
Zmienne ilościowe - Histogram Statystyki opisowe Średnia Mediana Kwartyle Wykresy pudełkowe Standardowe odchylenie data deaths; input cause $ numdeath; cards; accident 13602 homicide 4989 suicide 3885 cancer 1724 heartdis 1048 congenit 430 respirat 208 AIDS 197; Program 3 proc gchart data=deaths; vbar cause / freq=numdeath; proc gchart data=deaths; pie cause / freq=numdeath; Program 4 data reading; infile ' c:\mbogdan\ecmi\data\ex01_026.txt'; input drp; proc univariate data=reading plot; var drp;
Testy istotności proc gchart data=reading; vbar drp/type=pct midpoints=14 to 54 by 4; proc univariate data=reading; histogram drp/ midpoints=14 to 54 by 4; Podstawy testowania Hipoteza zerowa i alternatywna P-wartość i poziom istotności. Postawienie hipotezy Hipoteza to stwierdzenie dotyczące parameterów opisujących populację lub model (a nie dane). Stawiamy dwie hipotezy: Hipotezę zerową H 0 Hipotezę alternatywną H a Hipoteza zerowa: Hipoteza zerowa to stwierdzenie, które na wstępie jest ``faworyzowane. Zazwyczaj opisuje mało interesującą sytuację ``braku wpływu lub ``braku zależności. Ustalamy czy dane dostarczają wystarczających przesłanek aby odrzucić hipotezę zerową. Test istotności określa w jakim stopniu dane przemawiają przeciwko hipotezie zerowej. Hipoteza alternatywna: Hipoteza alternatywna opisuje sytuację, która może mieć miejsce zamiast H 0. Często ustalamy najpierw H a - np. określamy spodziewany efekt zmiennej objaśniającej. Następnie określamy H 0 jako brak tego efektu. Przykład 1 ctnd. H 0 : µ = 200 Średnia (w populacji) waga pastylki wynosi 200mg. H a : µ 200 Średnia waga pastylki różni się od 200mg. Jest to alternatywa dwu-stronna. (Szukamy odchylenia w obu kierunkach.)
Przykład 1: Inne możliwe sytuacje H 0 : µ = 200 vs. H a : µ <200 Spodziewamy się mniejszej wagi. Alternatywa jedno-stronna. H 0 : µ = 200 vs. H a : µ >200 Spodziewamy się większej wagi. Alternatywa jedno-stronna. H 0 : µ 200 vs. H a : µ >200 Zasadniczo nie różni się od poprzedniej. Uwaga: O postaci alternatywy należy zdecydować przed analizą danych, w oparciu o ogólną wiedzę lub wcześniejsze eksperymenty. P-wartość P-stwo, że przy prawdziwości H 0 statystyka testowa przyjmie co najmniej tak ekstremalną wartość jak zaobserwowana w naszej próbie. Mała p-wartość świadczy przeciwko H 0. Żeby wyznaczyć p-wartość należy znać rozkład statystyki testowej przy H 0. Poziom istotności: P-stwo błędu pierwszego rodzaju. Wartość z którą porównujemy p-wartości. Zwykle oznaczany przez α. Typowe wartości α: 0.05, 0.01. Poziom istotności Jeżeli P-wartość α to mówimy, że dane są statystycznie istotne na poziomie istotności α tzn. mamy istotne przesłanki aby odrzucić hipotezę zerową. Uwaga: Dane o P-wartości 0.02 są statystycznie istotne na poziomie istotności 0.05, ale nie na poziomie istotności 0.01. Wniosek/decyzja: Jeżeli P-wartość jest mniejsza od ustalonego poziomu istotności to odrzucamy hipotezę zerową (na korzyść alternatywy). W innym przypadku nie mamy wystarczających przesłanek aby hipotezę zerową odrzucić. Uwaga: Razem z konkluzją należy podać p- wartość.