Wstęp do statystyki praktycznej Semestr zimowy 2019/2020 Wykładowca: dr Damian Brzyski Strona internetowa: www.im.pwr.wroc.pl/~brzyski
Schemat oceniania: Wymagam obecności. Proszę niezwłocznie usprawiedliwiać absencje. 2 kolokwia podczas semestru Maksymalnie 4 Kartkówki
Zalecane podręczniki: Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT 2004, wyd. II Introduction to the Practice of Statistics, D. Moore, G. McCabe, Freeman 2003, wyd. IV (w bibliotece w C-11) Statistics for the Life Sciences, M. Samuels, J. Witmer, 2003, wyd. III
Dodatkowe uwagi: Część zadań pochodzi z podanych podręczników, a część-ze skryptu H. Jasiulewicz i W. Kordeckiego Rachunek prawdopodobieństwa i statystyka matematyczna. Przykłady i zadania", wyd. II. Proszę zaopatrzyć się w kalkulator; powinien on przynajmniej liczyć średnią i odchylenie standardowe dla zadanego ciągu liczb. Kalkulator jest obowiązkowy na zajęciach i testach. Telefony komórkowe są niedozwolone na testach.
Przygotowanie studenta do zajęć: Proszę przeczytać poprzedni wykład, rozwiązać aktualną listę zadań, przejrzec bieżącą prezentację z Internetu, żeby ułatwić sobie śledzenie wykładu i notowanie. Zachęcam do zadawania pytań i dyskusji.
Dane Używamy danych, aby odpowiedzieć na pytania dotyczące badanych populacji. Na ogół dane charakteryzują się losową zmiennością. Oceniamy informację zawartą w danych, w obliczu losowego szumu.
Przykład 1 Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą? Grupa eksperymentalna ćwiczy, grupa kontrolna-nie. Kogo dotyczy pytanie? Kogo dotyczą pomiary? Co wpłynie na pomiary? Ludzie mają naturalnie różne poziomy cholesterolu, reagują różnie na ten sam reżim ćwiczeń. Ćwiczenia mogą wpływać na inne czynniki.
Przykład 2 Eksperyment mikromacierzowy porównuje komórki rakowe i normalne. Czy zaobserwowany dwukrotnie wyższy poziom ekspresji genu dowodzi faktycznie różnej ekspresji komórek rakowych w ogólności? Ważne aspekty: Czy mamy dość liczne powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne? Dwukrotnie, czy raczej czterokrotnie wyższy poziom ekspresji stanowiłby wystarczający dowód?
Przykład 3 Reakcja owiec na bakterie wąglika Reakcja Szczepione Nie szczepione Śmierć 0 24 Przeżycie 24 0 Procent przetrwania 100% 0%
Przykład 4 E. coli a rozwój raka wątroby u myszy E. coli Wolne od zarazków Rak wątroby 8 19 Zdrowa 5 30 Suma 13 49 Procent myszy z rakiem wątroby 62% 39%
Sygnał i szum Przykład 3 brak zmienności, mocna konkluzja Przykład 4 duża zmienność, niepewna konkluzja Ważne pytania metodologiczne: Czy na podstawie danej proby można wnioskować, że badany czynnik ma wpływ na interesujące nas zjawisko w populacji? Jak duża powinna być próba, aby tak wnioskować?
Schemat badań naukowych Pytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe
Próba: Składa się z obserwacji lub z danych eksperymentalnych. Jest konkretną reprezentacją populacji. Rozmiar próby: n np. n=10, n=35, n=556 Przykłady: Wysokość 10 kłosów żyta (10 obserwacji) Poziom hemoglobiny u 35 dawców Kolor i kształt ziaren grochu
Zmienna Jakiś aspekt tego, co obserwujemy. Przykłady: wysokość, poziom hemoglobiny, kolor i kształt.
Rodzaje zmiennych: Zmienne Jakościowe Ilościowe Porządkowe Nieporządkowe Ciągłe Dyskretne
Zmienne jakościowe (kategoryczne) Jakościowe=kwalifikujące do kategorii: Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze Nie porządkowe, np.: kolor i kształt
Zmienne ilościowe (liczbowe) Ilościowe=wynik jest liczbą: Ciągłe, np. wzrost, waga, stężenie Dyskretne, np. liczba wadliwych elementów, liczba gładkich i żółtych groszków w strączku
Typowe oznaczenia Zmienne: X, Y, Z; np.y=wzrost (pojęcie) Obserwacja: x, y, z; np. y=182cm (wartość) Próba: y 1, y 2,, y n (ciąg obserwacji) Rozmiar próby: n, czasem n 1, n 2
Próba a próbka Biolog mierzy poziom glukozy we krwi 20 ludzi. Biolog: 20 próbek krwi. Statystyk: Jedna próba; 20 pomiarów glukozy. Bezpieczniej jest użyć słowa pomiar tam, gdzie biolog użyłby słowa próbka.
Statystyka opisowa: Opisy rozkładu: Tabela częstości Groszki: gładkie/pomarszczone, zielone/żółte Klasy Liczba Gładkie, żółte 315 Gładkie, zielone 108 Pomarszczone, żółte 101 Pomarszczone, zielone 32
Wykres słupkowy (dla danych jakościowych) 400 groszki generacji F2 liczność 300 200 100 0 round, yellow round, green wrinkled, yellow wrinkled, green
Tabela częstości dla poziomu wykształcenia (USA, ludzie w wieku 25-34 lat, rok 2000) Wykształcenie Liczba (w mln) Procent Podstawowe lub zawodowe 4.7 12.3 Szkoła średnia 11.8 30.7 Szkoła policealna 10.9 28.3 Licencjat 8.5 22.1 Wykształcenie wyższe 2.5 6.6
Wykres słupkowy
Wykres kołowy
Dane ilościowe dyskretne (przykład) Liczba potomstwa u n=36 macior. Liczność miotu jest liczbą całkowitą (zmienna dyskretna).
Dane/próba (wielkość miotu): 10 12 10 7 14 11 14 11 10 13 10 10 8 11 7 13 12 13 10 8 5 11 11 12 11 11 9 8 12 10 9 11 10 12 10 9
Tabela (rozkład) liczności miotu Liczność miotu Liczba macior 5 1 6 0 7 2 8 3 9 3 10 9 11 8 12 5 13 3 14 2
Histogram liczności Liczba (macior) 10 9 8 7 6 5 4 3 2 1 0 5 6 7 8 9 10 11 12 13 14 Liczność miotu
Histogram (liczności) Grupowanie podobnych obserwacji zwykle poprawia czytelność. Prawie zawsze postępujemy tak z danymi ciągłymi. Definiujemy klasy (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy.
Jak wybierać klasy: Klasy są rozłączne i pokrywają wszystkie możliwe wyniki (każda obserwacja wpada do dokładnie jednej klasy). Rozmiar (szerokość) klas (przedziałów) jest często stały. Używamy wygodnych granic przedziałów, np. 20-29, a nie 19.82 29.26. Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n 50); używamy więcej, gdy próba jest duża.
Przykład Dane: długość łodygi papryki (n=15) 12.4 12.2 13.4 10.9 12.2 12.1 11.8 13.5 12 14.1 12.7 13.2 12.6 11.9 13.1
Min=10.9, max=14.1, rozstęp=max-min=3.2 Wybieramy np. szerokość klasy 0.5 oraz początek 10.5, by pokryć zakres 10.5 14.5. Zliczamy liczby wystąpień i rysujemy histogram. Rozważamy zmianę szerokości klas, aby uzyskać bardziej informacyjny i czytelny kształt. Za mała szerokość klas=mała czytelność, za duża = utrata informacji.
Tabela liczności (dla klas) Klasa Liczność 10.5-10.99 1 11.0-11.49 0 11.5-11.99 2 12.0-12.49 5 12.5-12.99 2 13.0-13.49 3 13.5-13.99 1 14.0-14.49 1
Histogram liczności Liczność 6 5 4 3 2 1 0 10.5-11.0-11.5-12.0-12.5-13.0-13.5-14.0-10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Klasa
Przykład: Stężenia CK (kinaza kreatynowa) w surowicy krwi 121 82 100 151 68 58 95 145 64 201 101 163 84 57 139 60 78 94 119 104 110 113 118 203 62 83 67 93 92 110 25 123 70 48 95 42
Dane do histogramu: Min=25, max=203 Rozstęp=178 Szerokość klasy=20 Punkt początkowy=20
Serum CK Liczność 20-39 1 40-59 4 60-79 7 80-99 8 100-119 8 120-139 3 140-159 2 160-179 1 180-199 0 200-219 2 Suma 36
Opis histogramu CK: Centralny szczyt (moda) w okolicach 100 J/L Zasadnicza masa rozkładu między 40 a 140 J/L Niesymetryczny skośny na prawo (=wyciągnięty w prawo)
Dygresja: interpretacja pola powierzchni pod histogramem przy równej szerokość klas Do odcinka 60-100 J/L wpada 42% (15 z 36) wartości CK. = Nad odcinkiem 60-100 J/L leży: 42% całkowitej powierzchni histogramu.
Co robić przy nierównej szerokości klas? Wizualna wielkość klasy = pole słupka. Dlatego warto podzielić liczności klas przez długość odcinka tak, aby pole było proporcjonalne do liczności.
Histogram częstości Często rysujemy histogram tak, że na osi pionowej zaznaczamy częstość (względną) =liczba wystąpień / n Histogram częstości jest użyteczny np. dla porównania zbiorów danych o różnych rozmiarach n
Histogram liczności Histogram częstości 6 0,35 5 0,3 Liczność 4 3 2 1 Częstość 0,25 0,2 0,15 0,1 0,05 0 10.5-11.0-11.5-12.0-12.5-13.0-13.5-14.0-0 10.5-11.0-11.5-12.0-12.5-13.0-13.5-14.0-10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Długość łodygi 10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Długość łodygi
Diagram łodygi i liścia (Stem and leaf plot) Jest to inny sposób podsumowania rozkładu danych; zachowuje prawie pełne informacje. Wybieramy łodygę ( pień ) liczby-zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym. Zapisujemy możliwe łodygi w jednej kolumnie w kolejności rosnącej, i rysujemy pionową linię oddzielającą je od liści.
Diagram łodygi i liścia (Stem and leaf plot) cd. Znajdujemy łodygę odpowiadającą każdej obserwacji. Za linią pionową zapisujemy pozostałe cyfry danej obserwacji= liść. Uwagi: Wygodne do szybkiego zilustrowania rozkładu Dostajemy obrócony histogram Ograniczenie: trudniej manipulować liczbą klas
Przykład: Stężenie glukozy w przedniej komorze prawego oka u 31 zdrowych psów 81 85 93 93 99 76 75 84 78 84 81 82 89 81 96 82 74 70 84 86 80 70 131 75 88 102 115 89 82 79 106
Miejsce na diagram łodygi i liścia:
Słownictwo dla opisu histogramu/rozkładu ():
Statystyka jako procedura obliczeniowa Statystyka = (najczęściej) liczbowa charakterystyka danych Przykłady statystyk dla próby y 1 =24, y 2 =35, y 3 =26, y 4 =36: min=24, max=36 rozstęp= 36-24=12 Statystyka może precyzować kształt, centrum rozkładu, rozrzut itp.
Miary położenia rozkładu Średnia z próby: Symbol y oznacza konkretną liczbę: arytmetyczną średnią z obserwacji. Średnia jest środkiem ciężkości zbioru danych. Y Symbol oznacza pojęcie/ procedurę obliczania średniej z próby dla różnych prób
Przykład: Przyrost wagi owiec Dane : 11, 13, 19, 2, 10, 1 y 1 =11, y 2 =13,, y 6 =1 6 i 1 y y y... y 11 13... 1 56 i 1 2 6 y 56 / 6 9.33
Mediana próbkowa: Definicja: Środkowa obserwacja, jeżeli n jest nieparzyste Średnia z dwóch środkowych wartości, gdy n jest parzyste
Przykłady Przykład 1 (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia z próby = 32/5 = 6.4 Mediana = Przykład 2 (n = 6) Dane: 366 327 274 292 274 230 Średnia z próby = 293.8 Mediana =
Średnia a mediana Przykład 1 cd. (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia = 32/5 = 6.4 Mediana = 6.3 Błąd w zapisie danych: Dane: 6.3 5.9 70 6.9 5.9 Średnia = 19 Mediana = 6.3
Średnia a mediana (cd.) Mediana dzieli powierzchnię histogramu na połowę. Mediana jest odporna, to znaczy nie mają na nią wpływu obserwacje odstające. Przypomnienie: średnia to środek ciężkości histogramu; obserwacje odstające mają duży wpływ na średnią średnia nie jest odporna.
Średnia a mediana (cd.) Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o tym później).
Miary położenia cd.: Kwartyle Kwartyle dzielą zbiór danych na ćwiartki,tzn.: Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana grupy obserwacji mniejszych niż Q2. Trzeci kwartyl (Q3) to mediana grupy obserwacji większych niż Q2.
Przykład Dane: 3 5 6 2 1 7 4
Przykład (n=15) 7 12 8 2 4 3 5 5 4 3 4 5 6 9 3
Rozstęp międzykwartylowy IQR=Q3-Q1 (inter-quartile range)
Wykres ramkowy (Boxplot) Boxplot graficzna reprezentacja 5 liczb: kwartyli, maximum i minimum. Ramka ( pudełko ) powstaje z obrysowania kwartyli. Linie ( wąsy ) ciągną się do wartości najmniejszej i największej.
12 10 8 6 4 2 0 BoxPlot
Zmodyfikowany Boxplot Obserwacja odstająca: Typowe żródła oo: błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu itp. Nasze kryterium dla identyfikacji obserwacji odstających: Dolna granica = Q1-1.5*IQR Górna granica = Q3 + 1.5*IQR
Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16 Czy są oo?
Zmodyfikowany wykres ramkowy (zmodyfikowany boxplot) wskazuje też oo: 5 10 15
Miary rozrzutu: Rozstęp=max min Rozstęp jest bardzo wrażliwy na obserwacje odstające, nieprzydatny do testowania. Rozstęp międzykwartylowy=iqr=q3-q1 = rozstęp środkowych 50% obserwacji Wariancja Odchylenie standardowe Współczynnik zmienności (CV)
Odchylenia (od średniej): dev y y i i dev y y 11 9.33 1.67 1 1 Fakt: Σ dev i =0 (?)
Próbkowe odchylenie standardowe (SD, s) Wyrażone w jednostkach pomiarowych Informuje o ile przeciętnie odległe od średniej są obserwacje. n i 1 i 1 2 s ( y y) /( n 1) (definition) n i 2 2 i ( y ny ) /( n 1) (calculations)
Uwaga: w mianowniku jest n-1: s SS n 1,where n n ( ) 2 2 2 i i i 1 i 1 SS y y y ny
Próbkowa wariancja: s 2 Podaje przeciętny kwadrat odległości od średniej próbkowej: s 2 =SS/(n-1), tzn.: ss= Jest mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane.
Dlaczego n-1? s 2 jest nieobciążonym estymatorem wariancji w populacji (te pojęcia wyjaśnimy później) Σ dev i =0, skąd dev n 1 Heurystyka: n obserwacji daje tylko n-1 stopni swobody = n-1 jednostek informacji i 1 Sprawdź, jak Twój kalkulator liczy SD. (!) n dev i
Miary rozrzutu, cd. Współczynnik zmienności (CV) CV s / y
Przykład: dane 35.1, 30.6, 36.9, 29.8 (n=4) Suma obserwacji: y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4 średnia: = SS = wariancja: s 2 = s= CV= y Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach, zwłaszcza przed odejmowaniem. Zaokrąglamy na koniec (po odejmowaniu). Odpowiedzi wymagają 3 lub więcej cyfr znaczących. (!)
Ogólne uwagi Duże s=duży rozrzut. Małe s=mały rozrzut. Jeżeli histogram (rozkład) jest w kształcie dzwonu ( normalny ), to w przybliżeniu: 68% obserwacji jest w odległości 1 s od średniej 95% obserwacji jest w odległości 2 s od średniej 99% obserwacji jest w odległości 3 s od średniej
Nierówność Czebyszewa Gdy rozkład jest dowolny, to zawsze: co najmniej 75% obserwacji jest w odległości 2 s od średniej, co najmniej 89% obserwacji jest w odległości 3 s od średniej.
Przykład 13 14 12 14 13 12 17 14 13 19 14 11 10 14 15 13 20 20 18 12
Przykład cd. Średnia y = 14.4, odchylenie std. s = 2.9. I ( y 2 s, y 2 s) zawiera około 95% danych. Ocena s = (długość I) /4. Reguła 68-95-99 działa, gdy histogram jest w kształcie dzwonu (bliski normalnemu).
Odporność miar rozrzutu i położenia Załóżmy, że mamy dość skupiony dzwonowy (normalny) zbiór danych. Czy statystyki zmienią się, gdy jedną obserwację zastąpimy bardzo dużą wartością/błędem? Mediana: tak/nie Rozstęp: Średnia: Kwartyle i rozstęp międzykwartylowy: Standardowe odchylenie:
Praca własna (przypomnienie): 1. Proszę przeczytać ponownie wykład, 2. przeczytać i przygotować listę zadań, zapisać w zeszycie rozwiązania, 3. wydrukować i przejrzeć następny wykład (WWW, za kilka dni), 4. powtórzyć 1.-3. po każdym wykładzie.