Schemat oceniania: Wstęp do statystyki praktycznej Semestr zimowy 2016/2016 Wykładowca: prof. dr hab. inż. Krzysztof Bogdan Wymagam obecności. Proszę niezwłocznie usprawiedliwiać absencje. 2 Kolokwia. Skreślam osoby, które opuściły oba. Kartkówki są niezapowiadane (zakres: dwa ostatnie wykłady). Wszystkie punkty się sumują. 50%: dst, 70%: db, 90%: bdb, itp. Zaliczenie w sesji daje ocenę co najwyżej dst+. Dla osób poniżej progu 50% doliczę 1/10 wyniku procentowego z semestru, pod warunkiem nieprzekroczenia 3 nieobecności. Zalecane podręczniki: Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT 2004, wyd. II Introduction to the Practice of Statistics, D. Moore, G. McCabe, Freeman 2003, wyd. IV (w bibliotece w C-11) Statistics for the Life Sciences, M. Samuels, J. Witmer, 2003, wyd. III Dodatkowe uwagi: Listy zadań są dostępne na stronie www kursu. Część zadań pochodzi z podanych podręczników, a część ze skryptu H. Jasiulewicz i W. Kordeckiego Rachunek prawdopodobieństwa i statystyka matematyczna. Przykłady i zadania", wyd. II. Proszę zaopatrzyć się w kalkulator; powinien on przynajmniej liczyć średnią i odchylenie standardowe dla zadanego ciągu liczb. Kalkulator jest obowiązkowy na zajęciach i testach. Telefony komórkowe są niedozwolone na testach. Przygotowanie studenta do zajęć: Proszę przeczytać poprzedni wykład, rozwiązać aktualną listę zadań, wydrukować i przejrzec bieżącą prezentację z Internetu, żeby ułatwić sobie śledzenie wykładu i notowanie. Zachęcam do dyskusji i zadawania pytań. 1
Dane Używamy danych, aby odpowiedzieć na pytania dotyczące badanych populacji. Na ogół dane charakteryzują się losową zmiennością. Oceniamy informację zawartą w danych, w obliczu losowego szumu. Czym jest statystyka jako nauka? To nauka rozumienia danych i podejmowania decyzji w obliczu losowości. To także zbiór metod do planowania eksperymentu i analizowania danych tak, aby uzyskać informację i ocenę jej wiarygodności. Przykład 1 Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą? Grupa eksperymentalna ćwiczy, grupa kontrolna-nie. Kogo dotyczy pytanie? Kogo dotyczą pomiary? Co wpłynie na pomiary? Okoliczności: Ludzie mają naturalnie różne poziomy cholesterolu, reagują różnie na reżim ćwiczeń. Ćwiczenia mogą wpływać na inne czynniki. Przykład 2 Eksperyment mikromacierzowy porównuje komórki rakowe i normalne. Czy zaobserwowany dwukrotnie wyższy poziom ekspresji genu dowodzi faktycznie różnej ekspresji komórek rakowych w ogólności? Ważne pytania: Czy mamy dość liczne powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne? Dwukrotnie, czy raczej czterokrotnie wyższy poziom ekspresji stanowiłby wystarczający dowód? Przykład 3 Reakcja owiec na bakterie wąglika Reakcja Szczepione Nie szczepione Śmierć 0 24 Przeżycie 24 0 Procent przetrwania 100% 0% Przykład 4 E. coli a rozwój raka wątroby u myszy Myszy zarażone E. coli Wolne od zarazków Rak wątroby 8 19 Zdrowa wątroba 5 30 Suma 13 49 Procent myszy z rakiem wątroby 62% 39% 2
Sygnał i szum Schemat badań naukowych Przykład 3 brak zmienności, mocna konkluzja Przykład 4 duża zmienność, niepewna konkluzja Ważne pytania metodologiczne: Czy na podstawie danej proby można wnioskować, że badany czynnik ma wpływ na interesujące nas zjawisko w populacji? Jak duża powinna być próba, aby tak wnioskować? Pytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe Próba: Składa się z obserwacji lub z danych eksperymentalnych. Jest konkretną reprezentacją populacji. Rozmiar próby: oznaczamy n np. n=10, n=35, n=556 Przykłady: wysokość 10 kłosów żyta (10 obserwacji) poziom hemoglobiny u 35 dawców krwi kolor i kształt ziaren grochu Zmienna Jakiś aspekt tego, co obserwujemy. Przykłady: wysokość, poziom hemoglobiny, kolor i kształt. Rodzaje zmiennych: Zmienne jakościowe (kategoryczne) Zmienne Jakościowe=kwalifikujące do kategorii: Jakościowe Ilościowe Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze Nieporządkowe, np.: kolor i kształt Porządkowe Nieporządkowe Ciągłe Dyskretne 3
Zmienne ilościowe (liczbowe) Ilościowe=wynik jest liczbą: Typowe oznaczenia Zmienne: X, Y, Z; np.y=wzrost (pojęcie) Ciągłe, np. wzrost, waga, stężenie Obserwacja: x, y, z; np. y=182cm (wartość) Dyskretne, np. liczba wadliwych elementów, liczba gładkich i żółtych groszków w strączku Próba: y 1, y 2,, y n (ciąg obserwacji) Rozmiar próby: n, czasem n 1, n 2 Próba a próbka Biolog mierzy poziom glukozy we krwi 20 ludzi. Biolog: Mam 20 próbek krwi. Statystyk: To jedna próba złożona z 20-tu pomiarów glukozy. Bezpieczniej jest użyć słowa pomiar tam, gdzie biolog użyłby słowa próbka. Klasy Statystyka opisowa: Opisy rozkładu: Tabela częstości Groszki: gładkie/pomarszczone, zielone/żółte Liczba Gładkie, żółte 315 Gładkie, zielone 108 Pomarszczone, żółte 101 Pomarszczone, zielone 32 Wykres słupkowy (dla danych jakościowych) Tabela częstości dla poziomu wykształcenia (USA, ludzie w wieku 25-34 lat, rok 2000) Wykształcenie Liczba (w mln) Procent liczność 400 300 200 100 groszki generacji F2 Podstawowe lub zawodowe Ukończona szkoła średnia 4.7 12.3 11.8 30.7 Szkoła policealna 10.9 28.3 0 Licencjat 8.5 22.1 round, yellow round, green wrinkled, yellow wrinkled, green Wykształcenie wyższe 2.5 6.6 4
Wykres słupkowy Wykres kołowy Dane ilościowe dyskretne (przykład) Dane/próba (wielkość miotu): Liczba potomstwa u n=36 macior. Liczność miotu jest liczbą całkowitą (zmienna dyskretna). 10 12 10 7 14 11 14 11 10 13 10 10 8 11 7 13 12 13 10 8 5 11 11 12 11 11 9 8 12 10 9 11 10 12 10 9 Tabela (rozkład) liczności miotu Histogram liczności Liczność miotu Liczba macior 5 1 6 0 7 2 8 3 9 3 10 9 11 8 12 5 Liczba (macior) 10 9 8 7 6 5 4 3 2 1 0 5 6 7 8 9 10 11 12 13 14 13 3 14 2 Liczność miotu 5
Histogram (liczności) Oznacza grupowanie zbliżonych obserwacji. Definiujemy klasy (przedziały) obserwacji i zliczamy obserwacje wpadające klas. Jak wybierać klasy: Klasy są rozłączne i pokrywają wszystkie możliwe wyniki (każda obserwacja wpada do dokładnie jednej klasy). Rozmiar (szerokość) klas (przedziałów) jest często stały. Używamy wygodnych granic przedziałów, np. 20-29, a nie 19.82 29.26. Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n 50); używamy więcej, gdy próba jest duża. Przykład Dane: długość łodygi papryki w calach (n=15) 12.4 12.2 13.4 10.9 12.2 12.1 11.8 13.5 12 14.1 12.7 13.2 12.6 11.9 13.1 min=10.9, max=14.1, rozstęp=max-min=3.2 Wybieramy np. szerokość klasy 0.5 oraz początek 10.5, by pokryć zakres 10.5 14.5. Zliczamy liczby wystąpień i rysujemy histogram. Możemy zmieniać szerokość klas, aby uzyskać bardziej informacyjny lub czytelny kształt. Za mała szerokość klas= dużo szumu, za duża = utrata informacji. Tabela liczności (dla klas) Klasa Liczność Histogram liczności 10.5-10.99 1 11.0-11.49 0 11.5-11.99 2 12.0-12.49 5 12.5-12.99 2 Liczność 6 5 4 3 2 1 0 10.5-11.0-11.5-12.0-12.5-13.0-13.5-14.0-10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 13.0-13.49 3 Klasa 13.5-13.99 1 14.0-14.49 1 6
Przykład: Stężenia CK (kinaza kreatynowa) w surowicy krwi Dane do histogramu: 121 82 100 151 68 58 95 145 64 201 101 163 84 57 139 60 78 94 119 104 110 113 118 203 62 83 67 93 92 110 min=25, max=203 rozstęp=178 szerokość klasy=20 punkt początkowy=20 25 123 70 48 95 42 Serum CK Liczność 20-39 1 40-59 4 60-79 7 80-99 8 100-119 8 120-139 3 140-159 2 160-179 1 180-199 0 200-219 2 Suma 36 Opis histogramu CK: Centralny szczyt (moda) w okolicach 100 J/L Zasadnicza masa rozkładu między 40 a 140 J/L Niesymetryczny skośny na prawo (=wyciągnięty w prawo) Dygresja: interpretacja pola powierzchni pod histogramem przy równej szerokość klas Do odcinka 60-100 J/L wpada 42% (15 z 36) wartości CK. = Nad odcinkiem 60-100 J/L leży: 42% całkowitej powierzchni histogramu. 7
Co robić przy nierównej szerokości klas? Wizualna wielkość klasy = pole słupka. Dlatego warto podzielić liczności klas przez długość odcinka tak, aby pole było proporcjonalne do liczności. Histogram częstości Często rysujemy histogram tak, że na osi pionowej zaznaczamy częstość (względną) =liczba wystąpień /n. Histogram częstości jest użyteczny np. dla porównania prób o różnych rozmiarach n. Diagram łodygi i liścia (Stem and leaf plot) Liczność 6 5 4 3 2 1 0 Histogram liczności 10.5-11.0-11.5-12.0-12.5-13.0-13.5-14.0-10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Długość łodygi Częstość Histogram częstości 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 10.5-11.0-11.5-12.0-12.5-13.0-13.5-14.0-10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Długość łodygi Jest to prosty sposób ilustracji rozkładu danych: Wybieramy łodygę ( pień ) danych-zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym. Zapisujemy łodygi w kolumnie w kolejności rosnącej, rysujemy pionową linię. Za linią zapisujemy pozostałe cyfry obserwacji= liście. 8
Przykład: Stężenie glukozy w przedniej komorze prawego oka u 31 zdrowych psów Miejsce na diagram łodygi i liścia: 81 85 93 93 99 76 75 84 78 84 81 82 89 81 96 82 74 70 84 86 80 70 131 75 88 102 115 89 82 79 106 Słownictwo dla opisu histogramu/rozkładu (): Symetryczny/asymetryczny W kształcie dzwonu ( normalny )/ciężkie ogony (spłaszczony) Skośny=rozciągniety w prawo lub lewo Jednomodalny=jeden główny wierzchołek Dwumodalny=dwa główne wierzchołki Wykładniczy=malejący jak eksponenta Rozrzut: duży lub mały Statystyka jako procedura obliczeniowa Statystyka = (najczęściej) liczbowa charakterystyka danych Przykłady statystyk dla próby y 1 =24, y 2 =35, y 3 =26, y 4 =36: min=24, max=36 rozstęp= 36-24=12 Statystyka może precyzować kształt, centrum, rozrzut danych/rozkładu itp. Miary położenia rozkładu Średnia z próby: Symbol y oznacza konkretną liczbę: arytmetyczną średnią z obserwacji. Średnia jest środkiem ciężkości zbioru danych. Y Symbol oznacza pojęcie=procedurę obliczania średniej z próby dla różnych prób 6 i1 Przykład: Przyrost wagi owiec Dane : 11, 13, 19, 2, 10, 1 y 1 =11, y 2 =13,, y 6 =1 y y y... y 1113... 1 56 i 1 2 6 y 56 / 6 9.33 9
Mediana próbkowa: Definicja: Przykłady Środkowa obserwacja, jeżeli n jest nieparzyste Średnia z dwóch środkowych wartości, gdy n jest parzyste Przykład 1 (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia z próby = 32/5 = 6.4 Mediana = Przykład 2 (n = 6) Dane: 366 327 274 292 274 230 Średnia z próby = 293.8 Mediana = Średnia a mediana Przykład 1 cd. (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia = 32/5 = 6.4 Mediana = 6.3 Te same dane z błędem w zapisie: Dane: 6.3 5.9 70 6.9 5.9 Średnia = 19 Mediana = 6.3 Średnia a mediana (cd.) Mediana dzieli powierzchnię histogramu na połowę. Mediana jest odporna, to znaczy nie mają na nią wpływu obserwacje odstające. Przypomnienie: średnia to środek ciężkości histogramu; obserwacje odstające mają duży wpływ na średnią średnia nie jest odporna. Średnia a mediana (cd.) Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o tym później). Miary położenia cd.: Kwartyle Kwartyle dzielą zbiór danych na ćwiartki, tzn.: Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana grupy obserwacji mniejszych niż Q2. Trzeci kwartyl (Q3) to mediana grupy obserwacji większych niż Q2. 10
Przykład Dane: 3 5 6 2 1 7 4 Przykład (n=15) 7 12 8 2 4 3 5 5 4 3 4 5 6 9 3 Rozstęp międzykwartylowy IQR=Q3-Q1 (inter-quartile range) Wykres ramkowy (Boxplot) Boxplot graficzna reprezentacja 5 liczb: kwartyli, maximum i minimum. Ramka ( pudełko ) powstaje z obrysowania kwartyli. Linie ( wąsy ) ciągną się do wartości najmniejszej i największej. BoxPlot Zmodyfikowany Boxplot 12 10 8 6 4 2 0 Obserwacja odstająca (oo): Typowe żródła oo: błąd w zapisie danych, błąd pomiaru, zmiana warunków eksperymentu itp. Nasz zakres dla identyfikacji oo: Dolna granica = Q1-1.5*IQR Górna granica = Q3 + 1.5*IQR 11
Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16 Czy są tu oo? Zmodyfikowany wykres ramkowy (zmodyfikowany boxplot) wskazuje oo: 5 10 15 Miary rozrzutu: Rozstęp=max min Rozstęp jest zbyt wrażliwy na obserwacje odstające. Rozstęp międzykwartylowy=iqr=q3-q1 = rozstęp środkowych 50% obserwacji Wariancja Odchylenie standardowe Współczynnik zmienności (CV) Odchylenia (od średniej): dev y y i i dev1 y1 y 11 9.33 1.67 Fakt: Σ dev i =0. Próbkowe odchylenie standardowe (SD, s) Jest wyrażone w jednostkach pomiarowych. Informuje o ile przeciętnie odległe od średniej są obserwacje. n 2 ( i ) /( 1) (definition) i1 s y y n n 2 ( yi 2 ny ) /( n 1) (calculations) i1 Uwaga: w mianowniku jest n-1: SS s,where n 1 n n 2 2 2 ( i ) i i1 i1 SS y y y ny 12
Próbkowa wariancja: s 2 Podaje przeciętny kwadrat odległości od średniej próbkowej: s 2 =SS/(n-1). Jest mierzona w kwadratach jednostek, w których wyrażone są dane. Dlaczego n-1? s 2 jest nieobciążonym estymatorem wariancji w populacji (te pojęcia wyjaśnimy później) n1 Σ dev i =0, skąd dev dev n i1 Heurystyka: n obserwacji daje tylko n-1 stopni swobody = n-1 jednostek informacji Sprawdź, jak Twój kalkulator liczy SD dla próby: 1, 2.5, 3.1 (odp. 1.082) i Miary rozrzutu, cd. Współczynnik zmienności (CV) CV s / y Przykład: dane 35.1, 30.6, 36.9, 29.8 (n=4) Suma obserwacji: y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4 średnia: y= SS = wariancja: s 2 = s= CV= Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach, zwłaszcza przed odejmowaniem. Zaokrąglamy na koniec (po odejmowaniu). Wymagam 3 lub więcej cyfr znaczących w odpowiedziach. Ogólne uwagi Duże s=duży rozrzut. Małe s=mały rozrzut. Jeżeli histogram (rozkład) jest w kształcie dzwonu ( normalny ), to w przybliżeniu: 68% obserwacji jest w odległości 1 s od średniej 95% obserwacji jest w odległości 2 s od średniej 99% obserwacji jest w odległości 3 s od średniej 13
Nierówność Czebyszewa Przykład Gdy rozkład jest dowolny, to wiemy tylko: co najmniej 75% obserwacji jest w odległości 2 s od średniej, co najmniej 89% obserwacji jest w odległości 3 s od średniej. 13 14 12 14 13 12 17 14 13 19 14 11 10 14 15 13 20 20 18 12 Przykład cd. Średnia y = 14.4, odchylenie std. s = 2.9. I ( y 2 s, y 2 s) Ocena s = (długość I) /4. zawiera około 95% danych. Reguła 68-95-99 działa, gdy histogram jest w kształcie dzwonu (bliski normalnemu). Odporność miar rozrzutu i położenia Załóżmy, że mamy dość skupiony dzwonowy (normalny) zbiór danych. Czy statystyki zmienią się, gdy jedną obserwację zastąpimy bardzo dużą wartością/błędem? Mediana: tak/nie Rozstęp: Średnia: Kwartyle i rozstęp międzykwartylowy: Standardowe odchylenie: Praca własna (przypomnienie): 1. Proszę przeczytać ponownie wykład, 2. przeczytać i przygotować listę zadań, zapisać w zeszycie rozwiązania, 3. wydrukować i przejrzeć następny wykład (WWW, za kilka dni), 4. powtórzyć 1.-3. po każdym wykładzie. 14