Oceny Statystyka stosowana Semestr zimowy / Wykładowca: dr hab. Małgorzata Bogdan Strona internetowa: www.im.pwr.wroc.pl/~mbogdan Testy: 6 listopada i stycznia Kartkówki (pierwsza października) %: dst, 6%: db, %: bdb Test poprawkowy zalicza kurs na ocenę co najwyżej dostateczną plus Podreczniki Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT, wyd. II Introduction to the Practice of Statistics, D. Moore, G. McCabe, Freeman, wyd. IV (w bibliotece w C-) Statistics for the Life Sciences, M. Samuels, J. Witmer,, wyd. III Listy zadań są dostępne w internecie. Część zadań pochodzi ze skryptu H. Jasiulewicz i W. Kordeckiego Rachunek prawdopodobieństwa i statystyka matematyczna. Przykłady i zadania", wyd. II. Proszę zaopatrzyć się w kalkulator. Przygotowanie do zajęć Dane Przeczytać ostatni wykład Rozwiązać obowiązującą listę zadań Można wydrukować bieżącą prezentację z Internetu, żeby ułatwić sobie śledzenie wykładu i notowanie Zachęcam do zadawania pytań Używamy danych, aby odpowiedzieć na pytania dotyczące badanych populacji Na ogół dane charakteryzują się losową zmiennością Oceniamy informację zawartą w danych
Czym jest statystyka? Nauka rozumienia danych i podejmowania decyzji w obliczu losowości Zbiór metod do planowania eksperymentu i analizowania danych tak, aby uzyskać maksimum informacji i ilościową ocenę ich wiarygodności Przykład Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą? Czynniki mogące wpłynąć na wynik eksperymentu: Ludzie mają naturalnie różne poziomy cholesterolu Reagują różnie na ten sam reżim ćwiczeń Różny stopień zaangażowania w realizację ćwiczeń Wpływ diety Ćwiczenia mogą wpływać na inne czynniki, np. apetyt Przykład Przykład Eksperyment mikromacierzowy porównujący komórki rakowe i normalne. Czy dwukrotnie wyższy zaobserwowany poziom ekspresji genu dowodzi faktycznie różnej ekspresji? Czy mamy powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne? Dlaczego dwukrotna zmiana, a nie trzy- lub czterokrotna? Jak ustalić właściwą wartość krytyczną? W artykule prasowym czytamy, że % pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania, a % jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. Czy przeprowadzone badania upoważniają do takiej konkluzji? Przykład Reakcja owiec na bakterie wąglika Przykład Rozwój raka wątroby u myszy Reakcja Szczepione Nie szczepione E. coli Wolne od zarazków Śmierć Rak wątroby 9 Przeżycie Zdrowa Procent przetrwania % % Suma Procent myszy z rakiem wątroby 6 % 9 9 %
Sygnał i szum Losowość Przykład brak zmienności (??): mocna konkluzja Przykład duża zmienność: niepewna konkluzja Jak duża musi być próba, abyśmy w oparciu o nią mogli wywnioskować, że badany czynnik ma wpływ na wynik eksperymentu? Dane na ogół charakteryzują się zmiennością Matematycznie modelujemy tę zmienność używając rachunku prawdopodobieństwa Przykłady Schemat badań naukowych Prognoza pogody- prawdopodobieństwo deszczu wynosi % (zinterpretuj) Prawdopodobieństwo urodzenia dziewczynki wynosi,9 Pytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe Próba, Zmienna Próba, Zmienna cd. Próba: Obserwacje lub wyniki eksperymentu Reprezentuje konkretne realizacje eksperymentu Rozmiar próby: n np. n=, n=, n=6 Przykłady: Wysokość kłosów żyta ( obserwacji) Poziom hemoglobiny u dawców Kolor i kształt ziaren grochu Zmienna: to, co mierzymy tu: wysokość, poziom hemoglobiny, kolor i kształt
Rodzaje zmiennych Zmienne jakościowe (kategoryczne) Zmienne Jakościowe kwalifikujące do kategorii Jakościowe Ilościowe Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze Porządkowe Nie porządkowe Ciągłe Dyskretne Nie porządkowe, np.: kolor i kształt Zmienne ilościowe (liczbowe) Oznaczenia Ilościowe wynik jest liczbą Zmienne: X,Y,Z; np.y=wzrost (pojęcie) Ciągłe, np. wzrost, waga, stężenie Obserwacja: x,y,z; np. y=cm (wynik) Dyskretne, np. liczba wadliwych elementów, liczba gładkich i żółtych groszków Próba: y,y,,y n (wielokrotne obserwacje) Rozmiar próby: n, czasem n,n Próba a próbka Biolog mierzy poziom glukozy we krwi ludzi. próbek krwi? (biolog) Jedna próba pomiarów glukozy. (statystyk) Będziemy używali pomiar tam, gdzie biolog użyłby słowa próba. Klasy Statystyki opisowe: Tabela częstości Groszki:gładkie/pomarszczone, zielone/żółte Gładkie, żółte Gładkie, zielone Pomarszczone, żółte Pomarszczone, zielone Liczba
Wykres słupkowy (dane jakościowe) Wykształcenie Liczba (w mln) Procent liczność groszki generacji F Podstawowe lub zawodowe Szkoła średnia Szkoła policealna Licencjat.7..9...7.. round, yellow round, green wrinkled, yellow wrinkled, green Wykształcenie wyższe. 6.6 Wykres słupkowy Wykres kołowy Dane ilościowe dyskretne Dane Liczba potomstwa u n=6 macior. Liczność miotu jest liczbą całkowitą (zmienna dyskretna). 7 7 9 9 9
Rozkład liczebności Liczba potomstwa Liczba macior 6 7 9 9 Liczba (macior) 9 7 6 Histogram liczebności 6 7 9 Liczność miotu Histogram (liczebności) Grupowanie podobnych obserwacji zwykle jest pomocne Prawie zawsze postępujemy tak z danymi ciągłymi Definiujemy klasy (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy Jak wybierać klasy: Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy są rozłączne i pokrywają wszystkie możliwe wyniki) Rozmiar (szerokość) klas (przedziałów) jest zwykle taki sam Używamy wygodnych granic przedziałów, np. -9, a nie 9. 9.6 Używamy do klas dla umiarkowanych zbiorów danych (n ); więcej, gdy duża próba Przykład Dane : długość łodygi papryki (n=) Min=.9, max=., zakres=max-min=.....9. Wybieramy szerokość klasy, np.. i początek., aby pokryć zakres....... Zliczamy liczby wystąpień i rysujemy histogram..7..6.9. Ew. zmieniamy szerokość klas, aby uzyskać pożądany kształt. Za mała szerokość klas=dużo szumu, za duża = utrata informacji 6
Tabela liczebności (klas) Histogram liczebności. -. -. -. -. -. - Klasa.99.9.99.9.99.9 Liczność Liczność 6. -. -. -. -. -. -. -. -,99,9,99,9,99,9,99,9 Klasa. -.99. -.9 Przykład: Stężenia serum CK 6 Min=, max= 9 6 6 Rozstęp =7 7 9 6 7 9 Szerokość klasy = 9 Punkt początkowy= 6 67 9 9 7 9 Serum CK - 9-9 6-79 - 99-9 - 9-9 6-79 - 99-9 Suma Liczność 7 6 7
Opis histogramu: Centralny szczyt (moda) w okolicach J/L Zasadnicza masa rozkładu między a J/L Niesymetryczny skośny na prawo Interpretacja pola powierzchni pod histogramem (przy równej szerokość klas) Nad odcinkiem 6 - J/L leży: % całkowitej powierzchni histogramu Do tego odcinka wpada: % ( z 6) wartości CK Nierówna szerokość klas Powierzchnia pod histogramem nie jest proporcjonalna do liczności W tak spaczonym histogramie (patrz dalej) powierzchnia między a J/L stanowi 9% całkowitej powierzchni (mimo, że te stężenia stanowią tylko % obserwacji) Rozwiązanie podzielić liczności przez długość odcinka (liczbę zgrupowanych klas) Oś Y na przekształconym histogramie średnia liczność (w zgrupowanych klasach) Histogram częstości Często rysujemy histogram tak, że na osi pionowej zaznaczamy częstość (względną) =liczba wystąpień / n Histogram częstości jest użyteczny, zwłaszcza dla porównania zbiorów danych o różnych rozmiarach n
L ic z n o ś ć Histogram liczebności 6. -. -. -. -. -. -. -. -,99,9,99,9,99,9,99,9 Klasa C z ę s to ś ć Histogram częstości,,,,,,,. -. -. -. -. -. -. -. -,99,9,99,9,99,9,99,9 Długość łodygi Diagram łodygi i liścia (Stem and leaf plot) Jest to inny sposób podsumowania danych; zachowuje prawie wszystkie informacje. Wybieramy łodygę ( pień ) liczby-zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym Zapisujemy wszystkie łodygi w jednej kolumnie w kolejności rosnącej, i rysujemy pionową linię oddzielającą (od liści ) Diagram łodygi i liścia (Stem and leaf plot) cd. Przykład: Stężenie glukozy w przedniej komorze prawego oka u zdrowych psów Znajdujemy ``pień odpowiadający każdej obserwacji. Za linią pionową zapisujemy pozostałe (bez pnia) cyfry danej obserwacji. Ta część zapisu obserwacji nazywana jest liściem. 7 9 7 9 99 76 Dostajemy (obrócony) histogram 9 6 96 7 7 7 7 Ograniczenie: trudniej manipulować liczbą klas 6 9 79 Opis histogramu (rozkładu) Symetryczny / asymetryczny W kształcie dzwonu (normalny) / ciężkie ogony (spłaszczony) Skośny na prawo lub lewo Jednomodalny (jeden główny wierzchołek) Dwumodalny (dwa główne wierzchołki) Wykładniczy (malejący) Rozrzut (duży lub mały) 9
Statystyka Statystyka liczbowa charakterystyka danych Przykłady statystyk: próba: y =,y =, y =6,y =6 min=, max=6, rozstęp= 6-= Opis danych: kształt, centrum, rorzut Miary położenia rozkładu Średnia z próby: symbol y oznacza liczbę; arytmetyczną średnią z obserwacji Symbol Y oznacza pojęcie średniej z próby Średnia jest środkiem ciężkości zbioru danych 6 i= Przykład: Przyrost wagi owiec Dane :,, 9,,, y =, y =,, y 6 = y = y + y +... + y = + +... + = 6 i 6 y = 6 / 6 = 9. Odchylenia dev = y y i i dev = y y = 9. =.67 Σ dev i = (?) Mediana próbkowa: Przykłady Środkowa obserwacja, jeżeli n jest nieparzyste Średnia z dwóch środkowych wartości, gdy n jest parzyste Przykład (n = ) Dane: 6..9 7. 6.9.9 Średnia z próby = / = 6. Mediana = Przykład (n = 6) Dane: 66 7 7 9 7 Średnia z próby = 9. Mediana =
Średnia a mediana Przykład cd. (n = ) Dane: 6..9 7. 6.9.9 Średnia = / = 6. Mediana = 6. Błąd w zapisie danych: Dane: 6..9 7 6.9.9 Średnia = 9 Mediana = 6. Średnia a mediana Mediana dzieli powierzchnię histogramu na połowę Jest odporna nie mają na nią wpływu obserwacje odstające Średnia to środek ciężkości histogramu Obserwacje odstające mają duży wpływ na średnią średnia nie jest odporna Średnia a mediana Miary położenia cd.:kwartyle Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później). Kwartyle dzielą zbiór danych na cztery grupy. Drugi kwartyl (Q) to mediana. Pierwszy kwartyl (Q) to mediana grupy obserwacji mniejszych niż Q. Trzeci kwartyl (Q) to mediana grupy obserwacji większych niż Q. Przykład Przykład (n=) Dane: 6 7 7 6 9
Rozstęp międzykwartylowy IRQ=Q-Q (inter-quartile range) Wykres ramkowy (Boxplot) Boxplot graficzna reprezentacja: mediany, kwartyli, maximum i minimum. Ramka ( pudełko ) powstaje z obrysowania kwartyli Linie ( wąsy ) ciągą się do wartości najmniejszej i największej. BoxPlot Zmodyfikowany Boxplot 6 Obserwacja odstająca: błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu itp. Kryterium do identyfikacji obserwacji odstających: Dolna granica = Q -.*IQR Górna granica = Q +.*IQR Przykładowy zmodyfikowany wykres ramkowy (boxplot) Dane : 6 6 7 6
Miary rorzutu: Próbkowe odchylenie standardowe (SD, s) Rozstęp=max min (bardzo wrażliwy na obserwacje odstające, nieprzydatny do testowania) Rozstęp międzykwartylowy (IRQ=Q-Q) rozstęp środkowych % obserwacji Standardowe odchylenie / Wariancja Wyrażone w jednostkach pomiarowych Informuje o ile przeciętnie odległe od średniej są obserwacje. n ( i ) /( ) (definition) i= s = y y n n ( yi ny ) /( n ) (calculations) i= = Współczynnik zmienności (CV) W mianowniku jest n-: Próbkowa wariancja: s SS s =,where n n n ( i ) i i= i= SS = y y = y ny Przeciętny kwadrat odległości od średniej próbkowej: s =SS/(n-) Mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane Dlaczego n-? s jest nieobciążonym estymatorem wariancji w populacji (te pojęcia wyjaśnimy później) Σ dev i = stąd dev n n = i= dev i Miary rozrzutu, cd. Współczynnik zmienności (CV) CV = s / y n oserwacji daje tu tylko n- stopni swobody = n- jednostek informacji
Przykład: dane.,.6, 6.9, 9. (n=) Suma obserwacji: Σy =. +.6 + 6.9 + 9. =. średnia: y s z definicji: SS = wariancja: s = s= CV= Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach. Zaokrąglamy dopiero na koniec. Ogólne uwagi Duże s=duży rozrzut. Małe s=mały rozrzut. Jeżeli histogram (rozkład ) jest w kształcie dzwonu ( normalny ), to około: 6% obserwacji jest w odległości ± s od średniej 9% obserwacji jest w odległości ± s od średniej 99% obserwacji jest w odległości ± s od średniej Nierówność Czebyszewa Nawet, gdy rozkład nie jest normalny to co najmniej 7% obserwacji jest w odległości ± s od średniej co najmniej 9% obserwacji jest w odległości ± s od średniej. Przykład Przykład cd Średnia y =., odchylenie std. s =.9. 7 9 I = ( y s, y + s) zawiera około 9 % danych. Ocena s = (długość I) /. Reguła działa najlepiej, gdy histogram jest w kształcie dzwonu (bliski normalnemu).
Odporność miar rozrzutu i położenia Praca własna: Załóżmy, że mamy dość skupiony dzwonowy (normalny) zbiór danych. Co się stanie, gdy jedną dużą obserwację zastąpimy bardzo dużą wartością? Mediana: Rozstęp: Średnia: Kwartyle i rozstęp międzykwartylowy: Standardowe odchylenie:. Przeczytać ponownie obecny wykład. Przeczytać i przygotować listę zadań, zapisać w zeszycie wszystkie rozwiązania. Przejrzeć, ew. wydrukować następny wykład (WWW, za kilka dni) Powtórzyć.-. po każdym wykładzie.