Wstęp do statystyki praktycznej. Semestr zimowy 2019/2020 Wykładowca: dr Damian Brzyski Strona internetowa:

Podobne dokumenty
Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Schemat oceniania: Wstęp do statystyki praktycznej. Zalecane podręczniki: Dodatkowe uwagi: Przygotowanie studenta do zajęć:

Oceny: Wstęp do statystyki praktycznej. Zalecane podręczniki: Dodatkowe uwagi:

Oceny: Statystyka stosowana. Zalecane podręczniki: Dane. Dodatkowe uwagi: Przygotowanie studenta do zajęć:

Oceny. Podreczniki. Dane. Statystyka matematyczna i stosowana

Oceny. Statystyka stosowana. Podreczniki. Przygotowanie do zajęć. Dane

Statystyka stosowana. Podreczniki. Oceny. Przygotowanie do zajęć

Nowoczesne techniki matematyczne, statystyczne i informatyczne

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Y \ X , 2 0, 1 0, 1 1 0, 1 0, 3 0, 2. E(XY ) = i,j. x i y j p ij. i wtedy. x i y j p (X) = i,j. y j p (Y ) i wtedy

Przedmiot statystyki. Graficzne przedstawienie danych.

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka Matematyczna Anna Janicka

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

1 Podstawy rachunku prawdopodobieństwa

Wykład 9 Wnioskowanie o średnich

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Wykład Ćwiczenia Laboratorium Projekt Seminarium 30

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Wykład 4: Statystyki opisowe (część 1)

Laboratorium 3 - statystyka opisowa

Wykład 5: Statystyki opisowe (część 2)

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Estymacja parametrów w modelu normalnym

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wykład 10. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

Testowanie hipotez statystycznych.

Wykład 2: Tworzenie danych

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

STATYSTYKA MATEMATYCZNA

W1. Wprowadzenie. Statystyka opisowa

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

dev = y y Miary położenia rozkładu Wykład 9 Przykład: Przyrost wagi owiec Odchylenia Mediana próbkowa: Przykłady Statystyki opisowe Σ dev i =?

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Testy nieparametryczne

Analiza statystyczna w naukach przyrodniczych

Rozkłady statystyk z próby

Próba własności i parametry

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Wykład 2. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

STATYSTYKA MATEMATYCZNA

1.1 Wstęp Literatura... 1

Statystyka opisowa- cd.

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Wykład 3. Rozkład normalny

Weryfikacja hipotez statystycznych

Z poprzedniego wykładu

Metody Statystyczne. Metody Statystyczne.

Wykład 11: Dane jakościowe. Rozkład χ 2. Test zgodności chi-kwadrat

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Statystyka matematyczna i ekonometria

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Wykład 12: Tablice wielodzielcze

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testowanie hipotez statystycznych.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Zadania ze statystyki, cz.6

laboratoria 24 zaliczenie z oceną

Wykład 2. Transformacje (przekształcenia) danych

Wykład 2. Standaryzacja: Przykład: wpływ stałej addytywnej: odejmujemy 20. Liniowa transformacja zmiennych. Liniowa transformacja zmiennych, cd.

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Badanie zależności zmiennych kolumnowej i wierszowej:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Spis treści 3 SPIS TREŚCI

You created this PDF from an application that is not licensed to print to novapdf printer (

Estymacja punktowa i przedziałowa

Zmienne losowe. Powtórzenie. Dariusz Uciński. Wykład 1. Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski

Transkrypt:

Wstęp do statystyki praktycznej Semestr zimowy 2019/2020 Wykładowca: dr Damian Brzyski Strona internetowa: www.im.pwr.wroc.pl/~brzyski

Schemat oceniania: Wymagam obecności. Proszę niezwłocznie usprawiedliwiać absencje. 2 kolokwia podczas semestru Maksymalnie 4 Kartkówki

Zalecane podręczniki: Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT 2004, wyd. II Introduction to the Practice of Statistics, D. Moore, G. McCabe, Freeman 2003, wyd. IV (w bibliotece w C-11) Statistics for the Life Sciences, M. Samuels, J. Witmer, 2003, wyd. III

Dodatkowe uwagi: Część zadań pochodzi z podanych podręczników, a część-ze skryptu H. Jasiulewicz i W. Kordeckiego Rachunek prawdopodobieństwa i statystyka matematyczna. Przykłady i zadania", wyd. II. Proszę zaopatrzyć się w kalkulator; powinien on przynajmniej liczyć średnią i odchylenie standardowe dla zadanego ciągu liczb. Kalkulator jest obowiązkowy na zajęciach i testach. Telefony komórkowe są niedozwolone na testach.

Przygotowanie studenta do zajęć: Proszę przeczytać poprzedni wykład, rozwiązać aktualną listę zadań, przejrzec bieżącą prezentację z Internetu, żeby ułatwić sobie śledzenie wykładu i notowanie. Zachęcam do zadawania pytań i dyskusji.

Dane Używamy danych, aby odpowiedzieć na pytania dotyczące badanych populacji. Na ogół dane charakteryzują się losową zmiennością. Oceniamy informację zawartą w danych, w obliczu losowego szumu.

Przykład 1 Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą? Grupa eksperymentalna ćwiczy, grupa kontrolna-nie. Kogo dotyczy pytanie? Kogo dotyczą pomiary? Co wpłynie na pomiary? Ludzie mają naturalnie różne poziomy cholesterolu, reagują różnie na ten sam reżim ćwiczeń. Ćwiczenia mogą wpływać na inne czynniki.

Przykład 2 Eksperyment mikromacierzowy porównuje komórki rakowe i normalne. Czy zaobserwowany dwukrotnie wyższy poziom ekspresji genu dowodzi faktycznie różnej ekspresji komórek rakowych w ogólności? Ważne aspekty: Czy mamy dość liczne powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne? Dwukrotnie, czy raczej czterokrotnie wyższy poziom ekspresji stanowiłby wystarczający dowód?

Przykład 3 Reakcja owiec na bakterie wąglika Reakcja Szczepione Nie szczepione Śmierć 0 24 Przeżycie 24 0 Procent przetrwania 100% 0%

Przykład 4 E. coli a rozwój raka wątroby u myszy E. coli Wolne od zarazków Rak wątroby 8 19 Zdrowa 5 30 Suma 13 49 Procent myszy z rakiem wątroby 62% 39%

Sygnał i szum Przykład 3 brak zmienności, mocna konkluzja Przykład 4 duża zmienność, niepewna konkluzja Ważne pytania metodologiczne: Czy na podstawie danej proby można wnioskować, że badany czynnik ma wpływ na interesujące nas zjawisko w populacji? Jak duża powinna być próba, aby tak wnioskować?

Schemat badań naukowych Pytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe

Próba: Składa się z obserwacji lub z danych eksperymentalnych. Jest konkretną reprezentacją populacji. Rozmiar próby: n np. n=10, n=35, n=556 Przykłady: Wysokość 10 kłosów żyta (10 obserwacji) Poziom hemoglobiny u 35 dawców Kolor i kształt ziaren grochu

Zmienna Jakiś aspekt tego, co obserwujemy. Przykłady: wysokość, poziom hemoglobiny, kolor i kształt.

Rodzaje zmiennych: Zmienne Jakościowe Ilościowe Porządkowe Nieporządkowe Ciągłe Dyskretne

Zmienne jakościowe (kategoryczne) Jakościowe=kwalifikujące do kategorii: Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze Nie porządkowe, np.: kolor i kształt

Zmienne ilościowe (liczbowe) Ilościowe=wynik jest liczbą: Ciągłe, np. wzrost, waga, stężenie Dyskretne, np. liczba wadliwych elementów, liczba gładkich i żółtych groszków w strączku

Typowe oznaczenia Zmienne: X, Y, Z; np.y=wzrost (pojęcie) Obserwacja: x, y, z; np. y=182cm (wartość) Próba: y 1, y 2,, y n (ciąg obserwacji) Rozmiar próby: n, czasem n 1, n 2

Próba a próbka Biolog mierzy poziom glukozy we krwi 20 ludzi. Biolog: 20 próbek krwi. Statystyk: Jedna próba; 20 pomiarów glukozy. Bezpieczniej jest użyć słowa pomiar tam, gdzie biolog użyłby słowa próbka.

Statystyka opisowa: Opisy rozkładu: Tabela częstości Groszki: gładkie/pomarszczone, zielone/żółte Klasy Liczba Gładkie, żółte 315 Gładkie, zielone 108 Pomarszczone, żółte 101 Pomarszczone, zielone 32

Wykres słupkowy (dla danych jakościowych) 400 groszki generacji F2 liczność 300 200 100 0 round, yellow round, green wrinkled, yellow wrinkled, green

Tabela częstości dla poziomu wykształcenia (USA, ludzie w wieku 25-34 lat, rok 2000) Wykształcenie Liczba (w mln) Procent Podstawowe lub zawodowe 4.7 12.3 Szkoła średnia 11.8 30.7 Szkoła policealna 10.9 28.3 Licencjat 8.5 22.1 Wykształcenie wyższe 2.5 6.6

Wykres słupkowy

Wykres kołowy

Dane ilościowe dyskretne (przykład) Liczba potomstwa u n=36 macior. Liczność miotu jest liczbą całkowitą (zmienna dyskretna).

Dane/próba (wielkość miotu): 10 12 10 7 14 11 14 11 10 13 10 10 8 11 7 13 12 13 10 8 5 11 11 12 11 11 9 8 12 10 9 11 10 12 10 9

Tabela (rozkład) liczności miotu Liczność miotu Liczba macior 5 1 6 0 7 2 8 3 9 3 10 9 11 8 12 5 13 3 14 2

Histogram liczności Liczba (macior) 10 9 8 7 6 5 4 3 2 1 0 5 6 7 8 9 10 11 12 13 14 Liczność miotu

Histogram (liczności) Grupowanie podobnych obserwacji zwykle poprawia czytelność. Prawie zawsze postępujemy tak z danymi ciągłymi. Definiujemy klasy (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy.

Jak wybierać klasy: Klasy są rozłączne i pokrywają wszystkie możliwe wyniki (każda obserwacja wpada do dokładnie jednej klasy). Rozmiar (szerokość) klas (przedziałów) jest często stały. Używamy wygodnych granic przedziałów, np. 20-29, a nie 19.82 29.26. Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n 50); używamy więcej, gdy próba jest duża.

Przykład Dane: długość łodygi papryki (n=15) 12.4 12.2 13.4 10.9 12.2 12.1 11.8 13.5 12 14.1 12.7 13.2 12.6 11.9 13.1

Min=10.9, max=14.1, rozstęp=max-min=3.2 Wybieramy np. szerokość klasy 0.5 oraz początek 10.5, by pokryć zakres 10.5 14.5. Zliczamy liczby wystąpień i rysujemy histogram. Rozważamy zmianę szerokości klas, aby uzyskać bardziej informacyjny i czytelny kształt. Za mała szerokość klas=mała czytelność, za duża = utrata informacji.

Tabela liczności (dla klas) Klasa Liczność 10.5-10.99 1 11.0-11.49 0 11.5-11.99 2 12.0-12.49 5 12.5-12.99 2 13.0-13.49 3 13.5-13.99 1 14.0-14.49 1

Histogram liczności Liczność 6 5 4 3 2 1 0 10.5-11.0-11.5-12.0-12.5-13.0-13.5-14.0-10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Klasa

Przykład: Stężenia CK (kinaza kreatynowa) w surowicy krwi 121 82 100 151 68 58 95 145 64 201 101 163 84 57 139 60 78 94 119 104 110 113 118 203 62 83 67 93 92 110 25 123 70 48 95 42

Dane do histogramu: Min=25, max=203 Rozstęp=178 Szerokość klasy=20 Punkt początkowy=20

Serum CK Liczność 20-39 1 40-59 4 60-79 7 80-99 8 100-119 8 120-139 3 140-159 2 160-179 1 180-199 0 200-219 2 Suma 36

Opis histogramu CK: Centralny szczyt (moda) w okolicach 100 J/L Zasadnicza masa rozkładu między 40 a 140 J/L Niesymetryczny skośny na prawo (=wyciągnięty w prawo)

Dygresja: interpretacja pola powierzchni pod histogramem przy równej szerokość klas Do odcinka 60-100 J/L wpada 42% (15 z 36) wartości CK. = Nad odcinkiem 60-100 J/L leży: 42% całkowitej powierzchni histogramu.

Co robić przy nierównej szerokości klas? Wizualna wielkość klasy = pole słupka. Dlatego warto podzielić liczności klas przez długość odcinka tak, aby pole było proporcjonalne do liczności.

Histogram częstości Często rysujemy histogram tak, że na osi pionowej zaznaczamy częstość (względną) =liczba wystąpień / n Histogram częstości jest użyteczny np. dla porównania zbiorów danych o różnych rozmiarach n

Histogram liczności Histogram częstości 6 0,35 5 0,3 Liczność 4 3 2 1 Częstość 0,25 0,2 0,15 0,1 0,05 0 10.5-11.0-11.5-12.0-12.5-13.0-13.5-14.0-0 10.5-11.0-11.5-12.0-12.5-13.0-13.5-14.0-10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Długość łodygi 10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Długość łodygi

Diagram łodygi i liścia (Stem and leaf plot) Jest to inny sposób podsumowania rozkładu danych; zachowuje prawie pełne informacje. Wybieramy łodygę ( pień ) liczby-zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym. Zapisujemy możliwe łodygi w jednej kolumnie w kolejności rosnącej, i rysujemy pionową linię oddzielającą je od liści.

Diagram łodygi i liścia (Stem and leaf plot) cd. Znajdujemy łodygę odpowiadającą każdej obserwacji. Za linią pionową zapisujemy pozostałe cyfry danej obserwacji= liść. Uwagi: Wygodne do szybkiego zilustrowania rozkładu Dostajemy obrócony histogram Ograniczenie: trudniej manipulować liczbą klas

Przykład: Stężenie glukozy w przedniej komorze prawego oka u 31 zdrowych psów 81 85 93 93 99 76 75 84 78 84 81 82 89 81 96 82 74 70 84 86 80 70 131 75 88 102 115 89 82 79 106

Miejsce na diagram łodygi i liścia:

Słownictwo dla opisu histogramu/rozkładu ():

Statystyka jako procedura obliczeniowa Statystyka = (najczęściej) liczbowa charakterystyka danych Przykłady statystyk dla próby y 1 =24, y 2 =35, y 3 =26, y 4 =36: min=24, max=36 rozstęp= 36-24=12 Statystyka może precyzować kształt, centrum rozkładu, rozrzut itp.

Miary położenia rozkładu Średnia z próby: Symbol y oznacza konkretną liczbę: arytmetyczną średnią z obserwacji. Średnia jest środkiem ciężkości zbioru danych. Y Symbol oznacza pojęcie/ procedurę obliczania średniej z próby dla różnych prób

Przykład: Przyrost wagi owiec Dane : 11, 13, 19, 2, 10, 1 y 1 =11, y 2 =13,, y 6 =1 6 i 1 y y y... y 11 13... 1 56 i 1 2 6 y 56 / 6 9.33

Mediana próbkowa: Definicja: Środkowa obserwacja, jeżeli n jest nieparzyste Średnia z dwóch środkowych wartości, gdy n jest parzyste

Przykłady Przykład 1 (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia z próby = 32/5 = 6.4 Mediana = Przykład 2 (n = 6) Dane: 366 327 274 292 274 230 Średnia z próby = 293.8 Mediana =

Średnia a mediana Przykład 1 cd. (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia = 32/5 = 6.4 Mediana = 6.3 Błąd w zapisie danych: Dane: 6.3 5.9 70 6.9 5.9 Średnia = 19 Mediana = 6.3

Średnia a mediana (cd.) Mediana dzieli powierzchnię histogramu na połowę. Mediana jest odporna, to znaczy nie mają na nią wpływu obserwacje odstające. Przypomnienie: średnia to środek ciężkości histogramu; obserwacje odstające mają duży wpływ na średnią średnia nie jest odporna.

Średnia a mediana (cd.) Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o tym później).

Miary położenia cd.: Kwartyle Kwartyle dzielą zbiór danych na ćwiartki,tzn.: Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana grupy obserwacji mniejszych niż Q2. Trzeci kwartyl (Q3) to mediana grupy obserwacji większych niż Q2.

Przykład Dane: 3 5 6 2 1 7 4

Przykład (n=15) 7 12 8 2 4 3 5 5 4 3 4 5 6 9 3

Rozstęp międzykwartylowy IQR=Q3-Q1 (inter-quartile range)

Wykres ramkowy (Boxplot) Boxplot graficzna reprezentacja 5 liczb: kwartyli, maximum i minimum. Ramka ( pudełko ) powstaje z obrysowania kwartyli. Linie ( wąsy ) ciągną się do wartości najmniejszej i największej.

12 10 8 6 4 2 0 BoxPlot

Zmodyfikowany Boxplot Obserwacja odstająca: Typowe żródła oo: błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu itp. Nasze kryterium dla identyfikacji obserwacji odstających: Dolna granica = Q1-1.5*IQR Górna granica = Q3 + 1.5*IQR

Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16 Czy są oo?

Zmodyfikowany wykres ramkowy (zmodyfikowany boxplot) wskazuje też oo: 5 10 15

Miary rozrzutu: Rozstęp=max min Rozstęp jest bardzo wrażliwy na obserwacje odstające, nieprzydatny do testowania. Rozstęp międzykwartylowy=iqr=q3-q1 = rozstęp środkowych 50% obserwacji Wariancja Odchylenie standardowe Współczynnik zmienności (CV)

Odchylenia (od średniej): dev y y i i dev y y 11 9.33 1.67 1 1 Fakt: Σ dev i =0 (?)

Próbkowe odchylenie standardowe (SD, s) Wyrażone w jednostkach pomiarowych Informuje o ile przeciętnie odległe od średniej są obserwacje. n i 1 i 1 2 s ( y y) /( n 1) (definition) n i 2 2 i ( y ny ) /( n 1) (calculations)

Uwaga: w mianowniku jest n-1: s SS n 1,where n n ( ) 2 2 2 i i i 1 i 1 SS y y y ny

Próbkowa wariancja: s 2 Podaje przeciętny kwadrat odległości od średniej próbkowej: s 2 =SS/(n-1), tzn.: ss= Jest mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane.

Dlaczego n-1? s 2 jest nieobciążonym estymatorem wariancji w populacji (te pojęcia wyjaśnimy później) Σ dev i =0, skąd dev n 1 Heurystyka: n obserwacji daje tylko n-1 stopni swobody = n-1 jednostek informacji i 1 Sprawdź, jak Twój kalkulator liczy SD. (!) n dev i

Miary rozrzutu, cd. Współczynnik zmienności (CV) CV s / y

Przykład: dane 35.1, 30.6, 36.9, 29.8 (n=4) Suma obserwacji: y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4 średnia: = SS = wariancja: s 2 = s= CV= y Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach, zwłaszcza przed odejmowaniem. Zaokrąglamy na koniec (po odejmowaniu). Odpowiedzi wymagają 3 lub więcej cyfr znaczących. (!)

Ogólne uwagi Duże s=duży rozrzut. Małe s=mały rozrzut. Jeżeli histogram (rozkład) jest w kształcie dzwonu ( normalny ), to w przybliżeniu: 68% obserwacji jest w odległości 1 s od średniej 95% obserwacji jest w odległości 2 s od średniej 99% obserwacji jest w odległości 3 s od średniej

Nierówność Czebyszewa Gdy rozkład jest dowolny, to zawsze: co najmniej 75% obserwacji jest w odległości 2 s od średniej, co najmniej 89% obserwacji jest w odległości 3 s od średniej.

Przykład 13 14 12 14 13 12 17 14 13 19 14 11 10 14 15 13 20 20 18 12

Przykład cd. Średnia y = 14.4, odchylenie std. s = 2.9. I ( y 2 s, y 2 s) zawiera około 95% danych. Ocena s = (długość I) /4. Reguła 68-95-99 działa, gdy histogram jest w kształcie dzwonu (bliski normalnemu).

Odporność miar rozrzutu i położenia Załóżmy, że mamy dość skupiony dzwonowy (normalny) zbiór danych. Czy statystyki zmienią się, gdy jedną obserwację zastąpimy bardzo dużą wartością/błędem? Mediana: tak/nie Rozstęp: Średnia: Kwartyle i rozstęp międzykwartylowy: Standardowe odchylenie:

Praca własna (przypomnienie): 1. Proszę przeczytać ponownie wykład, 2. przeczytać i przygotować listę zadań, zapisać w zeszycie rozwiązania, 3. wydrukować i przejrzeć następny wykład (WWW, za kilka dni), 4. powtórzyć 1.-3. po każdym wykładzie.