Oceny: Statystyka stosowana. Zalecane podręczniki: Dane. Dodatkowe uwagi: Przygotowanie studenta do zajęć:

Podobne dokumenty
Oceny: Wstęp do statystyki praktycznej. Zalecane podręczniki: Dodatkowe uwagi:

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Wstęp do statystyki praktycznej. Semestr zimowy 2019/2020 Wykładowca: dr Damian Brzyski Strona internetowa:

Schemat oceniania: Wstęp do statystyki praktycznej. Zalecane podręczniki: Dodatkowe uwagi: Przygotowanie studenta do zajęć:

Oceny. Statystyka stosowana. Podreczniki. Przygotowanie do zajęć. Dane

Oceny. Podreczniki. Dane. Statystyka matematyczna i stosowana

Statystyka stosowana. Podreczniki. Oceny. Przygotowanie do zajęć

Nowoczesne techniki matematyczne, statystyczne i informatyczne

Y \ X , 2 0, 1 0, 1 1 0, 1 0, 3 0, 2. E(XY ) = i,j. x i y j p ij. i wtedy. x i y j p (X) = i,j. y j p (Y ) i wtedy

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Przedmiot statystyki. Graficzne przedstawienie danych.

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

1 Podstawy rachunku prawdopodobieństwa

Statystyka Matematyczna Anna Janicka

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Wykład 9 Wnioskowanie o średnich

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Wykład Ćwiczenia Laboratorium Projekt Seminarium 30

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Wykład 5: Statystyki opisowe (część 2)

Wykład 4: Statystyki opisowe (część 1)

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Testowanie hipotez statystycznych.

Analiza statystyczna w naukach przyrodniczych

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Laboratorium 3 - statystyka opisowa

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Estymacja parametrów w modelu normalnym

W1. Wprowadzenie. Statystyka opisowa

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Wykład 2: Tworzenie danych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyka opisowa- cd.

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Testy nieparametryczne

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Wykład 3. Rozkład normalny

STATYSTYKA MATEMATYCZNA

Próba własności i parametry

Wykład 10. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Metody Statystyczne. Metody Statystyczne.

1.1 Wstęp Literatura... 1

Z poprzedniego wykładu

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Zadania ze statystyki, cz.6

Statystyczne metody analizy danych

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

dev = y y Miary położenia rozkładu Wykład 9 Przykład: Przyrost wagi owiec Odchylenia Mediana próbkowa: Przykłady Statystyki opisowe Σ dev i =?

Rozkłady statystyk z próby

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Statystyka matematyczna i ekonometria

STATYSTYKA OPISOWA. Przykłady problemów: - badanie opinii publicznej na temat preferencji wyborczych;

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Spis treści 3 SPIS TREŚCI

Wykład 2. Wpływ stałej (odejmujemy 20) Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd. Liniowa transformacja zmiennych, cd.

STATYSTYKA MATEMATYCZNA

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Weryfikacja hipotez statystycznych

Analiza niepewności pomiarów

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Estymacja punktowa i przedziałowa

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

laboratoria 24 zaliczenie z oceną

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

You created this PDF from an application that is not licensed to print to novapdf printer (

Pozyskiwanie wiedzy z danych

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k:

Transkrypt:

Oceny: Statystyka stosowana Semestr letni 2013/2014 Wykładowca: dr hab. Małgorzata Bogdan Strona internetowa: www.im.pwr.wroc.pl/~mbogdan Kolokwia: 28 kwietnia i 16 czerwca Kartkówki są niezapowiadane (zakres: dwa ostatnie wykłady). Wszystkie punkty się sumują. 50%: dst, 70%: db, 90%: bdb Skreślam osoby, które opuściły oba kolokwia. Zaliczenie poprawkowe (w sesji) daje ocenę co najwyżej dst+. Termin poprawkowy: 23 czerwca Zalecane podręczniki: Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT 2004, wyd. II Introduction to the Practice of Statistics, D. Moore, G. McCabe, Freeman 2003, wyd. IV (w bibliotece w C-11) Statistics for the Life Sciences, M. Samuels, J. Witmer, 2003, wyd. III Dodatkowe uwagi: Listy zadań są dostępne na stronie www kursu. Część zadań pochodzi z podanych podręczników, a część-ze skryptu H. Jasiulewicz i W. Kordeckiego Rachunek prawdopodobieństwa i statystyka matematyczna. Przykłady i zadania", wyd. II. Proszę zaopatrzyć się w kalkulator; powinien liczyć średnią i odchylenie standardowe dla danego ciągu liczb. Kalkulator jest obowiązkowy na testach (tel. komórkowe niedozwolone). Przygotowanie studenta do zajęć: Proszę przeczytać poprzedni wykład, rozwiązać aktualną listę zadań, Dane Używamy danych, aby odpowiedzieć na pytania dotyczące badanych populacji. wydrukować i przejrzec bieżącą prezentację z Internetu, żeby ułatwić sobie śledzenie wykładu i notowanie. Zachęcam do zadawania pytań i dyskusji. Na ogół dane charakteryzują się losową zmiennością. Oceniamy informację zawartą w danych, w obliczu losowego szumu. 1

Czym jest statystyka jako nauka? To nauka rozumienia danych i podejmowania decyzji w obliczu losowości. To także zbiór metod do planowania eksperymentu i analizowania danych tak, aby uzyskać informację i ocenę jej wiarygodności. Przykład 1 Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą? Grupa eksperymentalna ćwiczy, grupa kontrolna-nie. Kogo dotyczy pytanie? Kogo dotyczą pomiary? Co wpłynie na pomiary? Ludzie mają naturalnie różne poziomy cholesterolu, reagują różnie na ten sam reżim ćwiczeń. Ćwiczenia mogą wpływać na inne czynniki. Przykład 2 Eksperyment mikromacierzowy porównuje komórki rakowe i normalne. Czy zaobserwowany, dwukrotnie wyższy, poziom ekspresji genu dowodzi faktycznie różnej ekspresji? Przykład 3 Reakcja owiec na bakterie wąglika Reakcja Szczepione Nie szczepione Ważne aspekty: Śmierć 0 24 Czy mamy dość liczne powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne? Dwukrotnie czy raczej czterokrotnie wyższy poziom ekspresji stanowi wystarczający dowód? Przeżycie 24 0 Procent przetrwania 100% 0% Przykład 4 E. coli a rozwój raka wątroby u myszy E. coli Wolne od zarazków Rak wątroby 8 19 Zdrowa 5 30 Suma 13 49 Procent myszy z rakiem wątroby 62% 39% Sygnał i szum Przykład 3 brak zmienności, mocna konkluzja Przykład 4 duża zmienność, niepewna konkluzja Ważne pytania metodologiczne: Czy na podstawie danej proby można wnioskować, że badany czynnik ma wpływ na interesujące nas zjawisko w populacji? Jak duża powinna być próba, aby tak wnioskować? 2

Schemat badań naukowych Pytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe Próba: Składa się z obserwacji lub z danych eksperymentalnych. Jest konkretną reprezentacją populacji. Rozmiar próby: n np. n=10, n=35, n=556 Przykłady: Wysokość 10 kłosów żyta (10 obserwacji) Poziom hemoglobiny u 35 dawców Kolor i kształt ziaren grochu Zmienna Rodzaje zmiennych: Jakiś aspekt tego, co obserwujemy. Zmienne Przykłady: wysokość, poziom hemoglobiny, kolor i kształt. Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne Zmienne jakościowe (kategoryczne) Jakościowe (kwalifikujące do kategorii): Zmienne ilościowe (liczbowe) Ilościowe (wynik jest liczbą): Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze Nie porządkowe, np.: kolor i kształt Ciągłe, np. wzrost, waga, stężenie Dyskretne, np. liczba wadliwych elementów, liczba gładkich i żółtych groszków w strączku 3

Typowe oznaczenia Zmienne: X, Y, Z; np.y=wzrost (pojęcie) Obserwacja: x, y, z; np. y=182cm (wartość) Próba: y 1, y 2,, y n (ciąg obserwacji) Rozmiar próby: n, czasem n 1, n 2 Próba a próbka Biolog mierzy poziom glukozy we krwi 20 ludzi. 20 próbek krwi. (biolog) Jedna próba; 20 pomiarów glukozy. (statystyk) Bezpieczniej jest użyć słowa pomiar tam, gdzie biolog użyłby słowa próbka. Statystyka opisowa: Opisy rozkładu: Tabela częstości Wykres słupkowy (dane jakościowe) Groszki: gładkie/pomarszczone, zielone/żółte Klasy Liczba 400 groszki generacji F2 Gładkie, żółte 315 Gładkie, zielone 108 liczność 300 200 100 Pomarszczone, żółte 101 0 Pomarszczone, zielone 32 round, yellow round, green wrinkled, yellow wrinkled, green Tabela częstości dla poziomu wykształcenia (USA, ludzie w wieku 25-34 lat, AD 2000) Wykres słupkowy Wykształcenie Liczba (w mln) Procent Podstawowe lub zawodowe 4.7 12.3 Szkoła średnia 11.8 30.7 Szkoła policealna 10.9 28.3 Licencjat 8.5 22.1 Wykształcenie wyższe 2.5 6.6 4

Wykres kołowy Dane ilościowe dyskretne (przykład) Liczba potomstwa u n=36 macior. Liczność miotu jest liczbą całkowitą (zmienna dyskretna). Dane (wielkość miotu): 10 12 10 7 14 11 14 11 10 13 10 10 8 11 7 13 12 13 10 8 5 11 11 12 11 11 9 8 12 10 9 11 10 12 10 9 Rozkład liczności miotu Liczność miotu Liczba macior 5 1 6 0 7 2 8 3 9 3 10 9 11 8 12 5 13 3 14 2 Histogram liczności Histogram (liczności) Liczba (macior) 10 9 8 7 6 5 4 3 2 1 0 5 6 7 8 9 10 11 12 13 14 Grupowanie podobnych obserwacji zwykle poprawia czytelność. Prawie zawsze postępujemy tak z danymi ciągłymi. Definiujemy klasy (przedziały) obserwacji i zliczamy (liczbę) obserwacji wpadających do każdej klasy. Liczność miotu 5

Jak wybierać klasy: Klasy są rozłączne i pokrywają wszystkie możliwe wyniki (każda obserwacja wpada do dokładnie jednej klasy). Rozmiar (szerokość) klas (przedziałów) jest często stały. Używamy wygodnych granic przedziałów, np. 20-29, a nie 19.82 29.26. Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n 50); używamy więcej, gdy próba jest duża. Przykład Dane : długość łodygi papryki (n=15) 12.4 12.2 13.4 10.9 12.2 12.1 11.8 13.5 12 14.1 12.7 13.2 12.6 11.9 13.1 Min=10.9, max=14.1, rozstęp=max-min=3.2 Wybieramy np. szerokość klasy 0.5 oraz początek 10.5, by pokryć zakres 10.5 14.5. Zliczamy liczby wystąpień i rysujemy histogram. Rozważamy zmianę szerokości klas, aby uzyskać bardziej informacyjny i czytelny kształt. Za mała szerokość klas=dużo szumu, za duża = utrata informacji. Tabela liczebności (klas) Klasa Liczność 10.5-10.99 1 11.0-11.49 0 11.5-11.99 2 12.0-12.49 5 12.5-12.99 2 13.0-13.49 3 13.5-13.99 1 14.0-14.49 1 Przykład: Stężenia serum CK Histogram liczności 121 82 100 151 68 58 Liczność 6 5 4 3 2 1 0 10.5-11.0-11.5-12.0-12.5-13.0-13.5-14.0-10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 95 145 64 201 101 163 84 57 139 60 78 94 119 104 110 113 118 203 Klasa 62 83 67 93 92 110 25 123 70 48 95 42 6

Dane do histogramu: Min=25, max=203 Rozstęp=178 Szerokość klasy=20 Punkt początkowy=20 Serum CK Liczność 20-39 1 40-59 4 60-79 7 80-99 8 100-119 8 120-139 3 140-159 2 160-179 1 180-199 0 200-219 2 Suma 36 Opis histogramu CK: Centralny szczyt (moda) w okolicach 100 J/L Zasadnicza masa rozkładu między 40 a 140 J/L Niesymetryczny skośny na prawo (=wyciągnięty w prawo) Interpretacja pola powierzchni pod histogramem przy równej szerokość klas Co robić przy nierównej szerokości klas? Do odcinka 60-100 J/L wpada 42% (15 z 36) wartości CK. = Nad odcinkiem 60-100 J/L leży: 42% całkowitej powierzchni histogramu. Wizualnie wielkość klasy = pole słupka. Dlatego warto podzielić liczności klas przez długość odcinka tak, aby pole było proporcjonalne do liczności. 7

Histogram częstości Często rysujemy histogram tak, że na osi pionowej zaznaczamy częstość (względną) =liczba wystąpień / n Histogram częstości jest użyteczny np. dla porównania zbiorów danych o różnych rozmiarach n Liczność Histogram liczności 6 5 4 3 2 1 0 10.5-11.0-11.5-12.0-12.5-13.0-13.5-14.0-10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Długość łodygi Częstość Histogram częstości 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 10.5-11.0-11.5-12.0-12.5-13.0-13.5-14.0-10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49 Długość łodygi Diagram łodygi i liścia (Stem and leaf plot) Jest to inny sposób podsumowania rozkładu danych; zachowuje prawie pełne informacje. Wybieramy łodygę ( pień ) liczby-zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym. Zapisujemy możliwe łodygi w jednej kolumnie w kolejności rosnącej, i rysujemy pionową linię oddzielającą je od liści. Diagram łodygi i liścia (Stem and leaf plot) cd. Znajdujemy łodygę odpowiadającą każdej obserwacji. Za linią pionową zapisujemy pozostałe cyfry danej obserwacji= liść. Uwagi: Wygodne do szybkiego zilustrowania rozkładu Dostajemy (obrócony) histogram Ograniczenie: trudniej manipulować liczbą klas 8

Przykład: Stężenie glukozy w przedniej komorze prawego oka u 31 zdrowych psów Miejsce na diagram łodygi i liścia: 81 85 93 93 99 76 75 84 78 84 81 82 89 81 96 82 74 70 84 86 80 70 131 75 88 102 115 89 82 79 106 Opisywanie histogramu/rozkładu (słownictwo): Symetryczny / asymetryczny W kształcie dzwonu ( normalny ) / ciężkie ogony (spłaszczony) Skośny na /rozciągniety w prawo lub lewo Jednomodalny (jeden główny wierzchołek) Dwumodalny (dwa główne wierzchołki) Wykładniczy (malejący jak eksponenta ) Rozrzut (duży lub mały) Statystyka jako procedura obliczeniowa Statystyka = (najczęściej) liczbowa charakterystyka danych Przykłady statystyk dla próby y 1 =24, y 2 =35, y 3 =26, y 4 =36: min=24, max=36 rozstęp= 36-24=12 Statystyka może precyzować kształt, centrum rozkładu, rozrzut itp. Miary położenia rozkładu Średnia z próby: symbol y oznacza konkretną liczbę; arytmetyczną średnią z obserwacji Średnia jest środkiem ciężkości zbioru danych Y Symbol oznacza pojęcie/ procedurę obliczania średniej z próby dla różnych prób 6 i1 Przykład: Przyrost wagi owiec Dane : 11, 13, 19, 2, 10, 1 y 1 =11, y 2 =13,, y 6 =1 y y y... y 1113... 1 56 i 1 2 6 y 56 / 6 9.33 9

Mediana próbkowa: Definicja Przykłady Środkowa obserwacja, jeżeli n jest nieparzyste Średnia z dwóch środkowych wartości, gdy n jest parzyste Przykład 1 (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia z próby = 32/5 = 6.4 Mediana = Przykład 2 (n = 6) Dane: 366 327 274 292 274 230 Średnia z próby = 293.8 Mediana = Średnia a mediana Przykład 1 cd. (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia = 32/5 = 6.4 Mediana = 6.3 Błąd w zapisie danych: Dane: 6.3 5.9 70 6.9 5.9 Średnia = 19 Mediana = 6.3 Średnia a mediana (cd.) Mediana dzieli powierzchnię histogramu na połowę. Jest odporna nie mają na nią wpływu obserwacje odstające. Średnia to środek ciężkości histogramu Obserwacje odstające mają duży wpływ na średnią średnia nie jest odporna. Średnia a mediana (cd.) Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później). Miary położenia cd.: Kwartyle Kwartyle dzielą zbiór danych na ćwiartki: Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana grupy obserwacji mniejszych niż Q2. Trzeci kwartyl (Q3) to mediana grupy obserwacji większych niż Q2. 10

Przykład Dane: 3 5 6 2 1 7 4 Przykład (n=15) 7 12 8 2 4 3 5 5 4 3 4 5 6 9 3 Rozstęp międzykwartylowy IRQ=Q3-Q1 (inter-quartile range) Wykres ramkowy (Boxplot) Boxplot graficzna reprezentacja 5 liczb: kwartyli, maximum i minimum. Ramka ( pudełko ) powstaje z obrysowania kwartyli. Linie ( wąsy ) ciągną się do wartości najmniejszej i największej. BoxPlot Zmodyfikowany Boxplot 12 10 8 6 4 2 0 Obserwacja odstająca: Typowe żródła oo: błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu itp. Nasze kryterium dla identyfikacji obserwacji odstających: Dolna granica = Q1-1.5*IQR Górna granica = Q3 + 1.5*IQR 11

Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16 Czy są oo? Zmodyfikowany wykres ramkowy (boxplot) wskazuje też oo: 5 10 15 Miary rorzutu: Rozstęp=max min Rozstęp jest bardzo wrażliwy na obserwacje odstające, nieprzydatny do testowania. Rozstęp międzykwartylowy=irq=q3-q1 = rozstęp środkowych 50% obserwacji Odchylenia (od średniej): dev y y i i dev1 y1 y 11 9.33 1.67 Pytanie: Σ dev i =... (?) Standardowe odchylenie / wariancja Współczynnik zmienności (CV) Próbkowe odchylenie standardowe (SD, s) Wyrażone w jednostkach pomiarowych Informuje o ile przeciętnie odległe od średniej są obserwacje. n ( i 2 ) /( 1) (definition) i1 s y y n n 2 ( yi 2 ny ) /( n 1) (calculations) i1 W mianowniku jest n-1: SS s,where n 1 n n 2 2 2 ( i ) i i1 i1 SS y y y ny 12

Próbkowa wariancja: s 2 Podaje przeciętny kwadrat odległości od średniej próbkowej: s 2 =SS/(n-1). Jest mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane. Dlaczego n-1? s 2 jest nieobciążonym estymatorem wariancji w populacji (te pojęcia wyjaśnimy później) Σ dev i =0 stąd dev n1 i1 n obserwacji daje tylko n-1 stopni swobody = n-1 jednostek informacji n dev i Miary rozrzutu, cd. Współczynnik zmienności (CV) CV s / y Przykład: dane 35.1, 30.6, 36.9, 29.8 (n=4) Suma obserwacji: y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4 średnia: y = s z definicji: SS = wariancja: s 2 = s= CV= Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach, zwłaszcza przed odejmowaniem. Zaokrąglamy na koniec (po odejmowaniu). Odpowiedzi: 3 lub więcej cyfr znaczących. Ogólne uwagi Duże s=duży rozrzut. Małe s=mały rozrzut. Jeżeli histogram (rozkład) jest w kształcie dzwonu ( normalny ), to w przybliżeniu: 68% obserwacji jest w odległości 1 s od średniej 95% obserwacji jest w odległości 2 s od średniej 99% obserwacji jest w odległości 3 s od średniej 13

Nierówność Czebyszewa Przykład Gdy rozkład jest dowolny, to zawsze: co najmniej 75% obserwacji jest w odległości 2 s od średniej co najmniej 89% obserwacji jest w odległości 3 s od średniej. 13 14 12 14 13 12 17 14 13 19 14 11 10 14 15 13 20 20 18 12 Przykład cd. Średnia y = 14.4, odchylenie std. s = 2.9. I ( y 2 s, y 2 s) Ocena s = (długość I) /4. zawiera około 95 % danych. Reguła 68-95-99 działa, gdy histogram jest w kształcie dzwonu (bliski normalnemu). Odporność miar rozrzutu i położenia Załóżmy, że mamy dość skupiony dzwonowy (normalny) zbiór danych. Czy statystyki zmienią się, gdy jedną obserwację zastąpimy bardzo dużą wartością/błędem? Mediana: Rozstęp: Średnia: Kwartyle i rozstęp międzykwartylowy: Standardowe odchylenie: Praca własna (przypomnienie): 1. Proszę przeczytać ponownie wykład, 2. przeczytać i przygotować listę zadań, zapisać w zeszycie rozwiązania, 3. wydrukować i przejrzeć następny wykład (WWW, za kilka dni), 4. powtórzyć 1.-3. po każdym wykładzie. 14