Typy zmiennych Graficzne reprezentacje danych Statystyki opisowe Jakościowe charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy, rzadko, czasami, często, zawsze Nie porządkowe: gładki & żółty, gładki & zielony, pomarszczony & żółty, pomarszczony & zielony płeć, rasa, zawód Zmienne i rekordy Rekordy odpowiadają opisywanym obiektom (zwierzętom, ludziom, rzeczom) Zmienna pewna charakterystyka danego obiektu Ilościowe Ciągłe : wzrost, waga, stężenie Dyskretne : liczba kwiatów, liczba gładkich & żółtych groszków Rodzaje zmiennych Zmienne Dane pracowników CyberStat Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne
Analiza opisowa - wykresy Zaczynamy od opisu pojedynczych zmiennych. Zmienne jakościowe Wykres kołowy Rozkład podaje liczbę lub procent osobników w danej kategorii. Wykształcenie Liczba (w mln) Procent Podstawowe 4.7 12.3 Średnie 11.8 30.7 Pomaturalne 10.9 28.3 Licencjat 8.5 22.1 Wyższe 2.5 6.6 Zmienna ilościowa Diagram pnia i liścia Pień na ogół wszystkie cyfry poza ostatnią Liść na ogół ostatnia cyfra Przykład 1 Roczna liczba kończących uderzeń jednego z najlepszych graczy baseballa, Babe Ruth : 54 59 35 41 46 25 47 60 54 46 49 46 41 34 22 Wykres słupkowy
Opis rozkładu Kształt, środek, rozrzut. Kształt Ile punktów szczytowych (mod)? Symetryczny albo skośny. Środek punkt centralny Rozrzut odstęp między największymi i najmniejszymi wartościami. Identyfikacja obserwacji odstających (nie pasujących do reszty). Histogramy Opis rozkładu za pomocą liczb Średnia Mediana Kwartyle Wykresy pudełkowe Standardowe odchylenie Tabela częstości Class Count Percent Class Count Percent 0.1-5.0 30 60 20.1-25 1 2 5.1-10.0 10 20 25.1-30 2 4 10.1-15 4 8 30.1-35 0 0 15.1-20 2 4 35.1-40 1 2 Miary położenia rozkładu Średnia z próby: symbol y oznacza liczbę; arytmetyczną średnią z obserwacji Symbol Y oznacza pojęcie średniej z próby Średnia jest środkiem ciężkości zbioru danych
6 å i1 Przykład: Przyrost wagi owiec Dane : 11, 13, 19, 2, 10, 1 y 1 =11, y 2 =13,, y 6 =1 y y + y +... + y 11+ 13 +... + 1 56 i 1 2 6 y 56 / 6 9.33 Przykłady Przykład 1 (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia z próby = 32/5 = 6.4 Mediana = Przykład 2 (n = 6) Dane: 366 327 274 292 274 230 Średnia z próby = 293.8 Mediana = Odchylenia dev y - y i i dev1 y1 - y 11-9.33 1.67 Σ dev i =? Średnia a mediana Przykład 1 cd. (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia = 32/5 = 6.4 Mediana = 6.3 Błąd w zapisie danych: Dane: 6.3 5.9 70 6.9 5.9 Średnia = 19 Mediana = 6.3 Mediana próbkowa: Środkowa obserwacja jeżeli n jest nieparzyste Średnia z dwóch środkowych wartości gdy n jest parzyste Średnia a mediana Mediana dzieli powierzchnię histogramu na połowę Jest odporna nie mają na nią wpływu obserwacje odstające Średnia to środek ciężkości histogramu Obserwacje odstające mają duży wpływ na średnią średnia nie jest odporna
Średnia a mediana Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później). Przykład (n=15) 7 12 8 2 4 3 5 5 4 3 4 5 6 9 3 Miary położenia cd.:kwartyle Kwartyle dzielą zbiór danych na cztery grupy. Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana grupy obserwacji mniejszych niż Q2. Trzeci kwartyl (Q3) to mediana grupy obserwacji większych niż Q2. Rozstęp międzykwartylowy IQR=Q3-Q1 (inter-quartile range) Przykład Dane: 3 5 6 2 1 7 4 Wykres ramkowy (Boxplot) Boxplot graficzna reprezentacja: mediany, kwartyli, maximum i minimum z danych. Ramka ( pudełko ) powstaje z obrysowania kwartyli Linie ( wąsy ) ciągą się do wartości najmniejszej i największej.
BoxPlot Przykładowy zmodyfikowany wykres ramkowy (boxplot) 12 10 8 6 4 2 0 5 1 0 1 5 Zmodyfikowany Boxplot Miary rorzutu: Obserwacja odstająca: błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu itp. Kryterium do identyfikacji obserwacji odstających: Dolna granica = Q1-1.5*IQR Górna granica = Q3 + 1.5*IQR Rozstęp (max min) bardzo wrażliwy na obserwacje odstające, nieprzydatny do testowania Rozstęp międzykwartylowy (IQR=Q3-Q1) rozstęp środkowych 50% obserwacji Standardowe odchylenie / Wariancja Współczynnik zmienności (CV) Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16 Próbkowe odchylenie standardowe (SD, s) Wyrażone w jednostkach pomiarowych Informuje o ile przeciętnie odległe od średniej są obserwacje. n å( i 2 ) /( 1) (definition) i1 s y - y n - n 2 ( å yi 2 ny ) /( n 1) (calculations) i1 - -
W mianowniku jest n-1: SS s,where n -1 n n 2 2 2 å( i ) å i i1 i1 SS y - y y - ny Miary rozrzutu, cd. Współczynnik zmienności (CV) Przykład Dane : 35.1, 30.6, 36.9, 29.8 (n=4) Rozstęp = CV s / y Próbkowa wariancja: s 2 Przeciętny kwadrat odległości od średniej próbkowej: s 2 Mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane Suma obserwacji: y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4 średnia: y s z definicji: SS = wariancja: s 2 = s= Dlaczego n-1? s 2 jest nieobciążonym estymatorem wariancji w populacji n-1 Σ dev i =0 stąd devn -å devi i1 n-1 stopni swobody = n-1 jednostek informacji Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach. Zaokrąglamy dopiero na koniec. Współczynnik zmienności: CV=
Ogólne uwagi Duże s=duży rozrzut. Małe s=mały rozrzut. Jeżeli histogram (rozkład ) jest w kształcie dzwonu ( normalny ), to około: 68% obserwacji jest w odległości 1 s od średniej 95% obserwacji jest w odległości 2 s od średniej 99% obserwacji jest w odległości 3 s od średniej Przykład cd Średnia = 14.4, odchylenie standardowe s = 2.9. y Nierówność Czebyszewa Nawet, gdy rozkład nie jest normalny to co najmniej 75% obserwacji jest w odległości 2 s od średniej co najmniej 89% obserwacji jest w odległości 3 s od średniej. Odcinek Ocena s z histogramu I ( y - 2 s, y + 2 s) zawiera około 95 % danych. Ocena s = (długość I) /4. Reguła działa najlepiej, gdy histogram jest w kształcie dzwonu (bliski normalnemu). Przykład (puls po ćwiczeniach) Przykład 95 % pomiarów jest pomiędzy 75 a 125 13 14 12 14 13 12 17 14 13 19 14 11 10 14 15 Faktyczne s = 13.4 13 20 20 18 12
Porównanie miar rozrzutu i położenia Miary rozrzutu służą do oszacowania zmienności w danych. Odporność: Załóżmy, że mamy dość skupiony dzwonowy (normalny) zbiór danych. Co się stanie, gdy jedną dużą obserwację zastąpimy bardzo dużą wartością? Mediana Rozstęp Średnia Kwartyle i rozstęp międzykwartylowy Standardowe odchylenie