Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Podobne dokumenty
Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

1 Podstawy rachunku prawdopodobieństwa

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka to nauka o metodach badań (liczbowo wyrażalnych) własności zbiorowości. Próba. Próba Populacja. Próba

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Statystyka Matematyczna Anna Janicka

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Statystyka. Opisowa analiza zjawisk masowych

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

W1. Wprowadzenie. Statystyka opisowa

Próba własności i parametry

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka w pracy badawczej nauczyciela

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyczne metody analizy danych

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Pozyskiwanie wiedzy z danych

Podstawowe pojęcia statystyczne

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Miary statystyczne w badaniach pedagogicznych

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Laboratorium 3 - statystyka opisowa

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Opisowa analiza struktury zjawisk statystycznych

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Analiza struktury i przeciętnego poziomu cechy

Parametry statystyczne

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Statystyka matematyczna i ekonometria

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Wykład ze statystyki. Maciej Wolny

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne)

Matematyka stosowana i metody numeryczne

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Graficzna prezentacja danych statystycznych

Metody Statystyczne. Metody Statystyczne.

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Analiza statystyczna w naukach przyrodniczych

Wykład 5: Statystyki opisowe (część 2)

Biostatystyka, # 1 /Weterynaria I/

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Wykład 4: Statystyki opisowe (część 1)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Zadania ze statystyki, cz.6

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Analiza zróżnicowania, asymetrii i koncentracji

Literatura. Podgórski J., Statystyka dla studiów licencjackich, PWE, Warszawa 2010.

Przedmiot statystyki. Graficzne przedstawienie danych.

Rozkłady zmiennych losowych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Rozkłady statystyk z próby

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Matematyka z el. statystyki, # 1 /Geodezja i kartografia II/

STATYSTYKA OPISOWA. Przykłady problemów: - badanie opinii publicznej na temat preferencji wyborczych;

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Wykład Prezentacja materiału statystycznego. 2. Rodzaje szeregów statystycznych.

Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2018 roku

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Statystyka. Wykład 1. Magdalena Alama-Bućko. 26 lutego Magdalena Alama-Bućko Statystyka 26 lutego / 34

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Z poprzedniego wykładu

Transkrypt:

Statystyka Wydział Zarządzania Uniwersytetu Łódzkiego 2017

Statystyka to nauka zajmująca się badaniem prawidłowości w procesach masowych, to jest takich, które realizują się na dużą skalę (np. procesy produkcji, procesy dystrybucji, procesy ludnościowe, procesy klimatyczne itd.). W potocznym znaczeniu - statystyka to zbiór danych liczbowych, to określone bazy danych statystycznych i systemy ewidencji nazywane rejestrami (np. system PESEL).

Statystyka jest nauką, techniką i sztuką. Sztuką dla statystyka jest skłanianie liczb by same mówiły, co zależy od wprawy i dużego doświadczenia statystyka. C. R. Rao (1920 - )

Przedmiotem statystyki są zawsze pewne zbiorowości elementów lub wyniki jakiegoś procesu, których właściwości nas interesują. Przykładem zbioru elementów może być ludność Polski w określonym momencie, zarejestrowane firmy, wytworzone produkty itp., natomiast rezultaty procesu to np. transakcje zawarte w jakimś okresie, urodzenia w ciągu roku, wyniki zawodów sportowych w danym sezonie itp. Kompletny zbiór elementów lub możliwych wyników procesu nazywamy zbiorowością statystyczną.

Zbiorowość statystyczna jest to skończony zbiór jednostek statystycznych Ω = {ω 1,ω 2,,ω N } Zbiorowość statystyczna ω 1 ω 2 ω N 1 ω 3 ω 4 ω 5 ω N

Poszczególne jednostki statystyczne mogą się różnić pod względem właściwości, np. ludzie mogą się różnić pod względem wagi, płci, wzrostu, poziomu wykształcenia itp., firmy różnią się liczbą pracowników i wysokością zysku, produkowane elementy mogą się różnić kolorem, wytrzymałością itp. Właściwości te nazywamy cechami statystycznymi. Z matematycznego punktu widzenia cechy są funkcjami X :Ω W, gdzie W jest zbiorem wartości, jakie może przyjmować cecha: x i = X(ω i ), i = 1,2,, N.

CECHY STATYSTYCZNE JAKOŚCIOWE (NIEMIERZALNE) ILOŚCIOWE (MIERZALNE) Wykształcenie osoby Kolor produktu Płeć Region zamieszkania Liczba zatrudnionych Zysk firmy Waga osoby Temperatura

CECHY MIERZALNE SKOKOWE (DYSKRETNE) CIĄGŁE Przyjmują skończoną lub co najwyżej przeliczalną liczbę wartości (np. liczba osób w rodzinie) Przyjmują każdą wartość rzeczywistą z pewnego przedziału (np. waga osoby)

Dane statystyczne powstają wskutek obserwacji statystycznej. Polega ona na dokonaniu pomiarów, zliczania faktów, ankietowaniu bezpośrednim lub pośrednim (np. za pośrednictwem poczty) albo na samorejestracji. Rezultatem obserwacji statystycznej jest pomiar, czyli zarejestrowany wariant cechy. Zastosowanie określonej skali pomiaru determinuje w dużym stopniu zakres możliwej analizy statystycznej. Wyróżnia się następujące skale pomiaru: nominalną (np. płeć, region zamieszkania, kolor), porządkową (np. status materialny, osiągnięcia w nauce), interwałową (nie posiadającą ustalonego początku, umiemy przypisać znaczenie różnicy między wynikami obserwacji np. temperatura), ilorazową (gdy znaczenie ma nie tylko odległość między wynikami obserwacji, a znaczenia nabiera również iloraz wyników obserwacji, np. waga).

Populacja jest pojmowana jako zbiór wyników wszystkich pomiarów (wartości cech statystycznych). Populacja 12,5 32,42-7 -7 0 11 15,2

Próba jest podzbiorem wyników pomiarów wybranych z populacji. Pobierania próby dokonuje się z reguły w sposób losowy (każda n- elementowa próba ma taką samą szansę, że zostanie wybrana). Próba losowa Populacja 12,5 32,42-7 -7 0 11 15,2

Zestawienie różnych wariantów lub wartości cechy, które pojawiają się w zbiorowości i podanie częstości ich występowania określa rozkład cechy w zbiorowości. Rozkład cechy jest sumą informacji, jakie posiadamy o populacji badanej pod względem tej cechy. Badanie statystyczne jest pełne, gdy obejmuje wszystkie jednostki populacji (np. spis powszechny ludności). W badaniu pełnym dowiadujemy się jaki jest rozkład cechy w populacji. Dla tego rozkładu możemy obliczyć pewne, interesujące nas, syntetyczne charakterystyki, takie jak: średnia wartość cechy (np. średni wiek ludzi w Polsce), frakcja elementów wyróżnionych w populacji (np. udział ludzi w wieku produkcyjnym) itp. Charakterystyki liczbowe populacji określa się mianem parametrów populacji.

W praktyce przeprowadzenie pełnego badania nie zawsze jest możliwe. Populacje bywają liczne (np. wszystkie rodziny w Polsce) i koszt pełnego badania może być wyższy niż korzyści z samego badania, poza tym niektóre badania mogą być niszczące (np. badanie wytrzymałości elementów konstrukcyjnych lub badanie jakości produktów spożywczych). W takich przypadkach przeprowadza się badania częściowe obejmujące część populacji - próbę. Charakterystyki rozkładu cechy obliczone na podstawie próby określa się mianem statystyk z próby. Zgodnie z teorią statystyki zaleca się, by próbę badania częściowego dobierać poprzez losowanie jednostek populacji, tak aby skład próby nie odchylał się w jakiś tendencyjny sposób od składu całej populacji. Wynika to z faktu, że błędy losowe badania są na ogół mniejsze od błędów tendencyjnych (systematycznych) i podlegają prawom rachunku prawdopodobieństwa (mogą być analizowane i mierzone z wykorzystaniem pojęć tej dyscypliny).

METODY STATYSTYKI STATYSTYKA OPISOWA STATYSTYKA MATEMATYCZNA Gromadzenie danych Opis danych Prezentacja danych Wstępna analiza danych Pomiar statystyczny Próbkowanie Wnioskowanie statystyczne, w tym estymacja i testowanie hipotez

Rozkład cechy i jego prezentacja

Przykład. Przypuśćmy, że w trakcie kontroli drogowej 25 przejeżdzających samochodów zanotowano dane o liczbie pasażerów (bez kierowcy), o zarejestrowanej za pomocą radaru prędkości samochodu (w km/h) i o płci kierowcy (K - kobieta, M - mężczyzna): liczba pasażerów: 2, 0, 2, 1, 2, 1, 0, 3, 1, 3, 3, 1, 0, 3, 4, 2, 2, 1, 3, 1, 1, 2, 1, 4, 2 prędkość: 64, 77, 51, 70, 69, 50, 72, 47, 93, 52, 60, 56, 63, 59, 58, 82, 60, 63, 65, 67, 61, 71, 66, 62, 68 płeć kierowcy: K, M, M, M, K, M, M, K, M, K, M, K, M, K, M, M, K, K, M, M, K, M, K, K, M

W tym badaniu mamy do czynienia ze zbiorem danych indywidualnych dotyczących trzech cech: liczby pasażerów (cecha ilościowa skokowa), prędkości pojazdu (cecha ilościowa ciągła) i płci kierowcy (cecha jakościowa mierzona na skali nominalnej). Numer obserwacji X - liczba pasażerów Y - prędkość samochodu (w km/h) Z - płeć kierowcy 1 2 64 K 2 0 77 M 3 2 51 M 4 1 70 M 5 2 69 K 6 1 50 M 7 0 72 M 8 3 47 K 9 1 93 M 10 3 52 K 11 3 60 M 12 1 56 K 13 0 63 M 14 3 59 K 15 4 58 M 16 2 82 M 17 2 60 K 18 1 63 K 19 3 65 M 20 1 67 M 21 1 61 K 22 2 71 M 23 1 66 K 24 4 62 K 25 2 68 M

Wykres punktowy danych o prędkości 45 50 55 60 65 70 75 80 85 90 95 Prędkość w km/h

Wykres punktowy danych o liczbie pasażerów 0 1 2 3 4 Liczba pasażerów

Zestawienie łodyga i liście Zestawienie danych typu łodyga i liście o prędkości samochodów Liczebność Łodyga Liście 1 4 7 6 5 0 1 2 6 8 9 12 6 0 0 1 2 3 3 4 5 6 7 8 9 4 7 0 1 2 7 1 8 2 1 9 3

Dane indywidualne, zwłaszcza, gdy są liczne, grupuje się, przedstawiając je w postaci tzw. empirycznego rozkładu cechy. Polega ona na przyporządkowaniu poszczególnym wartościom (wariantom) cechy częstości ich występowania. Wartości cechy ilościowej są podawane w rozkładzie rosnąco. Empiryczny rozkład cechy przedstawiany jest zwykle tabelarycznie w postaci szeregu rozdzielczego; może być też prezentowany graficznie za pomocą odpowiednich wykresów.

Rozkład cechy jakościowej Samochody według płci ich kierowców Płeć kierowcy Liczba samochodów Kobieta (K) 11 Mężczyzna (M) 14 Razem 25

Rozkład cechy jakościowej Różne formy przedstawiania częstości w szeregu rozdzielczym Płeć kierowcy Liczba samochodów Częstość względna Odsetki Kobieta (K) 11 11/25 = 0,44 44% Mężczyzna (M) 14 14/25 = 0,56 56% Razem 25 1,00 100%

Rozkład cechy jakościowej Wykres słupkowy rozkładu samochodów według płci ich kierowców Liczba samochodów 14 12 10 8 6 4 2 11 14 0 Kobiety Mężczyźni

Rozkład cechy jakościowej Wykres udziałowy rozkładu płci kierowców Kobiety 56% Mężczyźni 44%

Rozkład cechy ilościowej skokowej Szereg rozdzielczy dla cechy skokowej można otrzymać zapisując w tabeli w porządku rosnącym występujące w zbiorze danych wartości cechy i podajemy obok częstości ich występowania. x i, n i, i = 1,2,,k i = 1,2,,k k n = n, i i=1 wartości cechy X częstości absolutne w i = n i n w i, i = 1,2,,k częstości względne

Rozkład cechy ilościowej skokowej Samochody według liczby pasażerów Numer klasy Liczba pasażerów (x i ) Liczba samochodów (n i ) Częstość względna samochodów (w i ) 1 0 3 0,12 2 1 8 0,32 3 2 7 0,28 4 3 5 0,20 5 4 2 0,08 Razem 25 1,00

Rozkład cechy ilościowej skokowej Wykres słupkowy rozkładu liczby pasażerów 8 8 Liczba samochodów 6 4 2 3 7 5 2 0 0 1 2 3 4 Liczba pasażerów

Rozkład cechy ilościowej ciągłej Cecha ciągła - zgodnie z definicją - może przyjąć każdą wartość rzeczywistą z pewnego dopuszczalnego przedziału. Oznacza to, że przy dostatecznie dokładnym pomiarze takiej cechy możemy otrzymać liczbę różnych wyników równą ogólnej liczbie zbadanych jednostek (np. przy wystarczająco dużej dokładności pomiaru prędkości samochodów w naszym przykładzie otrzymalibyśmy prawdopodobnie 25 różnych wyników). Liczebnoś Łodyga ć 1 4 7 Liście 6 5 0 1 2 6 8 9 12 6 0 0 1 2 3 3 4 5 6 7 8 9 4 7 0 1 2 7 45 50 55 60 65 70 75 80 85 90 95 1 8 2 1 9 3

Rozkład cechy ilościowej ciągłej W przykładzie tym prędkość była mierzona z dokładnością do 1 km/h, ale i tak liczba różnych wartości cechy była duża, o czym mogliśmy się przekonać na podstawie prezentowanego wcześniej wykresu punktowego oraz zestawienia danych typu łodyga i liście. Wynika stąd, że przy budowie rozkładu empirycznego prędkości nie możemy postąpić tak samo jak w przypadku liczby pasażerów (nie możemy zapisać w tabeli wszystkich wartości prędkości, ponieważ większości z nich odpowiadała by liczebność równa 1).

Rozkład cechy ilościowej ciągłej W celu określenia rozkładu cechy ciągłej obszar jej zmienności, czyli przedział pomiędzy najmniejszą i największą wartością cechy w zbiorze (plus pewne niewielkie otoczenie) dzieli się na przedziały, którym następnie przyporządkowuje się liczebności lub częstości względne jednostek przyjmujących wartości z tych przedziałów. Wyznaczone przedziały nazywamy przedziałami klasowymi; ich dolne i górne granice oznaczamy odpowiednio przez x 0i oraz x 1i, gdzie i = 1, 2,, k. Nie ma jednoznacznych, ścisłych reguł postępowania przy tworzeniu przedziałów klasowych. Dużą rolę odgrywają tu intuicja i konkretny cel lub potrzeby badania.

Przedziały klasowe x 01, x 11 ), x 02, x 12 ),, x 0k, x 1k ), x 0i x 1i lewy koniec przedziału klasowego prawy koniec przedziału klasowego Przedziały klasowe Liczebności x 01 - x 11 n 1 x 02 - x 12 n 2 x 0k - x 1k n k

Rozkład cechy ilościowej ciągłej Przy tworzeniu podziałów staramy się przestrzegać pewnych zasad poprawnej klasyfikacji: jednostka może być zaliczona tylko do jednej klasy (rozłączność klas), każda jednostka musi trafić do jakiejś klasy (kompletność). Przy ustalaniu liczby przedziałów klasowych i ich rozpiętości należy dążyć do tego, by uzyskać przejrzysty obraz rozkładu zbiorowości. Dlatego też liczba klas nie może być ani bardzo mała, ani bardzo duża. Zazwyczaj przyjmuje się liczbę klas od 5 (przy mało licznej populacji) do 20 (przy bardzo licznej populacji). Pożądane jest także, aby skrajne przedziały klasowe były domknięte, aby wszystkie przedziały miały jednakową rozpiętość.

Rozkład cechy ilościowej ciągłej Kierując się powyższymi zasadami dla naszego przykładu możemy przyjąć w szeregu rozdzielczym klasy podane w poniższej tabeli Prędkość w km/h Liczba samochodów Częstość samochodów 45-55 4 0,16 55-65 10 0,40 65-75 8 0,32 75-85 2 0,08 85-95 1 0,04 Razem 25 1,00

Rozkład cechy ilościowej ciągłej Szereg rozdzielczy cechy ciągłej prezentuje się najczęściej za pomocą histogramu. Histogram liczebności absolutnych 10 Liczba samochodów 8 6 4 2 0 50 60 70 80 90 Prędkość w km/h

Rozkład cechy ilościowej ciągłej Szereg rozdzielczy cechy ciągłej prezentuje się najczęściej za pomocą histogramu. Histogram częstości względnych 0,4 Częstość samochodów 0,3 0,2 0,1 0 50 60 70 80 90 Prędkość w km/h

Rozkład cechy ilościowej ciągłej W przypadku cechy ilościowej ciągłej możliwe jest również przedstawienie rozkładu w postaci wieloboku częstości. Wielobok częstości względnych 0,4 Częstość samochodów 0,3 0,2 0,1 0 50 60 70 80 90 Prędkość w km/h

Rozkład cechy ilościowej ciągłej Otrzymuje się go przez połączenie odcinkami punktów o współrzędnych gdzie (!x i,w i ),!x i = x 0i + x 1i 2 są środkami przedziałów klasowych.

Szeregi skumulowane Rozkład cechy mierzalnej można przedstawić również za pomocą skumulowanych liczebności lub skumulowanych częstości względnych. n(x i ) = n 1 + n 2 + + n i, (i = 1,2,,k) liczebności skumulowane w(x i ) = w 1 + w 2 + + w i, (i = 1,2,,k) częstości skumulowane Wartości te informują o częstości (absolutnej lub względnej) jednostek zbiorowości, które posiadają wartości cechy nie większe niż wartość x i.

Szeregi skumulowane Skumulowany szereg prędkości samochodów Prędkość w km/h Liczba samochodów Skumulowana liczba samochodów Częstość względna Skumulowana częstość względna w(x i ) 45-55 4 4 0,16 0,16 55-65 10 14 0,40 0,56 65-75 8 22 0,32 0,88 75-85 2 24 0,08 0,96 85-95 1 25 0,04 1,00 Razem 25 1,00

Szeregi skumulowane Szeregi kumulacyjne przedstawia się na wykresie w takiej samej formie jak szeregi rozdzielcze. Mogą to być wykresy słupkowe, histogramy, czy wieloboki liczebności skumulowanych bądź częstości względnych. Histogram skumulowanych liczebności absolutnych 30 Liczba samochodów 24 18 12 6 0 50 60 70 80 90 Prędkość w km/h

Szeregi skumulowane 30 Wielobok skumulowanych liczebności absolutnych Liczba samochodów 24 18 12 6 0 50 60 70 80 90 Prędkość w km/h

Szeregi skumulowane 1 Histogram skumulowanych częstości względnych Częstość samochodów 0,75 0,5 0,25 0 50 60 70 80 90 Prędkość w km/h

Szeregi skumulowane 1 Wielobok skumulowanych częstości względnych (ogiwa) Częstość samochodów 0,75 0,5 0,25 0 50 60 70 80 90 Prędkość w km/h

Dystrybuanta empiryczna Na podstawie skumulowanego szeregu częstości względnych definiowane jest także, ważne w statystyce, pojęcie dystrybuanty empirycznej. Jest to funkcja F n określona na całej prostej rzeczywistej następującym wzorem: F n (x) = 0, dla x < x 1, w(x i ), dla x i x < x i+1 (i = 1,2,,k 1), 1, dla x x k.

Dystrybuanta empiryczna Liczba pasażerów skumulowany szereg liczby pasażerów Liczba samochodów Skumulowana liczba samochodów n(x i ) Skumulowana częstość liczby samochodów w(x i ) 0 3 3 0,12 1 8 11 0,44 2 7 18 0,72 3 5 23 0,92 4 2 25 1,00

Dystrybuanta empiryczna Liczba pasażerów Skumulowana częstość liczby samochodów w(x i ) 0 0,12 1 0,44 2 0,72 3 0,92 4 1,00 F n (x) = 0 dla x < 0 0,12 dla 0 x < 1 0,44 dla 1 x < 2 0,72 dla 2 x < 3 0,92 dla 3 x < 4 1 dla x 4

Dystrybuanta empiryczna F n (x) Częstości względne liczby samochodów 1 0,92 0,72 0,44 0,12 0 1 2 3 4 5 x Liczba pasażerów

Dystrybuanta empiryczna F n (x) 20% samochodów miało od 2 do 3 pasażerów Częstości względne 1 0,92 0,72 0,44 0,12 0,92-0,72 = 0,2 0 1 2 3 4 5 x Liczba pasażerów

Miary opisowe rozkładu Jak powiedzieliśmy wcześniej dla rozkładu cechy możemy obliczyć pewne, interesujące nas, syntetyczne charakterystyki. Określa się je mianem statystyk, gdy są obliczane na podstawie prób, lub mianem parametrów, gdy odnoszą się do całej populacji.

Miary opisowe rozkładu Miary tendencji centralnej (położenia) Miary opisowe Miary zmienności (rozproszenia, dyspersji) Miary asymetrii Miary koncentracji

Miary tendencji centralnej (położenia) Miary tendencji centralnej Klasyczne Pozycyjne średnia arytmetyczna, średnia harmoniczna, średnia geometryczna. dominanta (moda), percentyle (w tym mediana, kwartyle).

P-ty percentyl P-tym percentylem w zbiorze liczb uporządkowanych według wielkości jest ta wartość, poniżej której znajduje się P% liczb z tego zbioru. Miejsce P-tego percentyla określa wzór: (n +1) P 100, gdzie n jest liczbą elementów zbioru.

Przykład nr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 wartość 6 9 10 12 13 14 14 15 16 16 16 17 17 18 18 19 22 23 26 30 Miejsce 50-tego percentyla: (20 +1) 50 100 = 21 0,5 = 10,5 50-ty percentyl: 16

Przykład nr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 wartość 6 9 10 12 13 14 14 15 16 16 16 17 17 18 18 19 22 23 26 30 Miejsce 80-tego percentyla: (20 +1) 80 100 22-19=3 = 21 0,8 = 16,8 = 16 + 0,8 80-ty percentyl: 19 + 3 0,8 = 19 + 2,4 = 21,4

Mediana (me) Mediana jest to 50-ty percentyl, czyli wartość poniżej której znajduje się połowa obserwacji. Nr pracownika 1 2 3 4 5 Staż pracy 3 5 8 10 14 Pozycja mediany (numer środkowy) jest równy n +1 2 = 5 +1 2 = 3. Trzecia obserwacja ma wartość 8, więc me = 8.

Mediana (me) Nr pracownika 1 2 3 4 5 6 Staż pracy 3 5 8 10 14 20 Pozycja mediany (numer środkowy) jest równy n +1 2 = 6 +1 2 = 3,5. Nie ma oczywiście obserwacji o takim numerze. Widzimy jednak, że każda wartość pomiędzy wartościami cechy trzeciej i czwartej spełnia formalne kryterium sformułowane w definicji mediany. Umownie przyjmuje się, że medianą będzie średnia z tych sąsiadujących ze sobą wartości me = (8+10)/2 = 9.

Mediana (me) Powyższe rozważania można sformalizować za pomocą następującego wzoru: me = x (n+1)/2, x n/2 + x n/2+1 2 gdy n jest nieparzyste,, gdy n jest parzyste.

Kwartyle (dolny Q 1 i górny Q 3 ) Dolny kwartyl (Q 1 ) to 25-ty percentyl, czyli wartość, poniżej której znajduje się jedna czwarta (25%) wyników obserwacji. Górny kwartyl (Q 3 ) to 75-ty percentyl, czyli wartość, poniżej której znajduje się trzy czwarte (75%) wyników obserwacji. nr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 wartość 6 9 10 12 13 14 14 15 16 16 16 17 17 18 18 19 22 23 26 30 (20 +1) 25 100 = 21 4 = 5,25 (20 +1) 75 100 = 21 3 4 = 63 4 = 15,75 Q 1 = 13,25 Q 3 = 18,75

Dominanta (do, inaczej Moda) Dominantą w zbiorze danych jest ta wartość, która w tym zbiorze występuje najczęściej. Wartości 6 9 10 12 13 14 15 16 17 18 19 20 21 22 23 Liczebności 1 1 1 1 1 2 1 3 2 2 1 1 1 1 1 do = 16, gdyż najczęściej (trzy razy) występuje wartość 16.

Dominanta (do, inaczej Moda) Wykres słupkowy rozkładu liczby pasażerów Liczba samochodów 8 6 4 2 3 8 7 5 2 0 0 1 2 3 4 do = 1, gdyż najczęściej (w 8 samochodach) liczba pasażerów wynosiła 1. Liczba pasażerów

Średnia (w próbie i w populacji) Średnią (arytmetyczną) zbioru wyników obserwacji, zwaną także przeciętną, jest suma wartości wszystkich wyników podzielona przez liczbę elementów tego zbioru. x = n x i i=1 n = x 1 + + x n n, średnia w próbie µ = N x i i=1 N = x 1 + + x N N, średnia w populacji

Średnia (w próbie i w populacji) nr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 wartość 6 9 10 12 13 14 14 15 16 16 16 17 17 18 18 19 22 23 26 30 średnia 16,55 x = 6 + 9 +10 +12 +13+ 2 14 +15 + 3 16 + 2 17 + 2 18 +19 + 22 + 23+ 26 + 30 20 = 16,55 3 2 1 0 6 8 10 12 14 16 18 20 22 24 26 28 30 =

Miary zmienności (rozproszenia) Rozważmy dwa zbiory danych: Zbiór I 1 2 3 4 5 6 6 7 8 9 10 11 Zbiór II 4 5 5 5 6 6 6 6 7 7 7 8 Rozkłady liczebności tych zbiorów danych wyglądają następująco Zbiór I Zbiór II 2 4 1 2 0 1 2 3 4 5 6 7 8 9 10 11 0 4 5 6 7 8

Miary zmienności (rozproszenia) Średnia Zbiór I 1 2 3 4 5 6 6 7 8 9 10 11 6 Zbiór II 4 5 5 5 6 6 6 6 7 7 7 8 6 Zbiór I Zbiór II 2 4 1 2 0 1 2 3 4 5 6 7 8 9 10 11 0 4 5 6 7 8 x = 6 x = 6 Widać jednak, że rozkłady danych różnią się znacząco.

Miary zmienności (rozproszenia) Miary zmienności Klasyczne Pozycyjne wariancja, odchylenie standardowe, odchylenie przeciętne, współczynnik zmienności. rozstęp, odstęp międzykwartylowy odchylenie ćwiartkowe, współczynnik zmienności.

Rozstęp (R=x max - x min ) Rozstępem w zbiorze wyników obserwacji nazywamy różnicę między największą i najmniejszą zaobserwowaną wartością. me Rozstęp Zbiór I 1 2 3 4 5 6 6 7 8 9 10 11 6 10 Zbiór II 4 5 5 5 6 6 6 6 7 7 7 8 6 4 Zbiór I Zbiór II 2 4 1 2 0 1 2 3 4 5 6 7 8 9 10 11 0 4 5 6 7 8

Odstęp międzykwartylowy IQR = Q 3 - Q 1 1 2 3 4 5 6 7 8 9 10 11 12 me IQR Zbiór I 1 2 3 4 5 6 6 7 8 9 10 11 6 5,5 Zbiór II 4 5 5 5 6 6 6 6 7 7 7 8 6 2 Zbiór I Zbiór II 2 4 1 2 0 1 2 3 4 5 6 7 8 9 10 11 0 4 5 6 7 8 Q 1 = 3,25 Q 3 = 8,75 Q 1 = 5 Q 3 = 7 IQR = 8,75-3,25 = 5,5 IQR = 7-5 = 2

Odchylenie ćwiartkowe Q = (Q 3 - Q 1 )/2 = IQR/2 1 2 3 4 5 6 7 8 9 10 11 12 me Q Zbiór I 1 2 3 4 5 6 6 7 8 9 10 11 6 2,75 Zbiór II 4 5 5 5 6 6 6 6 7 7 7 8 6 1 Zbiór I Zbiór II 2 4 1 2 0 1 2 3 4 5 6 7 8 9 10 11 0 4 5 6 7 8 Q 1 = 3,25 Q 3 = 8,75 Q 1 = 5 Q 3 = 7 Q = 5,5/2 = 2,75 Q = 2/2 = 1

Typowy obszar zmienności me - Q < x typ < me + Q 1 2 3 4 5 6 7 8 9 10 11 12 me Q Zbiór I 1 2 3 4 5 6 6 7 8 9 10 11 6 2,75 Zbiór II 4 5 5 5 6 6 6 6 7 7 7 8 6 1 Zbiór I Zbiór II Q 1 = 3,25 Q 3 = 8,75 Q 1 = 5 Q 3 = 7 6-2,75 < x typ < 6 + 2,75 6-1 < x typ < 6 + 1 3,25 < x typ < 8,75 5 < x typ < 7

Wariancja (w próbie i w populacji) Wariancją w zbiorze wyników obserwacji nazywamy przeciętne kwadratowe odchylenie poszczególnych wyników od ich średniej. s 2 = n i=1 (x i x) 2 n 1, wariancja w próbie σ 2 = N i=1 (x i µ) 2 N, wariancja w populacji

Wariancja (w próbie i w populacji) Średnia Wariancja Zbiór I 1 2 3 4 5 6 6 7 8 9 10 11 6 10 Zbiór II 4 5 5 5 6 6 6 6 7 7 7 8 6 1,27 Zbiór I Zbiór II 2 4 1 2 0 1 2 3 4 5 6 7 8 9 10 11 0 4 5 6 7 8 s 2 = 10 s 2 = 1,27

Odchylenie standardowe Wariancją w zbiorze wyników obserwacji nazywamy przeciętne kwadratowe odchylenie poszczególnych wyników od ich średniej. s = s 2, odchylenie standardowe w próbie σ = σ 2, odchylenie standardowe w populacji

Odchylenie standardowe Średnia Odchylenie Zbiór I 1 2 3 4 5 6 6 7 8 9 10 11 6 3,16 Zbiór II 4 5 5 5 6 6 6 6 7 7 7 8 6 1,13 Zbiór I Zbiór II 2 4 1 2 0 1 2 3 4 5 6 7 8 9 10 11 0 4 5 6 7 8 s = 3,16 s = 1,13

Typowy obszar zmienności x s < x typ < x + s Średnia Odchylenie Zbiór I 1 2 3 4 5 6 6 7 8 9 10 11 6 3,16 Zbiór II 4 5 5 5 6 6 6 6 7 7 7 8 6 1,13 Zbiór I Zbiór II 6 3,16 < x typ < 6 + 3,16 6 1,13 < x typ < 6 +1,13 2,84 < x typ < 9,16 4,87 < x typ < 7,13

Związki między średnią a odchyleniem standardowym Twierdzenie Czebyszewa: Co najmniej 3/4 wyników obserwacji odchyla się od średniej o mniej niż o 2 odchylenia standardowe. Co najmniej 8/9 wyników obserwacji odchyla się od średniej o mniej niż 3 odchylenia standardowe.

Związki między średnią a odchyleniem standardowym Reguła empiryczna: Jeśli rozkład wyników obserwacji ma kształt kopca, tj histogram jest dość symetryczny i jednomodalny, to: Około 68% wyników obserwacji odchyla się od średniej nie więcej niż o 1 odchylenie standardowe. Około 95% wyników obserwacji odchyla się od średniej nie więcej niż o 2 odchylenia standardowe. Ogromna większość wyników obserwacji (99,7%) odchyla się od średniej nie więcej niż o 3 odchylenia standardowe.

68% 95% 99,7% x 3s x 2s x s x x + s x + 2s x + 3s Ilustracja reguły empirycznej

Współczynniki zmienności CV = s x, klasyczny współczynnik zmienności Średnia Odchylenie CV Zbiór I 1 2 3 4 5 6 6 7 8 9 10 11 6 3,16 0,53 Zbiór II 4 5 5 5 6 6 6 6 7 7 7 8 6 1,13 0,19 CV = Q me, pozycyjny współczynnik zmienności 1 2 3 4 5 6 7 8 9 10 11 12 me Q CV Zbiór I 1 2 3 4 5 6 6 7 8 9 10 11 6 2,75 0,46 Zbiór II 4 5 5 5 6 6 6 6 7 7 7 8 6 1 0,17

Miary asymetrii x < me < do x = me = do do < me = x Rozkład lewoskośny Rozkład symetryczny Rozkład prawoskośny Współczynnik skośności A = x do s

Miary spłaszczenia (Kurtoza) Rozkład spiczasty K > 3 Rozkład normalny Rozkład spłaszczony K = 3 K < 3 (x i x) 4 Współczynnik skupienia K = i=1 (n 1)s 4 n

Wykres-pudełko (box plot) W cell zobrazowania centralnej tendencji, rozproszenia i asymetrii rozkładu oraz w celu wyodrębnienia nietypowych wyników obserwacji (tzw. outliers) stosuje się czesto wykres-pudełko lub dokładniej pudełko z wąsami (box-and-whisker plot). Wykres-pudełko wykorzystuje sześć charakterystyk: medianę (me), dolny kwartyl (Q 1 ), górny kwartyl (Q 3 ), najmniejszy wynik obserwacji (Min), największy wynik obserwacji (Max), odstęp międzykwartylowy (IQR).

Wykres-pudełko (box plot) nr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 wartość 6 9 10 12 13 14 14 15 16 16 16 17 17 18 18 19 22 23 26 30 me = 16 Q 1 = 13,25 Q 3 = 18,75 IQR = 5,5 Wartość IQR określa długość pudełka, jego wysokość może być dowolna. Pudełko dzieli się na dwie części za pomocą linii pionowej na wysokości mediany. Q 1 me Q 3 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Wykres-pudełko (box plot) nr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 wartość 6 9 10 12 13 14 14 15 16 16 16 17 17 18 18 19 22 23 26 30 me = 16 Q 1 = 13,25 Q 3 = 18,75 IQR = 5,5 Aby do pudełka dorysować wąsy, ustalamy granice, których wąsy nie mogą przekroczyć: Q 1-1,5 IQR = 5; Q 3 + 1,5 IQR = 27. Q 1-1,5 IQR Q 1 me Q 3 Q 3 + 1,5 IQR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Wykres-pudełko (box plot)

Miary dla danych pogrupowanych Medianą w zbiorze danych pogrupowanych jest taka wartość na osi poziomej, która dzieli histogram na dwie równe części. Klasa medialna to klasa zawierająca medianę. Zawiera ona wynik obserwacji znajdujący się na miejscu (n+1) 0,5. W danych z prędkościami samochodów. Wartość (25+1) 0,5 = 13 po raz pierwszy zostaje przekroczona przez skumulowaną liczebność n(65) = 14, czyli mediana należy do klasy [55, 65). Jest to klasa medialna. Skumulowany szereg prędkości samochodów Prędkość w km/h Liczba samochodów Skumulowana liczba samochodów 45-55 4 4 < 13 me 55-65 10 14 > 13 65-75 8 22 75-85 2 24 85-95 1 25 Razem 25

Miary dla danych pogrupowanych wzoru gdzie Wartość mediany dla pogrupowanych danych szacuje się ze me = x + n 0m 2 n(x 0m ) h m, n m x 0m n(x 0m ) h m, n m - dolna granica klasy medialnej, - liczebność skumulowana dla dolnej granicy klasy medialnej, - rozpiętość i liczebność klasy medialnej.

Miary dla danych pogrupowanych Skumulowany szereg prędkości samochodów Prędkość w km/h Liczba samochodów Skumulowana liczba samochodów 45-55 4 4 < 13 me 55-65 10 14 > 13 65-75 8 22 75-85 2 24 85-95 1 25 Razem 25 me = x + n 0m 2 n(x 0m ) h m = 55 + 25 n 2 4 10 m 10 = 63,5

Miary dla danych pogrupowanych 10 Histogram liczebności absolutnych Liczba samochodów 8 6 4 2 0 50 60 70 80 90 me = 63,5 Prędkość w km/h

Miary dla danych pogrupowanych Klasą dominującą jest klasa, do której częstość należenia jest największa. Histogram liczebności absolutnych Liczba samochodów 10 8 6 4 2 Klasa dominująca to klasa [55, 65). 0 50 60 70 80 90 Prędkość w km/h

Miary dla danych pogrupowanych Średnia pogrupowanych wyników obserwacji gdzie x = 1 n k!x n, i i i=1!x i = x 1i + x 0i 2 n i k - środek i-tej klasy, - liczebność i-tej klasy, - liczba klas.

Miary dla danych pogrupowanych Skumulowany szereg prędkości samochodów Prędkość w km/h Liczba samochodów Skumulowana liczba samochodów 45-55 4 4 55-65 10 14 65-75 8 22 75-85 2 24 85-95 1 25 Razem 25 x = 1 25 ( 50 4 + 60 10 + 70 8 + 80 2 + 90 1) = 64,4

Miary dla danych pogrupowanych Skumulowany szereg prędkości samochodów Prędkość w km/h Liczba samochodów Skumulowana liczba samochodów 45-55 4 4 55-65 10 14 65-75 8 22 75-85 2 24 85-95 1 25 Razem 25 Faktyczna wartość średniej obliczona na podstawie wartości niepogrupowanych wynosi 64,24 x = 1 25 ( 50 4 + 60 10 + 70 8 + 80 2 + 90 1) = 64,4

Miary dla danych pogrupowanych Wariancja pogrupowanych wyników obserwacji gdzie s 2 = 1 n 1 k i=1 (!x i ) 2 n i 1 n k i=1!x n i i 2,!x i = x 1i + x 0i 2 n i k - środek i-tej klasy, - liczebność i-tej klasy, - liczba klas.

Miary dla danych pogrupowanych Prędkość w km/h s 2 = 1 24 502 4 + 60 2 10 + 70 2 8 + 80 2 2 + 90 2 1 1 (25 64,4)2 25 = 1 24 Skumulowany szereg prędkości samochodów Liczba samochodów Skumulowana liczba samochodów ( 106100 103684) = 100,67!x i!x i 2 n i 45-55 4 4 50 10000 55-65 10 14 60 36000 65-75 8 22 70 39200 75-85 2 24 80 12800 85-95 1 25 90 8100 Razem 25 106100 =