STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Podobne dokumenty
Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

1 Podstawy rachunku prawdopodobieństwa

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Próba własności i parametry

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Pozyskiwanie wiedzy z danych

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

W1. Wprowadzenie. Statystyka opisowa

Statystyka Matematyczna Anna Janicka

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Laboratorium 3 - statystyka opisowa

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Parametry statystyczne

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Miary statystyczne w badaniach pedagogicznych

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Przedmiot statystyki. Graficzne przedstawienie danych.

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyka. Opisowa analiza zjawisk masowych

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Analiza struktury i przeciętnego poziomu cechy

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Statystyka matematyczna i ekonometria

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Xi B ni B

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Opisowa analiza struktury zjawisk statystycznych

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Statystyczne metody analizy danych

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Graficzna prezentacja danych statystycznych

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka opisowa- cd.

Wykład 5: Statystyki opisowe (część 2)

Podstawowe pojęcia statystyczne

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

STATYSTYKA OPISOWA. Dr Alina Gleska. 28 września Instytut Matematyki WE PP

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

4.2. Statystyczne opracowanie zebranego materiału

Biostatystyka, # 1 /Weterynaria I/

Matematyka stosowana i metody numeryczne

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Zadanie 2.Na III roku bankowości złożonym z 20 studentów i 10 studentek przeprowadzono test pisemny ze statystyki. Oto wyniki w obu podgrupach.

Statystyka to nauka o metodach badań (liczbowo wyrażalnych) własności zbiorowości. Próba. Próba Populacja. Próba

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Wykład 4: Statystyki opisowe (część 1)

Statystyka opisowa. Robert Pietrzykowski.

Statystyki opisowe i szeregi rozdzielcze

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Estymacja punktowa i przedziałowa

Matematyka z el. statystyki, # 1 /Geodezja i kartografia II/

Statystyka. Wykład 1. Magdalena Alama-Bućko. 26 lutego Magdalena Alama-Bućko Statystyka 26 lutego / 34

Analiza zróżnicowania, asymetrii i koncentracji

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Zmienne losowe. Statystyka w 3

Miary w szeregach. 1 Miary klasyczne. 1.1 Średnia Średnia arytmetyczna

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński

Miary asymetrii STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

You created this PDF from an application that is not licensed to print to novapdf printer (

Transkrypt:

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE CECHY mogą być: jakościowe nieuporządkowane - skala nominalna płeć, rasa, kolor oczu, narodowość, marka samochodu, znak zodiaku, miejscowość zamieszkania, zawód, kierunek studiów... jakościowe uporządkowane - skala porządkowa wykształcenie, ocena z egzaminu (ndst/dst/...), klasa samochodu, poziom np. stresu lub zadowolenia ilościowe - na skali przedziałowej temperatura, rok urodzenia, ocena z egzaminu (2/3/...) ilościowe - na skali ilorazowej waga, wzrost, ciśnienie, czas reakcji, zarobki, natężenie prądu, zużycie paliwa, liczba (czegokolwiek) JAKOŚCIOWE te przy których opis liczbami jest bezużyteczny (najwyżej służy do zakodowania) ILOŚCIOWE wyrażane liczbami. Jeśli wartość 0 ma naturalną interpretację ( nic ), skala pomiaru jest ilorazowa; jeśli zależy od konwencji przedziałowa.

Nadto cechy ilościowe dzielą się na: skokowe (dyskretne) mogące przyjmować tylko jedną ze skończenie (w domyśle: niezbyt) wielu wartości: liczby: lat, dzieci, straconych bramek, punktów na teście, wyroków ciągłe mogące teoretycznie przyjmować wartości z nieskończonego (w domyśle: bardzo dużego) zbioru: waga, odległość, powierzchnia (mieszkania, kraju), czas (reakcji, dojazdu do pracy, odsiadki...), dochody, zużycie paliwa, liczba mieszkańców miasta

PREZENTACJA I CHARAKTERYSTYKI ROZKŁADU CECHY ILOŚCIOWEJ W PRÓBIE (rozkładu empirycznego) Oznaczamy: n liczebność próby (obserwowanych jednostek), x 1, x 2,..., x n kolejne zaobserwowane wartości cechy (szereg szczegółowy, szereg wyliczający), x (1), x (2),..., x (n) zaobserwowane wartości cechy uporządkowane rosnąco, k liczba różnych zaobserwowanych wartości (dla cechy skokowej) Przykład 1. Liczba szkód ubezpieczeniowych zaobserwowanych w ciągu 4 lat u kolejnych 20 ubezpieczonych samochodów w pewnym towarzystwie: 0, 6, 1, 1, 0, 3, 2, 0, 4, 1, 11, 2, 0, 1, 0, 0, 0, 1, 3, 0. Szereg wyliczający powyżej ; n = 20, Szereg wyliczający uporządkowany x (1), x (2),..., x (20) = 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 3, 4, 6, 11 np. x (1) = x (2) =... = x (8) = 0, x (9) = 1, x (19) = 6. k = 7 tyle jest obserwowanych wartości ({0, 1, 2, 3, 4, 6, 11}). Szereg rozdzielczy : tabela pogrupowanych i uporządkowanych wartości cechy zaobserwowanych w próbie wraz z liczebnościami ich występowania: Dla cechy skokowej i niewielkiego k szereg punktowy: m 1, m 2,..., m k wartości, n 1, n 2,..., n k liczebności :

Nr klasy Wartość Liczebność Częstość j m j n j w j j = 1 0 8 0,4 j = 2 1 5 0,25 j = 3 2 2 0,1 j = 4 3 2 0,1 j = 5 4 1 0,05 j = 6 6 1 0,05 j = k = 7 11 1 0,05 (zazwyczaj podaje się liczebności lub częstości). Dla cechy ciągłej zazwyczaj k jest bliskie n i większość spośród n j jest równa 1. Zamiast szeregu punktowego tworzymy wówczas szereg rozdzielczy przedziałowy, grupując zaobserwowane wartości w przedziały klasowe : k liczba przedziałów klasowych (zaleca się by k 5 log n), ]xd j, xg j ] j-ty przedział klasowy (j = 1, 2,... k), h j = xg j xd j jego długość (dobrze żeby h 1 = h 2 =... = h k = h), n j liczba obserwacji w tym przedziale. Oczywiście dla obu typów szeregów rozdzielczych: k n j = n.

Częstości w próbie Dla j-tej zaobserwowanej wartości bądź j-tego przedziału klasowego: w j = n j n częstość występowania wartości m j (bądź wartości w przedziale ]xd j, xg j ]). Oczywiście k w j = 1. Przedstawienie graficzne: Wielobok liczebności łamana łącząca wszystkie punkty (m j, n j ) dla szeregu punktowego, (x o j, n j ) dla szeregu przedziałowego, gdzie x o j = xg j+xd j 2 (środek j-tego przedziału). Histogram wykres słupkowy dla cechy ciągłej (przy stałej h). Wielobok częstości łamana łącząca wszystkie punkty (m j, w j ) bądź (x o j, w j ).

MIARY POŁOŻENIA ROZKŁADU EMPIRYCZNEGO Średnia empiryczna (średnia z próby) : DEFINICJA. x = 1 n n x i. Obliczanie z punktowego szeregu rozdzielczego: x = 1 n k m j n j = k m j w j. Obliczanie (przybliżone) z przedziałowego szeregu rozdzielczego: x 1 n k x o j n j = k x o j w j. Istotne własności: n (x i x) = 0 ; n (x i x) 2 n (x i y) 2 y R ; wielkość x zależy od wszystkich obserwacji x 1, x 2,..., x n. Mediana z próby DEFINICJA. me (x 1, x 2,..., x n ) dowolna liczba a taka. że: co najmniej połowa zaobserwowanych wartości x 1, x 2,..., x n to liczby a, co najmniej połowa zaobserwowanych wartości x 1, x 2,..., x n to liczby a. Znajdowanie z uporządkowanego szeregu wyliczającego: * me (x 1, x 2,..., x n ) = x ( n+1 2 ) gdy liczba obserwacji (n) jest nieparzysta, * me (x 1, x 2,..., x n ) = dowolna liczba z przedziału [x ( n 2 ), x ( n 2 +1)] gdy liczba obserwacji jest parzysta.

W praktyce przy parzystym n często przyjmuje się me(x 1, x 2,..., x n ) = 1 2 (x ( n 2 ) + x ( n 2 +1)). Znajdowanie (przybliżone) z przedziałowego szeregu rozdzielczego: me(x 1, x 2,..., x n ) xd j + h j 1 n j n 2 j 1 l=1 n l gdzie j numer przedziału klasowego zawierającego obserwację x ( n+1 2 ), h j jego długość. Istotna własność mediany: Nie zależy od obserwacji skrajnych. Przykład 2. Szereg rozdzielczy płac pracowników z wyższym wykształceniem w pewnej małej firmie: Płaca Liczba pracowników 3000 6 3500 8 3600 6 4000 4 5000 3 7000 2 14000 1 n = 30 me = x 15 = x 16 = 3600 ; x = 4220

Dominanta (moda) = wartość najczęsciej obserwowana w próbie: m = ta m j że dla każdej innej klasy l zachodzi n l < n j. Wspólne własności wszystkich miar położenia: Jeżeli i = 1, 2,... n y i = x i + c, to y = x + c, me (Y ) = me (X) +c i tak samo dla dominanty. (Przesunięcie wszystkich zaobserwowanych wartości o tę samą wielkość c powoduje przesunięcie średniej, dominanty i mediany o c). Jeżeli i = 1, 2,... n y i = a x i, to y = a x, me (Y ) = a me (X) i tak samo dla dominanty. (Pomnożenie wszystkich wartości w próbie przez tę samą wielkość a powoduje pomnożenie średniej, dominanty i mediany przez a). Kwantyle DEFINICJA. Dla dowolnej liczby p takiej że 0 < p < 1 kwantyl rzędu p (z próby (x 1, x 2,..., x n )) dowolna liczba k p taka. że: co najmniej np z zaobserwowanych wartości x 1, x 2,..., x n to liczby k p, co najmniej n(1 p) spośród zaobserwowanych wartości x 1,..., x n to liczby k p. Znajdowanie z uporządkowanego szeregu wyliczającego: * k p = x ( np ) gdy n p nie jest liczbą całkowitą, * k p = dowolna liczba z przedziału [x (np), x (np+1) ] gdy n p jest liczbą całkowitą. (Tu: a = sufit liczby a = najmniejsza liczba całkowita a).

Kwantyl rzędu p = 1/4 : k 0,25 = Q 1 (pierwszy kwartyl) ; Kwantyl rzędu p = 3/4 : k 0,75 = Q 3 (trzeci kwartyl) ; Kwantyl rzędu p = 1/2 : k 0,5 = Q 2 (drugi kwartyl) (= co?) Kwantyle rzędu 0,1, 0,2,..., 0,9 decyle Rozstęp międzykwartylowy IQR = Q 3 Q 1 Przykłady: zarobki w firmie, odległości dojazdu na uczelnię Wykres pudełkowy ( pudełko z wąsami ) dla rozkładu empirycznego Pudełko: Lewy kraniec w Q 1, prawy w Q 3 Długość pudełka = IQR Pionowa kreska w pudełku w punkcie me Wąsy: Lewy: od najmniejszej zaobserwowanej wartości Q 1 3 2 IQR do Q 1 Prawy: od Q 3 do największej zaobserwowanej wartości Q 3 + 3 2 IQR Długość każdego wąsa: nie więcej niż 1,5 IQR Obserwacje odstające (poza końcami wąsów) zaznaczone kropkami

MIARY ZRÓŻNICOWANIA ROZKŁADU EMPIRYCZNEGO Rozstęp międzykwartylowy IQR niewrażliwy na obserwacje skrajne (odstające) Rozstęp : x (n) x (1) różnica między największą a najmniejszą zaobserwowaną wartością; Wariancja empiryczna DEFINICJA. s 2 = 1 n 1 n lub równoważnie: s 2 = 1 n 1 (x i x) 2. n x 2 i nx 2 Obliczanie z punktowego szeregu rozdzielczego: s 2 = 1 n 1 k. n j (m j x) 2 = 1 n 1 k n j m 2 j nx 2 Wariancja empiryczna na ogół mocno zależy od obserwacji odstających. Odchylenie standardowe w próbie: s = s 2. Własności miar zróżnicowania: Jeżeli i = 1, 2,... n y i = x i + c, to s 2 (Y ) = s 2 (X), IQR (Y ) = IQR (X) i tak samo dla innych miar. (Przesunięcie wszystkich zaobserwowanych wartości o tę samą wielkość c nie zmienia miar zróżnicowania rozkładu). Jeżeli i = 1, 2,... n y i = a x i, to s 2 (Y ) = a 2 s 2 (X), s(y ) = as(x), IQR (Y ) = a IQR (X). (Pomnożenie wszystkich wartości w próbie przez tę samą wielkość a powoduje pomnożenie odchylenia standardowego i rozstępów przez a, a wariancji empirycznej przez a 2 ).

MIARY ASYMETRII ROZKŁADU EMPIRYCZNEGO Rozkład w próbie jest symetryczny, jeżeli dla każdej obserwowanej wartości m j < x istnieje wartość m l > x taka że m l x = x m j oraz n l = n j. (Inaczej jego wieloboki liczebności i częstości są symetryczne). Rozkłady asymetryczne = lewo- lub prawostronnie skośne. Klasyczny współczynnik asymetrii: A 3 = 1 (n 1)s 3 n (x i x) 3 = Współczynnik skośności: k = x me s 1 (n 1)s 3 k n j (m j x) 3 Pozycyjny współczynnik skośności: A 3 = Q 3 me (me Q 1 ) Q 3 Q 1. Wszystkie one przyjmują wartości: 0 dla rozkładów symetrycznych, > 0 dla rozkładów prawostronnie skośnych, < 0 dla lewostronnie skośnych. WIELKOŚCI SKUMULOWANE dla ROZKŁADU EMPIRYCZNEGO Przypomnienie: Liczebność dla j tej (od dołu) obserwowanej wartości m j : n j liczba obserwacji dokładnie tej wartości; dla j tego przedziału klasowego : n j liczba obserwacji wartości w tym przedziale, ]xd j, xg j ] Liczebność skumulowana dla j tej (od dołu) obserwowanej wartości m j lub j- tego przedziału klasowego: nc j = j n l

liczba wszystkich obserwacji o wartościach nie przekraczających m j (lub xg j ). Częstość skumulowana dla m j lub przedziału jak wyżej: wc j = j l=1 w l = nc j n częstość obserwacji o wartościach nie przekraczających m j (lub xg j ). Wielobok liczebności skumulowanych - łamana łącząca wszystkie punkty (m j, nc j ) dla szeregu punktowego, (x o j, nc j ) dla szeregu przedziałowego. Dystrybuanta empiryczna: funkcja rzeczywista określona na całym R tak: F n (z) = = liczba obserwacji nie większych od z n 0 dla z < m 1 (= x (1) ), wc j dla z [m j, m j+1 [ 1 dla z > m k (= x (n) ). = częstość występowania w próbie wartości nie większych od z. Właściwości: wyznacza rozkład, jest niemalejąca i prawostronnie ciągła, przyjmuje tylko skończoną liczbę wartości (k) dla skończonej próby, lim x F n (x) = 0, lim x F n (x) = 1. Związki z kwantylami: k p = = dowolny z dla którego F n (z) = p jeśli taki z istnieje, najmniejszy taki z że F n (z) > p w przeciwnym przypadku. =

MIARA ZALEŻNOŚCI ROZKŁADU EMPIRYCZNEGO DWÓCH CECH TEJ SAMEJ PRÓBY np. wzrostu i wagi w próbie / populacji mężczyzn, wyniku egzaminów z psychologii i ze statystyki w grupie studentów,... Współczynnik korelacji cech X i Y w próbie: r X,Y = 1 n 1 n x i x s X y i y s Y gdzie s X jest odchyleniem standardowym cechy X w próbie, a s Y cechy Y. Własności: Zawsze: 1 r X,Y 1. Jeżeli c, d > 0, to r cx,dy = r X,Y. (Przeskalowanie wszystkich wartości jednej lub obu cech nie zmienia współczynnika korelacji). Interpretacja (nie zawsze poprawna): r X,Y bliskie 1 (bliskie 1) oznacza silną zależność rosnącą (malejącą) między cechami, r X,Y bliskie 0 oznacza brak zależności.