Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Podobne dokumenty
STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka. Opisowa analiza zjawisk masowych

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Opisowa analiza struktury zjawisk statystycznych

1 Podstawy rachunku prawdopodobieństwa

Próba własności i parametry

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Miary statystyczne w badaniach pedagogicznych

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

W1. Wprowadzenie. Statystyka opisowa

Laboratorium 3 - statystyka opisowa

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Pozyskiwanie wiedzy z danych

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Parametry statystyczne

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Statystyka opisowa. Robert Pietrzykowski.

Statystyka Matematyczna Anna Janicka

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyczne metody analizy danych

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Matematyka stosowana i metody numeryczne

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Analiza struktury i przeciętnego poziomu cechy

Miary w szeregach. 1 Miary klasyczne. 1.1 Średnia Średnia arytmetyczna

Xi B ni B

Biostatystyka, # 1 /Weterynaria I/

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Analiza zróżnicowania, asymetrii i koncentracji

Graficzna prezentacja danych statystycznych

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Matematyka z el. statystyki, # 1 /Geodezja i kartografia II/

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

STATYSTYKA OPISOWA. Dr Alina Gleska. 28 września Instytut Matematyki WE PP

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

4.2. Statystyczne opracowanie zebranego materiału

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Zawartość. Zawartość

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Estymacja parametrów rozkładu cechy

99 wybranych pytań ze statystyki i odpowiedzi na nie

Dane i ich struktura Skale pomiarowe i ich przekształcanie. Mariusz Dacko

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Zmienne losowe. Statystyka w 3

Analiza statystyczna w naukach przyrodniczych

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Podstawowe pojęcia statystyczne

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka to nauka o metodach badań (liczbowo wyrażalnych) własności zbiorowości. Próba. Próba Populacja. Próba

Statystyka. Katarzyna Chudy Laskowska

Miary koncentracji STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 28 września 2018

Statystyka matematyczna i ekonometria

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

WSTĘP DO STATYSTYKI MATEMATYCZNEJ. D r h a b. i n ż. D a r i u s z P i w c z y ń s k i, p r o f. n a d z w. U T P

Estymacja punktowa i przedziałowa

Statystyka opisowa. Robert Pietrzykowski.

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Podstawy statystyki - ćwiczenia r.

Komputerowa analiza danych doświadczalnych

1 Estymacja przedziałowa

Rachunek prawdopodobieństwa i statystyka

Transkrypt:

Statystyka zbiór przetworzonych i zsyntetyzowanych danych liczbowych, nauka o ilościowych metodach badania zjawisk masowych, zmienna losowa będąca funkcją próby. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne), skokowe (dyskretne), ciągłe, jakościowe (niemierzalne).

Skale słabe, niemetryczne, jakościowe: nominalna (kategoryjna, wariantowa): dwudzielna (dychotomiczna): np. kobieta/mężczyzna, tak/nie, 0/1, wielodzielna (politomiczna): np. kolor, marka, gatunek, porządkowa (rangowa), np. oceny, preferencje, nie/raczej nie/nie mam zdania/raczej tak/tak silne, metryczne, ilościowe: przedziałowa (interwałowa), np. temperatura w skali Celsjusza, ilorazowa (stosunkowa), np. temperatura w skali Kelvina, zamknięte/otwarte, Zmienna ze skali mocniejszej może być rozpatrywana w skali słabszej, ale nie odwrotnie.

Szeregi statystyczne Szeregi statystyczne szczegółowe rozdzielcze czasowe punktowe przedziałowe momentów okresów

Szereg szczegółowy (wyliczający, dane indywidualne) 3590, 1520, 2340, 1460, 1990, 1830, 1830, 1520, 1460, 1990, 2612, 1520, 2340, 2145, 1460, 1830, 1520, 2299, 1460, 1460, 1520, 2145, 1990, 1830, 1990, 1830, 1460, 1460, 1660, 1660, 1830, 1990, 1460, 1520, 1830, 1830, 1460, 1460, 1460, 1460, 1660, 1520, 2340, 1460, 2045, 1520, 2145, 2145, 2299, 1660, 1520, 2340, 1520, 1520, 1460, 2145, 2145, 1460, 1460, 1520, 1460, 1460, 4960, 2612

Szereg rozdzielczy punktowy i x i n i 1 1460 18 2 1520 12 3 1660 4 4 1830 8 5 1990 5 6 2045 1 7 2145 6 8 2299 2 9 2340 4 10 2612 2 11 3590 1 12 4960 1 Razem 64

Szereg rozdzielczy przedziałowy x i n i 1000 1999 47 2000 2999 15 3000 3999 1 4000 4999 1 x i n i mniej niż 1500 18 1500 2000 29 2000 2500 13 2500 3000 2 3000 i więcej 2

Empiryczny rozkład cechy wartości cechy: x i, i = 1,..., k, zakładamy dalej, że wartości są uporządkowane rosnąco: x min = x 1 < x 2 < < x k = x max, końce przedziałów klasowych: x 0i < x 1i, rozpiętość przedziału: h i = x 1i x 0i, środek przedziału: ẋ i = x 0i + x 1i. 2 liczebności: n i liczba obserwacji o wartościach równych x i, lub mieszczących się w i-tym przedziale klasowym, liczebność zbiorowości (próby, populacji): n = k n i, częstości względne: w i = n i n, k w i = 1,

Miary opisu struktury klasyczne, pozycyjne, poziomu przeciętnego (położenia), zróżnicowania (rozproszenia, dyspersji, zmienności), asymetrii (skośności), koncentracja (spłaszczenia),

Momenty Moment zwykły rzędu r: m r = 1 n xi r, n Moment centralny rzędu r: M r = 1 n (x i x) r, n ( m r = 1 ) k xi r n i n ( M r = 1 ) k (x i x) r n i n

Średnia arytmetyczna dla danych indywidualnych: x = 1 n n x i = x 1 + + x n, n dla szeregów rozdzielczych punktowych: x = 1 n k x i n i = k x i w i, dla szeregów rozdzielczych przedziałowych: x = 1 n k x i n i = k x i w i.

Średnia arytmetyczna - własności: x min x x max, n x i = n x, n (x i x) = 0 (lub k (x i x)n i = 0 lub k ( x i x)n i = 0). min a n (x i a) 2 = n (x i x) 2. Przykładowe obliczenia: x i n i x i x i n i (20, 25] 11 22.5 247.5 (25, 30] 23 27.5 632.5 (30, 35] 16 32.5 520.0 Σ 50 1400 x = 1400 50 = 28.

Średnia harmoniczna Dla wielkości stosunkowych czasem zamiast średniej arytmetycznej należy stosować średnią harmoniczną. Chcemy policzyć średnią wielkości stosunkowych (prędkość, gęstość, wydajność, zużycie na osobę, itp.) a i = b i c i, i = 1,..., k. Jeśli znamy wartości a i oraz c i, to b i = a i c i, zatem odpowiednia jest średnia arytmetyczna, ważona współczynnikami c i : k b k i a i c i ā = k = c k. i c i Jeśli znamy wartości a i oraz b i, to c i = b i, zaś właściwą średnią a i jest średnia harmoniczna z wagami b i : k b i ā = k b i k c i = k b i a i.

Średnia harmoniczna - przykład 1 Jaka jest średnia gęstość zaludnienia w Trójmieście? Miasto Gdańsk Gdynia Sopot Ludność 461 489 247 820 37 654 Gęstość zaludnienia 1762 1834 2179 Licząc (zwykłą) średnią arytmetyczną otrzymujemy: x = 1762 + 1834 + 2179 3 podczas gdy prawidłowy wynik, to = 1925, x H = 461 489 + 247 820 + 37 654 1802.87. 461 489 1762 + 247 820 1834 + 37 654 2179

Średnia harmoniczna - przykład 2 Przez n kolejnych dni kupujemy akcje pewnej spółki, po cenie x i w i-tym dniu, i = 1,..., n, za stałą kwotę c. Średnia cena zakupu jest średnią harmoniczną: n c n x H = n c = n 1. x i x i Przez n kolejnych dni sprzedajemy akcje pewnej spółki, w liczbie k sztuk każdego dnia, po cenie x i w i-tym dniu, i = 1,..., n. Średnia cena sprzedaży, to średnia arytmetyczna: n x i k n x i x = n =. k n Dla dowolnych 0 < x 1,..., x n zachodzi warunek: x H = n n 1 x i n x i = x. n

Wariancja dla danych indywidualnych: s 2 = 1 n (x i x) 2 = 1 n xi 2 ( x) 2, n n dla szeregów rozdzielczych punktowych: s 2 = 1 k (x i x) 2 n i = 1 k xi 2 n i ( x) 2, n n dla szeregów rozdzielczych przedziałowych: s 2 = 1 k ( x i x) 2 n i = 1 k x 2 i n i ( x) 2, n n poprawka Shepparda: s 2 = s 2 h2 12,

Wariancja c.d. wariancji nie interpretujemy!!!, odchylenie standardowe: s = s 2, współczynnik zmienności: V = s x [%], alternatywa odchylenie przeciętne: d = 1 n x i x n ( d = 1 ) k x i x n i, n rozstęp: R = x max x min.

Wariancja przykład obliczeń x i n i x i x i n i ( x i x) 2 ( x i x) 2 n i (20, 25] 11 22.5 247.5 30.25 332.75 (25, 30] 23 27.5 632.5 0.25 5.75 (30, 35] 16 32.5 520.0 20.25 324.00 Σ 50 1400 662.50 x = 1400 50 = 28, s 2 = 662.5 = 13.25, 50 s = 13.25 3.64.

Równość wariancyjna mamy informacje o k grupach: ich liczebności n i, średnie x i oraz wariancje (wewnątrzgrupowe) s 2 i, średnia ogólna, to średnia ważona liczebnościami: x = k x i n i k n i. wariancja ogólna wyraża się wzorem: s 2 = si 2 wariancją międzygrupowa: + s 2 ( x i ), gdzie s 2 ( x i ) = k ( x x i ) 2 n i k n i, wariancja wewnątrzgrupowa: s 2 i = k si 2 n i k. n i

Asymetria klasyczny współczynnik asymetrii: γ 3 = M 3 s 3, wartości dodatnie asymetria prawostronna wartości ujemne asymetria lewostronna

Kurtoza współczynnik kurtozy, ekscess: γ 4 = M 4 s 4 3, wartości dodatnie rozkład wysmukły (leptokurtyczny) wartości ujemne rozkład spłaszczony (platokurtyczny)

Krzywa koncentracji Lorenza, współczynnik Giniego linia łamana powstała z połączenia punktów o współrzędnych: ( j j (x 0, y 0 ) = (0, 0), (x j, y j ) = n, z ) i n, j = 1,..., n. z i dla szeregu rozdzielczego: (x 0, y 0 ) = (0, 0), ( j (x j, y j ) = n j i, z ) i n i n k, j = 1,..., k. z i n i podwojone pole obszaru między krzywą Lorenza a przekątną kwadratu jednostkowego nazywamy współczynnikiem koncentracji Giniego: nj=1 (2j n 1)z j G = n 2. z współczynnik Giniego przyjmuje wartości z przedziału [0, 1], gdzie 0 oznacza rozkład równomierny, a wartość 1 rozkład skupiony w pojedynczej wartości,

j z j j z i x j y j 2j n 1 (2j n 1)z j 1 1 1 0.2 0.01-4 -4 2 2 3 0.4 0.03-2 -6 3 3 6 0.6 0.06 0 0 4 4 10 0.8 0.10 2 20 5 90 100 1 1 4 400 0.2 0.4 0.6 0.8 G = 4 6 + 20 + 400 5 2 20 = 410 500 = 0.82.

Źródło: en.wikipedia.org, dane: World Bank

Liczebność skumulowana, dystrybuanta empiryczna Liczebność skumulowana: liczba obserwacji nie większa od danej wartości cechy: n(x) = {i : x i x} Dystrybuanta empiryczna: frakcja (część) obserwacji nie większa od danej wartości cechy: F n (x) = {i : x i x} n i w i = n(x) n.

Liczba Liczebność Częstość Skumulowana Dystrybuanta zadań względna liczebność empiryczna x i n i w i n(x i ) F n (x i ) 0 7 0.175 7 0.175 1 14 0.35 21 0.525 2 6 0.15 27 0.675 3 9 0.225 36 0.900 4 4 0.1 40 1 5 0 0 40 1 Suma 40 1

Mediana wartość środkowa Medianą z próby Me nazywamy taką wartość, że co najmniej połowa obserwacji ma wartość nie większą niż Me i równocześnie co najmniej połowa obserwacji ma wartość nie mniejszą niż Me. Inaczej: jest to najmniejsza wartość, dla której F n (Me) 1 2 lub rownoważnie n(me) n 2. dla szeregów szczegółowych: Me = x n+1 2 x n 2 + x n 2 +1 2 gdy n jest nieparzyste, gdy n jest parzyste.

Kwantyle, kwartyle kwantylem empirycznym rzędu p, gdzie 0 < p < 1, nazywamy najmniejszą wartość q p cechy, dla której zachodzi: F n (q p ) p. dla szeregów szczegółowych, np.: q p = x ( np +1), dla szeregów przedziałowych kwantyle aproksymujemy wzorem q p x 0p + [pn n(x 0p )] hp n p p rząd kwantyla, n(x 0p ) liczebność skumulowana w przedziale poprzedzającym przedział kwantyla, x0p dolna granica przedziału kwantyla: n(x 0p ) < np n(x 1p ), np liczebność przedziału kwantyla, hp szerokość przedziału kwantyla, kwartyle: Q 1 = q 0.25, Q 2 = Me = q 0.5, Q 3 = q 0.75,

1 x i n i F n (x i ) (20, 25] 11 0.22 (25, 30] 23 0.68 (30, 35] 16 1 0.75 0.5 0.25 20 25 30 35 Q 1 = 25 + [0.25 0.22] 50 5 23 25.33, Me = 25 + [0.5 0.22] 50 5 23 28.04, Q 3 = 30 + [0.75 0.68] 50 5 16 31.09.

Dominanta Dominantą (modą, modalną) nazywamy wartość zmiennej, która występuje najczęściej, można wyznaczać tylko w rozkładach jednomodalnych, w szeregach szczegółowych i punktowych jest to wartość cechy odpowiadająca największej liczebności, w szeregach przedziałowych aproksymujemy ją wzorem: D x 0D + n D n D 1 (n D n D 1 ) + (n D n D+1 ) h D, x 0D dolna granica przedziału dominanty (o największej liczebności), nd, n D 1, n D+1 odpowiednio liczebność przedziału dominanty, przedziału poprzedniego i następnego, hd rozpiętość przedziału dominanty. Wzór Pearsona : Me 1 3 D + 2 3 x.

25 x i n i (20, 25] 11 (25, 30] 23 (30, 35] 16 20 15 10 5 20 25 D 30 35 D = 25 + 23 11 (23 11) + (23 16) 5 28.16. Uwaga: w przypadku przedziałów o różnej szerokości liczebności n i zastępujemy gęstościami: g i = n i /h i.

Pozycyjne miary rozproszenia odchylenie ćwiartkowe: Q = Q 3 Q 1, 2 pozycyjny współczynnik zmienności: V = Q Me, rozstęp ćwiartkowy (międzykwartylowy): IQR = Q 3 Q 1,

Pozycyjne miary asymetrii współczynnik Yule a-kendalla: A Q = (Q 3 Q 2 ) (Q 2 Q 1 ) (Q 3 Q 2 ) + (Q 2 Q 1 ), współczynnik skośności Pearsona: A S = x D, S