STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Podobne dokumenty
Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Statystyka. Opisowa analiza zjawisk masowych

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Próba własności i parametry

1 Podstawy rachunku prawdopodobieństwa

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Laboratorium 3 - statystyka opisowa

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Opisowa analiza struktury zjawisk statystycznych

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Miary statystyczne w badaniach pedagogicznych

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

W1. Wprowadzenie. Statystyka opisowa

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Statystyka Matematyczna Anna Janicka

Pozyskiwanie wiedzy z danych

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Parametry statystyczne

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyczne metody analizy danych

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Matematyka stosowana i metody numeryczne

Xi B ni B

Graficzna prezentacja danych statystycznych

Statystyka opisowa. Robert Pietrzykowski.

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Biostatystyka, # 1 /Weterynaria I/

Matematyka z el. statystyki, # 1 /Geodezja i kartografia II/

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Miary w szeregach. 1 Miary klasyczne. 1.1 Średnia Średnia arytmetyczna

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza struktury i przeciętnego poziomu cechy

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Podstawowe pojęcia statystyczne

Analiza zróżnicowania, asymetrii i koncentracji

Badania Statystyczne

STATYSTYKA OPISOWA. Dr Alina Gleska. 28 września Instytut Matematyki WE PP

99 wybranych pytań ze statystyki i odpowiedzi na nie

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Zawartość. Zawartość

Statystyka opisowa. Robert Pietrzykowski.

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Zmienne losowe. Statystyka w 3

Statystyka matematyczna i ekonometria

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

4.2. Statystyczne opracowanie zebranego materiału

Rachunek prawdopodobieństwa i statystyka

Dane i ich struktura Skale pomiarowe i ich przekształcanie. Mariusz Dacko

Estymacja punktowa i przedziałowa

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Statystyka to nauka o metodach badań (liczbowo wyrażalnych) własności zbiorowości. Próba. Próba Populacja. Próba

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Analiza statystyczna w naukach przyrodniczych

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Estymacja parametrów rozkładu cechy

Statystyczna analiza danych

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Studia stacjonarne (stacjonarne / niestacjonarne)

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

WSTĘP DO STATYSTYKI MATEMATYCZNEJ. D r h a b. i n ż. D a r i u s z P i w c z y ń s k i, p r o f. n a d z w. U T P

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wykład ze statystyki. Maciej Wolny

Komputerowa analiza danych doświadczalnych

Transkrypt:

STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Statystyka zbiór przetworzonych i zsyntetyzowanych danych liczbowych, nauka o ilościowych metodach badania zjawisk masowych, zmienna losowa będąca funkcją próby. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne), skokowe (dyskretne), quasi ciągłe, ciągłe, jakościowe (niemierzalne).

Skale słabe, niemetryczne, jakościowe: nominalna (kategoryjna, wariantowa): dwudzielna (dychotomiczna): np. kobieta/mężczyzna, tak/nie, 0/1, wielodzielna (politomiczna): np. kolor, marka, gatunek, porządkowa (rangowa), np. oceny, preferencje, nie/raczej nie/nie mam zdania/raczej tak/tak silne, metryczne, ilościowe: przedziałowa (interwałowa), np. temperatura w skali Celsjusza, ilorazowa (stosunkowa), np. temperatura w skali Kelvina, zamknięte/otwarte, Zmienna ze skali mocniejszej może być rozpatrywana w skali słabszej, ale nie odwrotnie.

Badanie statystyczne pełne, częściowe, ciągłe, okresowe, doraźne, badania ankietowe, monograficzne, próbkowe (metoda reprezentacyjna). szacunki: interpolacja, ekstrapolacja, Etapy badania statystycznego: przygotowanie badania (cel, populacja, jednostka, metoda), obserwacja statystyczna, opracowanie i prezentacja materiału statystycznego, opis lub wnioskowanie statystyczne.

Szeregi statystyczne Szeregi statystyczne szczegółowe rozdzielcze czasowe punktowe przedziałowe momentów okresów przestrzenne

Szereg szczegółowy (wyliczający, dane indywidualne) 3590, 1520, 2340, 1460, 1990, 1830, 1830, 1520, 1460, 1990, 2612, 1520, 2340, 2145, 1460, 1830, 1520, 2299, 1460, 1460, 1520, 2145, 1990, 1830, 1990, 1830, 1460, 1460, 1660, 1660, 1830, 1990, 1460, 1520, 1830, 1830, 1460, 1460, 1460, 1460, 1660, 1520, 2340, 1460, 2045, 1520, 2145, 2145, 2299, 1660, 1520, 2340, 1520, 1520, 1460, 2145, 2145, 1460, 1460, 1520, 1460, 1460, 4960, 2612

Szereg rozdzielczy punktowy i x i n i 1 1460 18 2 1520 12 3 1660 4 4 1830 8 5 1990 5 6 2045 1 7 2145 6 8 2299 2 9 2340 4 10 2612 2 11 3590 1 12 4960 1 Razem 64

Szereg rozdzielczy przedziałowy x i n i 1000 1999 47 2000 2999 15 3000 3999 1 4000 4999 1 x i n i mniej niż 1500 18 1500 2000 29 2000 2500 13 2500 3000 2 3000 i więcej 2

Empiryczny rozkład cechy wartości cechy: x i, i = 1,..., k, zakładamy dalej, że wartości są uporządkowane rosnąco: x min = x 1 < x 2 < < x k = x max, końce przedziałów klasowych: x 0i < x 1i, rozpiętość przedziału: h i = x 1i x 0i, środek przedziału: ẋ i = x 0i + x 1i. 2 liczebności: n i liczba obserwacji o wartościach równych x i, lub mieszczących się w i-tym przedziale klasowym, liczebność zbiorowości (próby, populacji): n = k n i, częstości: f i = n i n, k f i = 1,

Liczebność skumulowana, dystrybuanta empiryczna Liczebność skumulowana: liczba obserwacji nie większa od danej wartości cechy: n(x) = n i i:x i x Dystrybuanta empiryczna: frakcja (część) obserwacji nie większa od danej wartości cechy: F n (x) = i:x i x f i = n(x) n.

Liczba Liczebność Częstość Skumulowana Dystrybuanta zadań liczebność empiryczna x i n i f i n(x i ) F n (x i ) 0 7 0.175 7 0.175 1 14 0.35 21 0.525 2 6 0.15 27 0.675 3 9 0.225 36 0.900 4 4 0.1 40 1 5 0 0 40 1 Suma 40 1

Miary opisu struktury poziom przeciętny (położenie, średni poziom wartości): średnia, mediana, dominanta (moda), zróżnicowanie (rozproszenie, dyspersja, zmienność): wariancja, odchylenie standardowe, odchylenie przeciętne, odchylenie ćwiartkowe, rozstęp, asymetria (skośność): skośność, współczynnik Yule a-kendalla, koncentracja (spłaszczenie): kurtoza, współczynnik Giniego, entropia,

Średnia arytmetyczna dla danych indywidualnych: x = 1 n n x i = x 1 + + x n, n dla szeregów rozdzielczych punktowych: x = 1 n k x i n i = k x i f i, dla szeregów rozdzielczych przedziałowych: x = 1 n k x i n i = k x i f i. x min x x max, n x i = n x, n (x i x) = 0 (lub k (x i x)n i = 0 lub k ( x i x)n i = 0),

x i n i x i x i n i (20, 25] 11 22.5 247.5 (25, 30] 23 27.5 632.5 (30, 35] 16 32.5 520.0 Σ 50 1400 x = 1400 50 = 28.

Mediana wartość środkowa, kwantyle Medianą z próby Me nazywamy taką wartość, że co najmniej połowa obserwacji ma wartość nie większą niż Me i równocześnie co najmniej połowa obserwacji ma wartość nie mniejszą niż Me. Inaczej: jest to najmniejsza wartość, dla której F n (Me) 1 2 lub rownoważnie n(me) n 2. dla szeregów szczegółowych: Me = x n+1 2 x n 2 + x n 2 +1 2 gdy n jest nieparzyste, gdy n jest parzyste. kwantylem empirycznym rzędu p, gdzie 0 < p < 1, nazywamy najmniejszą wartość q p cechy, dla której zachodzi: F n (q p ) p.

Kwantyle, kwartyle dla szeregów przedziałowych kwantyle aproksymujemy wzorem q p x 0p + [pn n(x 0p )] hp n p = x 0p + [p F n (x 0p )] n h p n p p rząd kwantyla, x0p dolna granica przedziału kwantyla: F n (x 0p ) p < F n (x 1p ), np liczebność przedziału kwantyla, hp szerokość przedziału kwantyla, n(x 0p ) liczebność skumulowana w przedziale poprzedzającym przedział kwantyla, Fn (x 0p ) wartość dystrybuanty empirycznej na końcu przedziału poprzedzającego przedział kwantyla, kwartyle: Q 1 = q 0.25, Q 2 = Me = q 0.5, Q 3 = q 0.75, w szczególności dla p = 1 2 otrzymujemy wzór dla mediany: [ ] [ n Me x 0M + 2 n(x 0M) hm 1 = x 0M + n M 2 F n(x 0M)] n h M n M

1 x i n i F n (x i ) (20, 25] 11 0.22 (25, 30] 23 0.68 (30, 35] 16 1 0.75 0.5 0.25 20 25 30 35 Q 1 = 25 + [0.25 0.22] 50 5 23 25.33, Me = 25 + [0.5 0.22] 50 5 23 28.04, Q 3 = 30 + [0.75 0.68] 50 5 16 31.09.

Dominanta Dominantą (modą, modalną) nazywamy wartość zmiennej, która występuje najczęściej, można wyznaczać tylko w rozkładach jednomodalnych, w szeregach szczegółowych i punktowych jest to wartość cechy odpowiadająca największej liczebności, w szeregach przedziałowych aproksymujemy ją wzorem: D x 0D + n D n D 1 (n D n D 1 ) + (n D n D+1 ) h D, x 0D dolna granica przedziału dominanty (o największej liczebności), nd, n D 1, n D+1 odpowiednio liczebność przedziału dominanty, przedziału poprzedniego i następnego, hd rozpiętość przedziału dominanty. Wzór Pearsona : Me 1 3 D + 2 3 x.

25 x i n i (20, 25] 11 (25, 30] 23 (30, 35] 16 20 15 10 5 20 25 D 30 35 D = 25 + 23 11 (23 11) + (23 16) 5 28.16. Uwaga: w przypadku przedziałów o różnej szerokości liczebności n i zastępujemy gęstościami: g i = n i /h i.

Wariancja dla danych indywidualnych: S 2 = 1 n (x i x) 2 = 1 n xi 2 ( x) 2, n n dla szeregów rozdzielczych punktowych: S 2 = 1 k (x i x) 2 n i = 1 k xi 2 n i ( x) 2, n n dla szeregów rozdzielczych przedziałowych: S 2 = 1 k ( x i x) 2 n i = 1 k x 2 i n i ( x) 2, n n poprawka Shepparda: S 2 = S 2 h2 12,

odchylenie standardowe: S = S 2, współczynnik zmienności: odchylenie przeciętne: V = S x, d = 1 n x i x n ( d = 1 ) k x i x n i, n odchylenie ćwiartkowe: Q = Q 3 Q 1, 2 pozycyjny współczynnik zmienności: V = Q Me, rozstęp: R = x max x min, rozstęp ćwiartkowy (międzykwartylowy): IQR = Q 3 Q 1,

x = 1400 50 = 28, x i n i x i x i n i ( x i x) 2 ( x i x) 2 n i (20, 25] 11 22.5 247.5 30.25 332.75 (25, 30] 23 27.5 632.5 0.25 5.75 (30, 35] 16 32.5 520.0 20.25 324.00 Σ 50 1400 662.50 S 2 = 662.5 = 13.25, 50 S = 13.25 3.64, 31.09 25.33 Q = 2.88, 2

Równość wariancyjna mamy informacje o k grupach: ich liczebności n i, średnie x i oraz wariancje (wewnątrzgrupowe) S 2 i, średnia ogólna, to średnia ważona liczebnościami: x = k x i n i k n i. liczbę S 2 ( x i ) = k ( x x i ) 2 n i k n i nazywamy wariancją międzygrupową, wariancja ogólna wyraża się wzorem: S 2 = S 2 i + S 2 ( x i ) = k S 2 i n i k n i + k ( x x i ) 2 n i k n i.

Moment zwykły rzędu r: m r = 1 n xi r, n Moment centralny rzędu r: M r = 1 n (x i x) r, n ( m k = 1 ) k xi r n i n ( M k = 1 ) k (x i x) r n i n

Asymetria klasyczny współczynnik asymetrii: współczynnik Yule a-kendalla: γ 3 = M 3 S 3, A Q = (Q 3 Q 2 ) (Q 2 Q 1 ) (Q 3 Q 2 ) + (Q 2 Q 1 ), współczynnik skośności Pearsona: A S = x D, S

Asymetria wartości dodatnie asymetria prawostronna wartości ujemne asymetria lewostronna

Kurtoza γ 4 = M 4 S 4 3, wartości dodatnie rozkład wysmukły (leptokurtyczny) wartości ujemne rozkład spłaszczony (platokurtyczny)

Krzywa koncentracji Lorenza, współczynnik Giniego linia łamana powstała z połączenia punktów o współrzędnych: ( j j (x 0, y 0 ) = (0, 0), (x j, y j ) = n, z ) i n, j = 1,..., n. z i dla szeregu rozdzielczego: (x 0, y 0 ) = (0, 0), ( j (x j, y j ) = n j i, z ) i n i n k, j = 1,..., k. z i n i podwojone pole obszaru między krzywą Lorenza a przekątną kwadratu jednostkowego nazywamy współczynnikiem koncentracji Giniego: nj=1 (2j n 1)z j G = n 2. z współczynnik Giniego przyjmuje wartości z przedziału [0, 1], gdzie 0 oznacza rozkład równomierny, a wartość 1 rozkład skupiony w pojedynczej wartości,

j z j j z i x j y j 2j n 1 (2j n 1)z j 1 1 1 0.2 0.01-4 -4 2 2 3 0.4 0.03-2 -6 3 3 6 0.6 0.06 0 0 4 4 10 0.8 0.10 2 20 5 90 100 1 1 4 400 0.2 0.4 0.6 0.8 G = 4 6 + 20 + 400 5 2 20 = 410 500 = 0.82.

Źródło: en.wikipedia.org, dane: World Bank

Entropia dla zmiennej losowej dyskretnej: H = x p x ln(p x ), dla danych empirycznych w postaci szeregu rozdzielczego punktowego: k ( ) n i H = n ln ni, n Uwaga: przyjmujemy 0 ln(0) = 0, duża wartość entropii oznacza duże rozproszenie rozkład zbliżony do równomiernego mało informacji, Entropia nie bierze pod uwagę wartości tylko liczebności/prawdopodobieństwa.

Średnia harmoniczna Chcemy policzyć średnią wielkości stosunkowych (prędkość, gęstość, wydajność, zużycie na osobę, itp.) a i = b i c i, i = 1,..., k. Jeśli znamy wartości a i oraz c i, to b i = a i c i, zatem odpowiednia jest średnia arytmetyczna, ważona współczynnikami c i : ā = k b k i a i c i k = c k. i c i Jeśli znamy wartości a i oraz b i, to c i = b i a i, zaś właściwą średnią jest średnia harmoniczna z wagami b i : ā = k b i k c i = k b i. k b i a i

Średnia harmoniczna Jaka jest średnia gęstość zaludnienia w Trójmieście? Miasto Gdańsk Gdynia Sopot Ludność 461 489 247 820 37 654 Gęstość zaludnienia 1762 1834 2179 Licząc (zwykłą) średnią arytmetyczną otrzymujemy: x = 1762 + 1834 + 2179 3 podczas gdy prawidłowy wynik, to = 1925, x H = 461 489 + 247 820 + 37 654 1802.87. 461 489 1762 + 247 820 1834 + 37 654 2179

Średnia harmoniczna Przez n kolejnych dni kupujemy akcje pewnej spółki, po cenie x i w i-tym dniu, i = 1,..., n, za stałą kwotę c. Średnia cena zakupu jest średnią harmoniczną: n c n x H = n c = n 1. x i x i Przez n kolejnych dni sprzedajemy akcje pewnej spółki, w liczbie k sztuk każdego dnia, po cenie x i w i-tym dniu, i = 1,..., n. Średnia cena sprzedaży, to średnia arytmetyczna: n x i k n x i x = n =. k n Dla dowolnych 0 < x 1,..., x n zachodzi warunek: x H = n n 1 x i n x i = x. n