Statystyka opisowa Robert Pietrzykowski email: robert_pietrzykowski@sggw.pl www.ekonometria.info
Statystyka jest jak kostium bikini: pokazuje wiele, ale nie pokazuje najważniejszego. Aaron Levenstein Jeśli mój sąsiad codziennie bije swoją żonę, ja zaś nie biję jej nigdy, to w świetle statystyki obaj bijemy je co drugi dzień. George Bernard Shaw Śmierć jednostki to tragedia - milion zabitych to tylko statystyka. Józef Stalin 2
Na dziś Sprawy bieżące Prowadzący Zasady zaliczenia Konsultacje Inne 3
Sprawy ogólne czyli co nas czeka Zaliczenie przedmiotu Część ćwiczeniowa praktyczna Część wykładowa - teoretyczna Obecność na zajęciach Dopuszczalna liczba nieobecność na zajęciach wynosi 20% z całości. Powyżej tej liczby student zostaje skreślony z listy studentów i jest nie klasyfikowany. (8 zjazdów czyli 20% to 1,6 zjazdu, a zatem uznajemy 1 nieobecność na zajęciach jako dopuszczalną)
Zasady zaliczenia przedmiotu Każda część przedmiotu (ćwiczenia, wykład) musi zostać zaliczona na minimum 51% Część ćwiczeniowa praktyczna: Dwa sprawdziany (po 20 pkt) w laboratoriach komputerowych. Zaliczenie od 21 pkt (max. 40 pkt). Część wykładowa teoretyczna: Trzy sprawdziany (po 20 pkt) w trakcie semestru na wykładach (test wielokrotnego wyboru lub test uzupełnień). Zaliczenie od 31 pkt (max. 60 pkt). Punkty dodatkowe: Osoby z pierwszej 10 (lista rankingowa) uzyskują dodatkowe punkty wynikające z pozycji na liście i tak: pierwsza osoba z listy 10pkt, druga 9pkt itd.. Lista pierwszej 10 zostaje zamknięta po drugim sprawdzianie na ćwiczeniach. Dodatkowe punkty można wykorzystać w dowolnej części przedmiotu (ćwiczenia lub egzamin).
Data Zjazd Ćwiczenia Data Wykład Szereg szczegółowy. Miary położenia i Wstęp. Miary położenia i 27-09-14 1 26-09-14 zmienności. zmienności. Rozkłady normalny. 11-10-14 2 Szereg rozdzielczy. Miary położenia i zmienności. Asymetria i kurtoza. 10-10-14 Wsp. Giniego, asymetria i kurtoza 2014 25-10-14 3 Wsp. Giniego. Indeksy proste. 24-10-14 SPRAWDZIAN I. Indeksy proste i złożone. 15-11-14 4 SPRAWDZIAN PIERWSZY 14-11-14 Szeregi czasowe 29-11-14 5 Indeksy agregatowe 28-11-14 Korelacja i regresja. 13-12-14 6 Szeregi czasowe. 12-12-14 10-01-15 7 Korelacja i regresja. 09-01-15 SPRAWDZIAN II. Statystyka matematyczna. Estymatory. Przedziały ufności. Hipotezy statystyczne. 24-01-15 8 SPRAWDZIAN DRUGI 23-01-15 Repetytorium. SPRAWDZIAN III. 2015 14-02-15 Sesja pop POPRAWA ĆWICZEŃ 13-02-15 06-02-15 SESJA SESJA POP. Poprawa wykładu
Literatura Wasilewska E. (2009): Statystyka opisowa od podstaw, Wydawnictwo SGGW Piłatowska M. (2006): Repetytorium ze statystyki, PWN Aczel A. D. (2006): Statystyka w zarządzaniu, PWN Sobczyk M. (2005): Statystyka, PWN Parlińska M., Parliński J. (2011): Statystyczna analiza danych z Excelem, Wydawnictwo SGGW Kisielińska J., Skórnik-Pokorowska U. (2005): Podstawy statystyki z przykładami w Excelu, Wydawnictwo SGGW materiały wykładowe www.ekonometria.info, www.statystyka.info www.ibuk.pl
ZADANIE PROBLEMOWE 1 Dane pochodzą z GUS. Obserwujemy liczbę bezrobotnych mężczyzn i kobiet w okresie od 2005 do 2010 roku. Zadanie 1 to porównanie liczby bezrobotnych ze względu na płeć. Zadanie 2 to określenie dynamiki zmian liczby bezrobotnych w latach. Zbiorowość statystyczna podlegając badaniu to bezrobotni w Polsce. Cechy badane to: liczba bezrobotnych mężczyzn i liczba bezrobotnych kobiet. Obserwowane cechy są ilościowe, skokowe. Narzędzia statystyczne: miary zróżnicowania (odchylenie standardowe), położenia (średnia i mediana), średnia geometryczna.
Tabela 1. Porównanie liczby bezrobotnych mężczyzn i kobiet na podstawie wybranych wskaźników w I kwartale roku 2006 Miary Mężczyźni Kobiety średnia 92993,3 97791,4 Me 87883 96710 S 36797,3 39307,4 W roku 2006 średnio liczba bezrobotnych mężczyzn była mniejsza niż bezrobotnych kobiet. Typowy obszar zmienności dla mężczyzn wynosił (56 196; 129 791), a dla kobiet (58 484; 137 099).
Zmiany liczby bezrobotnych w latach 2005-2010 na koniec I kwartału Dla mężczyzn i kobiet obliczono tempo zmian w badanym okresie (2005-2010). Srednia geometryczna dla mężczyzn wyniosła 0,9345, a dla kobiet 0,9172. Oznacza to, że z roku na rok w pierwszym kwartale malała liczba bezrobotnych kobiet i mężczyzn odpowiednio o 8,3% i 6,6%. 120000 100000 80000 60000 40000 Mężczyźni Kobiety 20000 0 2005 2006 2007 2008 2009 2010
Anex Wzory wykorzystanych miar statystycznych Wykorzystane pozycje literatury (Piłatowska M. (2006): Repetytorium ze statystyki, PWN, str. 12 def. typowy obszar zmienności) (Kobus P. Statystyka opisowa wykład 2. Miary położenia i zmienności, http://www.statystyka.info dn. 29.09.2013, str. 1 wzór średniej)
ZADANIE PROBLEMOWE 2 Dane zebrano od studentów WNE z II roku Zarządzania. Obserwujemy wzrost mężczyzn i kobiet z WNE II roku Zarządzania niestacjonarnych. Zadanie to graficzna prezentacja badanego zjawiska. Zbiorowość statystyczna podlegając badaniu to studenci z WNE II roku Zarządzania niestacjonarnego. Cechy badane to: wzrost studentów [w cm]. Obserwowane cecha jest ilościowa, ciągła. Dane zestawiono w szeregu rozdzielczym. Narzędzia statystyczne: histogram, wykres kołowy, graficzna, krzywa częstości, graficzna prezentacja typowego obszaru zmienności.
Szereg szczegółowy 175 167 163 163 150 166 180 183 186 169 190 177 170 180 170 167 191 181 171 165 175 165 166 169 162 181 167 169 173 190 165 191 157 164 162 159 180 173 171 184 173 175 158 166 164 173 165 171 167 163 165 196 172 162 157 164 168 186 171 158 183 154 191 166 186 184 172 160 177 169 183 160 152 175 177 162 170 185 161 182 165 185 168 172 160 167 179 167 175 165 190 173 179 178 177 162 170 180 162 176
25 20 15 10 5 0 Szereg rozdzielczy 1% 3%5% 6% 10% 13% 10% 22% 15% 15% Wzrost studenta (przedział) X_d X_g n_i w_i 150-154,6 150 154,6 3 0,03 154,6-159,2 154,6 159,2 5 0,05 159,2-163,8 159,2 163,8 13 0,13 163,8-168,4 163,8 168,4 22 0,22 168,4-173 168,4 173 15 0,15 173-177,6 173 177,6 15 0,15 177,6-182,2 177,6 182,2 10 0,1 182,2-186,8 182,2 186,8 10 0,1 186,8-191,4 186,8 191,4 6 0,06 191,4-196 191,4 196 1 0,01 Razem 100 1
25 20 15 10 5 0 Rozkład empiryczny badanego zjawiska przedstawiono na histogramie. Najliczniejsza grupa 22 studentów to studenci o wzroście od 163,8 do 168,4. Stanowi to 22% całej badanej zbiorowości. Najmniej liczne grupy studentów to najniżsi studenci (3 osoby 150 154,6cm) i najwyżsi (1 student 191,4 do 196cm). W oparciu o uzyskany wykres można mówić o prawostronnej asymetrii. Wzrost studenta (przedział) X_d X_g n_i w_i 150-154,6 150 154,6 3 0,03 154,6-159,2 154,6 159,2 5 0,05 159,2-163,8 159,2 163,8 13 0,13 163,8-168,4 163,8 168,4 22 0,22 168,4-173 168,4 173 15 0,15 173-177,6 173 177,6 15 0,15 177,6-182,2 177,6 182,2 10 0,1 182,2-186,8 182,2 186,8 10 0,1 186,8-191,4 186,8 191,4 6 0,06 191,4-196 191,4 196 1 0,01 Razem 100 1
25 20 15 10 5 0 150-154,6 154,6-159,2 159,2-163,8 163,8-168,4 168,4-173 173-177,6 177,6-182,2 182,2-186,8 186,8-191,4 191,4-196
25 20 Wzrost 68% studentów jest z zakresu od 162,05 do 181,11 cm. Średnia = 171,58 S 2 = 90,88 S = 9,53 15 10 5 171,58-9,53 = 162,05; 171,58-9,53 = 181,11 0 150 155 160 165 170 175 180 185 190 195 200
STATYSTYKA OPISOWA Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych uzyskanych podczas badania statystycznego. Celem stosowania metod statystyki opisowej jest podsumowanie zbioru danych i wyciągnięcie pewnych podstawowych wniosków i uogólnień na temat zbioru.
WNIOSKOWANIE STATYSTYCZNE W ZAKRESIE STRUKTURA ZJAWISK MASOWYCH STRUKTURY ZALEŻNOŚCI ZJAWISK MASOWYCH STATYSTYKA ZALEŻNOŚCI DYNAMIKA ZJAWISK MASOWYCH DYNAMIKI OPISOWA MATEMATYCZNA
STATYSTYKA ZJAWISK MASOWYCH rachunkiem prawdopodobieństwa 21
Jakie ma dochody przeciętny Kowalski? Jak wygląda przeciętny Kowalski? Jak odżywia się przeciętny Kowalski? BADANIE PEŁNE STATYSTYKA OPISOWA POPULACJA PŁEĆ WZROST WAGA LICZBA DZIECI ZAROBKI ODŻYWIANIE KOLOR OCZU ZBIÓR OBIEKTÓW OBJĘTYCH BADANIEM STATYSTYCZNYM Z WYRÓŻNIONĄ CECHĄ WSPÓLNĄ 22
JAKI WZROST MA PRZECIĘTNY KOWALSKI? Jaki są zarobki przeciętnego Kowalskiego? POPULACJA BADANIE WYRYWKOWE REPREZENTACYJNE PRÓBA WYBRANA CZĘŚĆ POPULACJI PODLEGAJĄCA BADANIU 23
JAKI WZROST MA PRZECIĘTNY KOWALSKI? Jaki są zarobki przeciętnego Kowalskiego? POPULACJA WNIOSKOWANIE STAT. O POPULACJI 166 DOŚWIADCZALNICTWO ANALIZA WYNIKÓW WNIOSKOWANIE STAT. BŁĘDY STATYSTYCZNE PRÓBA STAT. MATEMATYCZNA 153 176 175 160 24
Etapy badania statystycznego Opis statystyczny Miary średnie Miary zróżnicowania Miary asymetrii Przygotowania Opracowanie Porządkowanie Prezentacja Szeregi Tabele wykresy Etapy badania Obserwacje Materiał pierwotny i wtórny Weryfikacja materiału 1) Cel 2) Jednostka statystyczna 3) Zbiorowość statystyczna (populacja, próba) 4) Cechy statystyczne 5) Metody badania (pełne, częściowe, szacunku)
Etapy badania statystycznego Przygotowania 1) Cel 2) Jednostka statystyczna 3) Zbiorowość statystyczna (populacja, próba) 4) Cechy statystyczne 5) Metody badania (pełne, częściowe, szacunku) Opis statystyczny Miary średnie, Miary zróżnicowania, Miary asymetrii Obserwacje Materiał pierwotny i wtórny Weryfikacja materiału Opracowanie Porządkowanie, Prezentacja, Szeregi, Tabele, wykresy
Cechy statystyczne STAŁE ZMIENNE Rzeczowe: co? Czasowe: kiedy? Jakościowe Ilościowe Przestrzenne: gdzie?
CECHY ZMIENNE LOSOWE ILOŚCIOWE (MIERZALNE) JAKOŚCIOWE (NIEMIERZALNE) KOLOR SMAK RODZAJ DŹWIĘKU CIĄGŁE WZROST WAGA NATĘŻENIE DŹWIĘKU SKOKOWE RZUT KOSTKĄ LICZBA BAKTERII ILOŚĆ PRACOWNIKÓW 28
spisy Pełne Rejestracja bieżąca ankietowe Metody badania częściowe monograficzne reprezentacyjne szacunki interpolacyjny ekstrapolacyjny
Prezentacja materiału statystycznego wykresy tablice szeregi Szczegółowe (uporzadkowane i nie) rozdzielcze przestrzenne dynamiczne Cechy jakościowe Cechy ilościowe (punktowe i przedziałowe)
WNIOSKOWANIE STATYSTYCZNE W ZAKRESIE STRUKTURA ZJAWISK MASOWYCH STRUKTURY ZALEŻNOŚCI ZJAWISK MASOWYCH STATYSTYKA ZALEŻNOŚCI DYNAMIKA ZJAWISK MASOWYCH DYNAMIKI OPISOWA MATEMATYCZNA
Szereg szczegółowy Szereg rozdzielczy Położenia Zmienności Koncentracji Skupienia Dane statystyczne Miary opisowe Struktura zjawisk masowych
Analiza struktury Miary klasyczne Miary pozycyjne Dane statystyczne
Analiza struktury DANE STATYSTYCZNE Szereg szczegółowy (próba prosta) szereg rozdzielczy punktowy przedziałowy
Analiza struktury kwantyle KWARTYLE (MEDIANA) DECYLE średnie dominanta CENTYLE Miary pozycyjne zróżnicowanie Odchylenie ćwiartkowe Pozycyjny wsp. zmienności asymetria skupienie Pozycyjny współczynnik asymetrii Pozycyjny współczynnik skupienia
Analiza struktury średnie Średnia arytmetyczna Miary klasyczne zróżnicowanie asymetria skupienie wariancja współczynnik zmienności współczynnik asymetrii współczynnik skupienia
KLASYCZNE miary położenia Średnia arytmetyczna POZYCYJNE miary położenia Dominanta (moda) Kwantyle (kwartyle, decyle, centyle, percentyle)
KWANTYL RZĘDU ALPHA
KLASYCZNE miary zmienności Wariancja Odchylenie standardowe
KLASYCZNE miary zmienności Odchylenie przeciętne Współczynnik zmienności
POZYCYJNE miary zmienności Rozstęp Odchylenie kwartylowe Współczynnik zmienności
1) Cel 2) Jednostka statystyczna 3) Zbiorowość statystyczna (populacja, próba) 4) Cechy statystyczne 5) Metody badania (pełne, częściowe, szacunku) 1. Zbadanie jak kształtuje się powierzchnia mieszkań w pewnym mieście 2. Mieszkanie 3. Mieszkania 4. Powierzchnia mieszkania [m2] 5. Pełne/Częściowe
CECHA BADANA: powierzchnia mieszkania w m 2 1 2 3 4 5 6 7 8 9 10 0 35 35 35 35 35 35 35 35 35 35 10 35 45 45 45 45 45 45 45 45 45 20 45 45 45 45 45 45 45 45 45 45 30 45 45 45 45 55 55 55 55 55 55 40 55 55 55 55 55 55 55 55 55 55 50 55 55 55 55 55 55 55 55 55 55 60 55 55 55 55 55 55 55 65 65 65 70 65 65 65 65 65 65 65 65 65 75 80 75 75 75 75 75 85 85 85 85 85 90 85 85 85 95 95 95 105 105 115 115 43
CECHA BADANA: powierzchnia mieszkania w m 2 1 2 3 4 5 6 7 8 9 10 0 35 35 35 35 35 35 35 35 35 35 10 35 45 45 45 45 45 45 45 45 45 20 45 45 45 45 45 45 45 45 45 45 30 45 45 45 45 55 55 55 55 55 55 40 55 55 55 55 55 55 55 55 55 55 50 55 55 55 55 55 55 55 55 55 55 60 55 55 55 55 55 55 55 65 65 65 70 65 65 65 65 65 65 65 65 65 75 80 75 75 75 75 75 85 85 85 85 85 90 85 85 85 95 95 95 105 105 115 115 44
CECHA BADANA: powierzchnia mieszkania w m 2 0,5 100 34 50 10 33 11+23=34 60-50=10 45
Wzrost studenta (przedział) X_d X_g n_i n_(i) zawartość liczb w przedziale n środek w_i w_(i) 150-154,6 150 154,6 3 3 1, 2, 3 152,30 0,03 0,03 154,6-159,2 154,6 159,2 5 8 4, 5, 6, 7, 8 156,90 0,05 0,08 159,2-163,8 159,2 163,8 13 21 163,8-168,4 163,8 168,4 22 43 168,4-173 168,4 173 15 58 173-177,6 173 177,6 15 73 177,6-182,2 177,6 182,2 10 83 182,2-186,8 182,2 186,8 10 93 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43 161,50 0,13 0,21 166,10 0,22 0,43 44, 45, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 170,70 0,15 0,58 58 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 175,30 0,15 0,73 73 74, 75, 76, 77, 78, 79, 80, 81, 82, 83 84, 85, 86, 87, 88, 89, 90, 91, 92, 93 179,90 0,10 0,83 184,50 0,10 0,93 186,8-191,4 186,8 191,4 6 99 94,95, 96, 97,98, 99 189,10 0,06 0,99 191,4-196 191,4 196 1 100 100 193,75 0,01 1,00 Razem 100 1,00
Szereg szczegółowy 175 167 163 163 150166 180 183 186 169 190 177 170 180 170 167 191 181 171 165 175 165 166 169 162 181 167 169 173 190 165 191 157 164 162 159 180 173 171 184 173 175 158 166 164 173 165 171 167 163 165 196 172 162 157 164 168 186 171 158 183 154191 166 186 184 172 160 177 169 183 160 152175 177 162 170 185 161 182 165 185 168 172 160 167 179 167 175 165 190 173 179 178 177 162 170 180 162 176
150160 163 165 167 170173 177 181 186 152161 164 166 168 171 173 177 181 186 154162 164 166 168 171 173 177 182 186 157 162 164 166 169 171 175 178 183 190 157 162 165 166 169 171 175 179 183 190 158 162 165 167 169 172 175 179 183 190 158 162 165 167 169 172 175 180 184 191 159 162 165 167 170 172 175 180 184 191 160 163 165 167 170 173 176 180 185 191 160 163 165 167 170173 177 180 185 196
PYTANIA 1. Dane są następujące obserwacje: 1, 2, 3, 4, 5. Oblicz średnią, medianę, dominantę i odchylenie standardowe. 2. Podano dane w postaci szeregu rozdzielczego. Przedziały Liczebności Oblicz: średnią, wariancję i medianę. 10 20 1 20 30 8 30 40 1 3. W jakich przypadkach miary obliczane na podstawie szeregów rozdzielczych będą różnić od obliczanych z próby prostej.
PYTANIA CD 1. Jakie są własności poszczególnych miar tendencji centralnej? 2. Badano zarobki w dwóch zakładach pracy A i B. Uzyskano następujące wyniki: średnie w zakładzie A = 1800, B =2000 i mediany w zakładzie A = 2000 i B = 1800. W którym zakładzie wiekszość pracowników ma lepsze zarobki? 3. Wymienić pozycyjne miary położenia. 4. Wymienić klasyczne miary zmienności. 5. Wymienić pozycyjne miary zmienności. 6. W jakich przypadkach nie należy stosować współczynnika zmienności? 7. W pewnej zbiorowości wyznaczono średnia wartość badanej zmiennej i odchylenie standardowe, uzyskując odpowiednio: 100 i 9. Podaj zakres typowej zmienności. 8. Dla pewnego rocznika studentów średni wynik ze statystyki wynosi 3.57 oraz mediana 3.28. Czy większość studentów ma ocenę ze statystyki większą od średniej czy nie? Odpowiedz uzasadnić.
ciągła jednowymiarowa Skokowa Zmienna losowa wielowymiarowa
Momenty zwykłe i centralne kwantyle wariancja dominanta PARAMETRY ROZKŁADU ZMIENNEJ LOSOWEJ Wartość oczekiwana
Zmienna losowa i jej rozkład Rozkłady teoretyczne Normalny Dwumianowy Poissona Funkcje rozkładów Funkcja gęstości dystrybuanta
-4-2 0 2 4 x function(x) dnorm(x) (x) 0.0 0.1 0.2 0.3 0.4
ROZKŁAD NORMALNY 58
Histogram of rnorm(1000, EX, DX) Histogram of rnorm(1000, EX, DX) Frequency 0 20 40 60 80 Frequency 0 20 40 60 80-3 -2-1 0 1 2 3-4 -3-2 -1 0 1 2 3 rnorm(1000, EX, DX) rnorm(1000, EX, DX) Histogram of rnorm(1000, EX, DX) Histogram of rnorm(1000, EX, DX) Frequency 0 20 40 60 80 Frequency 0 20 40 60 80-4 -2 0 2-3 -2-1 0 1 2 3 rnorm(1000, EX, DX) rnorm(1000, EX, DX)
Histogram of Zm 0 2 4 6 8 10 Zm Histogram of Zm 0 5 10 15 Zm Frequency 0 100 200 300 Frequency 0 50 100 150 200 250 Histogram of Zm 0 20 40 60 Zm Histogram of Zm 0 1 2 3 Zm Frequency 0 50 100 150 200 Frequency 0 50 100 150
Statystyka opisowa Robert Pietrzykowski email: robert_pietrzykowski@sggw.pl www.ekonometria.info
2
Na dziś Sprawy bieżące Za dwa tygodnie (24.10.2014) pierwszy sprawdzian na wykładzie z przerobionego materiału Konsultacje Inne 3
Na dziś Powtórzenie z poprzedniego wykładu Wykład 2: rozkłady prawdopodobieństwa rachunek prawdopodobieństwa miary koncentracji miary skośności
ciągła jednowymiarowa Skokowa Zmienna losowa wielowymiarowa
Zmienna losowa i jej rozkład Rozkłady teoretyczne Normalny Dwumianowy Poissona Funkcje rozkładów Funkcja gęstości dystrybuanta
7
CECHA X: powierzchnia mieszkania w m 2 8
9
10
11
12
-4-2 0 2 4 x function(x) dnorm(x) (x) 0.0 0.1 0.2 0.3 0.4
14
15
Histogram of rnorm(1000, EX, DX) Histogram of rnorm(1000, EX, DX) Frequency 0 20 40 60 80 Frequency 0 20 40 60 80-3 -2-1 0 1 2 3-4 -3-2 -1 0 1 2 3 rnorm(1000, EX, DX) rnorm(1000, EX, DX) Histogram of rnorm(1000, EX, DX) Histogram of rnorm(1000, EX, DX) Frequency 0 20 40 60 80 Frequency 0 20 40 60 80-4 -2 0 2-3 -2-1 0 1 2 3 rnorm(1000, EX, DX) rnorm(1000, EX, DX)
Histogram of Zm 0 2 4 6 8 10 Zm Histogram of Zm 0 5 10 15 Zm Frequency 0 100 200 300 Frequency 0 50 100 150 200 250 Histogram of Zm 0 20 40 60 Zm Histogram of Zm 0 1 2 3 Zm Frequency 0 50 100 150 200 Frequency 0 50 100 150
25 20 15 10 5 0 150-154,6 154,6-159,2 159,2-163,8 163,8-168,4 168,4-173 173-177,6 177,6-182,2 182,2-186,8 186,8-191,4 191,4-196
25 20 Średnia = 171,58 S 2 = 90,88 S = 9,53 15 10 5 171,58-9,53 = 162,05; 171,58-9,53 = 181,11 0 150 155 160 165 170 175 180 185 190 195 200
Wzrost kobiet jest zmienną losową o rozkładzie normalnym ze średnią 166 i wariancją 400. Jaki procent kobiet będzie miał wzrost z przedziału od 146 do 186 centymetrów? Przykład POPULACJA: KOBIETY CECHA X: WZROST JEDNEJ KOBIETY RODZAJ CECHY: CIĄGŁA ROZKŁAD CECHY: NORMALNY FORMALNY ZAPIS PYTANIA: P{X (146; 186)}=? ROZWIĄZANIE: P{X (166-20=146; 166+20=186)}=0.68 ODPOWIEDŹ: 68% kobiet będzie miało wzrost od 166 do 186. Do obliczeń wykorzystałem prawo 3 sigm. 25
Momenty zwykłe i centralne kwantyle PARAMETRY ROZKŁADU ZMIENNEJ LOSOWEJ wariancja Wartość oczekiwana dominanta
Momenty zwykłe i centralne
Momenty centralne Momentem centralnym nazywamy średnią arytmetyczną z odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej podniesionych do r-tej potęgi. Moment centralny drugiego rzędu nazywamy wariancję Moment centralny trzeciego rzędu nazywamy współczynnik asymetrii obserwacji (współczynnik skośności) Moment centralny czwartego rzędu nazywamy miarę koncentracji obserwacji (współczynnik kurtozy)
Kurtoza g eksces = g 4-3 Kurtoza informuje właściwie o tym czy dane są bardziej w centralnej części rozkładu, czy w ogonach. Rozkłady prawdopodobieństwa można podzielić ze względu na wartość kurtozy na rozkłady: mezokurtyczne - wartość kurtozy wynosi 3, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego ekscesu wynosi dokładnie 0) leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym
Krzywa koncentracji Lorentza
Współczynnik Giniego
Przykład Decyle Dochód [%] Dochód skumulow any [%] 1 10 10 2 10 20 3 10 30 4 10 40 5 10 50 6 10 60 7 10 70 8 10 80 9 10 90 10 10 100 100 90 80 70 60 50 40 30 20 10 0 1 2 3 4 5 6 7 8 9 10
Decyl e Dochód [%] Dochód skumulo wany [%] 1 1 1 2 3 4 3 5 9 4 7 16 5 9 25 6 11 36 7 13 49 8 15 64 9 17 81 10 19 100 100 90 80 70 60 50 40 30 20 10 0 Przykład 0 1 2 3 4 5 6 7 8 9 10
PYTANIA 1. Wymień znane Ci teoretyczne rozkłady prawdopodobieństwa wykorzystywane w statystyce matematycznej. 2. Znając rozkład popytu na pewien towar określ oczekiwany zysk wiedząc, że cena sprzedaży wynosi 10, a koszty stałe 10000. Popyt 1000 2000 3000 4000 P(popytu) 0,4 0,3 0,2 0,1 3. Jaka jest interpretacja pojecia kurtozy? 4. Wyjaśnij pojęcie asymetria prawostronna. 5. Dwaj niezależni analitycy badali zużycie paliwa w pewnej firmie. Stwierdzili, że badana cecha ma rozkład normalny. W wyniku obliczeń analityk A stwierdził, że zużycie paliwa charakteryzuje się silną prawostronną asymetrią, a analityk B który liczył pozycyjny współczynnik asymetrii stwierdził, że jest tam silna asymetria lewostronna. Który z nich miał rację? Odpowiedź uzasadnij. 6. Badając rozkład dochodów w pewnym powiecie uzyskano następujące udziały w łącznych dochodach dla kolejnych części zbiorowości (równych pod względem liczebności): 5%, 10%, 20%, 65%. Ile wynosi współczynnik Giniego? 7. Wykreśl krzywą Lorenza w oparciu o dane z pytania 6. Jak wyglądałby taki wykres gdyby w całej zbiorowości tylko jedna osoba miała dochody? 8. Co oznacza określenie rozkład leptokurtyczny? 9. W pewnej zbiorowości wyznaczono średnia wartość badanej zmiennej, odchylenie standardowe i dominantę uzyskując odpowiednio: 100, 9 i 113.5. Oblicz wartość współczynnika asymetrii. 10. Wzrost kobiet jest zmienną losową o rozkładzie normalnym ze średnią 166 i wariancją 400. Jaki procent kobiet będzie miał wzrost z przedziału od 146 do 186 centymetrów?
Gini Dochód Decyle Dochód [%] skumulowany X Y 0,33 [%] 0 0 0 0% 0% 1 1 1 10% 1% 0,001 2 3 4 20% 4% 0,005 3 5 9 30% 9% 0,013 4 7 16 40% 16% 0,025 5 9 25 50% 25% 0,041 6 11 36 60% 36% 0,061 7 13 49 70% 49% 0,085 8 15 64 80% 64% 0,113 9 17 81 90% 81% 0,145 10 19 100 100% 100% 0,181 RAZEM: 0,67 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 0% 20% 40% 60% 80% 100%
t t2st2 s r 3 t r 2 3 rt P tr32 s 3 ó s rst s rs3 t t2st2 r3 3 t st r
3 r2 st 3 r s3 3 ó 2 = 1 = = 1 t rt2,, = 1 = = = 1 1 = = (1 1) = s = 1 s = + = = (1 1) / / = = (1 1) / /
s2 tr 3 r s3 3 ó 2 3 s ó 32 ó s2 tr s, s, ó s 3 s ó 32 ó s 3 3 3 r r s2 tr 1 = = r s2 tr 1 < < s2 tr str 1 > > s2 tr r str
2 r 3 3 r s3 3 ó 2 s s = s s r 3 s3t t r 2 r 3 3 rt2 3 2 s s r 3 st r 3 2s 2 r 2 r 3 t rt2 3 2 s3 s rt ó r s s r 3 st 2s 2 r 2 r 3 t2 rt2 3 2 s3 s s3 3 r 3
3 r2 st 3 r r 3 3 32 = = 1 = 1 = 1 + + t2 r3 α α α = 1α + (α) α α = 1 = = = 1 1 = = ( 1 1) = s = 1 s = + = = ( 1 1) / / = = ( 1 1) / /
3 r2 st s ó 32 = (1 1 )(2 + 2 ) =
3 r2 st r st = 1 ( + ) = + = ( ) = ( ) ( + ) = 1 r 3 r 2(, 1,, ) P(, ), (, ) r 3 r 2( ; ; ; ) r 3 r 2(, ; ; ; )
❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ t t2st2 s rt P tr32 s 3 ó s rst s rs3 t t2st2 r3 3 t st r s str 3 2 rs3 st2 3
❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ P2t st t st 2 r 2t P P s ó 32 r P rs r32 rt 3 3 r s r32 rt 3 3 r s ( σ, σ) s 3 3 r32 2 ρ > st r 3
❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ P2t st t st 2 r 2t P P r 3 s 3 r st = (1 1) r 3 r t s ó 32 3 r 3ró r t 2 st r
❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ P2t st t st 2 r 2t P P r3 3 2 3 ró 2 rt st2 t r λ r 3
❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ P2t st t st 2 r 2t P P s2 3 r2 r 3 r s3 t r 2 rt 2 st r r rt2 r r2t t2 3 t
❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ P2t st t st 2 r 2t P P s ó 32 t r r 3 r s3 r32 rt 3 3 r s r tr r32 rt t r tr r32 rt 3 3 r s r tr r32 rt 3 3 r s
❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ P2t s3 3 ó r s3 2t P P2t r t t2 s r t 2 t r32s32 3r st r rt r P2t 2 t 3 2 r t 3r t 2 P2t 32 2 2 r 2 3 32 t2 t P2t 3 r 3 s 2 s s 3 tr s3 P2t s ó 32 3 s r 2 r32 r32 rt
❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ 3 ró 3 s P s3 3ór r2 s3 r r 3 3 32 2 2t s2 P P = 1. + =
❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ Pr st 3 t r r t 3 P 3 r 23 3 r rt 3 2 st r r 3 rt2 2 r 2 ór 2 32s r 3 st 2 s32 2 ó 3 P P = s =
❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ Pr st 3 t r r t 3 P 3 rt s r3 2 s ó t ró 2 s ó r 3 2 32s s rt s r3 2 3 r 3 s2 s r t r r t 32s s P P q
❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ ❺➅❶ r 3 r 3 t 2 r2s P 23 3 r 3 s32 2 P ❺ P ❺ 1 1 ( )