Statystyka Opisowa. w2: podstawowe miary. Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska. Poznań, 2015/16 aktualizacja 2017

Podobne dokumenty
Miary położenia (tendencji centralnej) to tzw. miary przeciętne charakteryzujące średni lub typowy poziom wartości cechy.

Statystyka opisowa. (n m n m 1 ) h (n m n m 1 ) + (n m n m+1 ) 2 +1), gdy n jest parzyste

Elementy statystyki opisowej Izolda Gorgol wyciąg z prezentacji (wykład I)

Wykład nr 2. Statystyka opisowa część 2. Plan wykładu

Statystyczny opis danych - parametry

Statystyka opisowa. () Statystyka opisowa 24 maja / 8

Statystyka powtórzenie (I semestr) Rafał M. Frąk

Moda (Mo, D) wartość cechy występującej najczęściej (najliczniej).

Wybrane litery alfabetu greckiego

Histogram: Dystrybuanta:

Plan wykładu. Analiza danych Wykład 1: Statystyka opisowa. Literatura. Podstawowe pojęcia

Miary położenia. Miary rozproszenia. Średnia. Wariancja. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Miary rozproszenia. Miary położenia. Wariancja. Średnia. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

STATYSTYKA OPISOWA WYKŁAD 1 i 2

Estymacja przedziałowa

COLLEGIUM MAZOVIA INNOWACYJNA SZKOŁA WYŻSZA WYDZIAŁ NAUK STOSOWANYCH. Kierunek: Finanse i rachunkowość. Robert Bąkowski Nr albumu: 9871

STATYSTYKA OPISOWA PODSTAWOWE WZORY

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

STATYSTYKA OPISOWA PODSTAWOWE WZORY

d wymiarowy wektor losowy Niech (Ω, S, P) przestrzeń probabilistyczna Definicja Odwzorowanie X: Ω R nazywamy 1-wymiarowym wektorem

Elementy modelowania matematycznego

Estymacja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 7

Podstawowe pojęcia. Próba losowa. Badanie próby losowej

Statystyka opisowa - dodatek

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

Jak obliczać podstawowe wskaźniki statystyczne?

3. Tworzenie próby, błąd przypadkowy (próbkowania) 5. Błąd standardowy średniej arytmetycznej

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Modele tendencji rozwojowej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Zestaw II Odpowiedź: Przeciętna masa ciała w grupie przebadanych szczurów wynosi 186,2 g.

Ćwiczenie 2 ESTYMACJA STATYSTYCZNA

PODSTAWY BIOSTATYSTYKI ĆWICZENIA

Estymacja: Punktowa (ocena, błędy szacunku) Przedziałowa (przedział ufności)

Statystyka i Opracowanie Danych. W7. Estymacja i estymatory. Dr Anna ADRIAN Paw B5, pok407

Materiały do wykładu 4 ze Statystyki

STATYSTYKA OPISOWA I PROJEKTOWANIE EKSPERYMENTU dr inż Krzysztof Bryś

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

POLITECHNIKA OPOLSKA

Obserwacje odstające mają duży wpływ na średnią średnia nie jest odporna.

STATYSTYKA I ANALIZA DANYCH

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Średnia arytmetyczna Klasyczne Średnia harmoniczna Średnia geometryczna Miary położenia inne

LABORATORIUM METROLOGII

Podstawowe oznaczenia i wzory stosowane na wykładzie i laboratorium Część I: estymacja

BADANIA DOCHODU I RYZYKA INWESTYCJI

Lista 6. Estymacja punktowa

Modelowanie i Analiza Danych Przestrzennych

Statystyka i rachunek prawdopodobieństwa

Projekt ze statystyki

Parametryczne Testy Istotności

1 Dwuwymiarowa zmienna losowa

Ćwiczenia rachunkowe TEST ZGODNOŚCI χ 2 PEARSONA ROZKŁAD GAUSSA

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka Wzory I. Analiza struktury

KURS STATYSTYKA. Lekcja 3 Parametryczne testy istotności ZADANIE DOMOWE. Strona 1

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych (w zakresie materiału przedstawionego na wykładzie organizacyjnym)

Ćwiczenia nr 5. TEMATYKA: Regresja liniowa dla prostej i płaszczyzny

Korelacja i regresja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 12

Analiza wyników symulacji i rzeczywistego pomiaru zmian napięcia ładowanego kondensatora

1. Wnioskowanie statystyczne. Ponadto mianem statystyki określa się także funkcje zmiennych losowych o

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

0.1 ROZKŁADY WYBRANYCH STATYSTYK

X i. X = 1 n. i=1. wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = 1. (X i X) 2.

ANALIZA DANYCH DYSKRETNYCH

1 Podstawy rachunku prawdopodobieństwa

3. Regresja liniowa Założenia dotyczące modelu regresji liniowej

1 Testy statystyczne. 2 Rodzaje testów

Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w

Próba własności i parametry

SIGMA KWADRAT LUBELSKI KONKURS STATYSTYCZNO- DEMOGRAFICZNY

Opracowanie danych pomiarowych. dla studentów realizujących program Pracowni Fizycznej

Ćwiczenie nr 14. Porównanie doświadczalnego rozkładu liczby zliczeń w zadanym przedziale czasu z rozkładem Poissona

MIANO ROZTWORU TITRANTA. Analiza statystyczna wyników oznaczeń

Rachunek prawdopodobieństwa i statystyka W12: Statystyczna analiza danych jakościowych. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.

Testowanie hipotez. H 1 : µ 15 lub H 1 : µ < 15 lub H 1 : µ > 15

Statystyka i opracowanie danych W3: Wprowadzenie do statystycznej analizy danych Podstawy wnioskowania statystycznego. Estymacja i estymatory

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Przedmiot statystyki. Graficzne przedstawienie danych.

Laboratorium 3 - statystyka opisowa

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Zadanie 2 Niech,,, będą niezależnymi zmiennymi losowymi o identycznym rozkładzie,.

Charakterystyki liczbowe zmiennych losowych: wartość oczekiwana i wariancja

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

STATYSTKA I ANALIZA DANYCH LAB II

ZADANIA NA ĆWICZENIA 3 I 4

PRZEDZIAŁY UFNOŚCI. Niech θ - nieznany parametr rozkładu cechy X. Niech α będzie liczbą z przedziału (0, 1).

Ciągi liczbowe wykład 3

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Średnie. Grażyna Rozmysłowicz, Dorian Śniegocki

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Estymacja przedziałowa - przedziały ufności

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

14. RACHUNEK BŁĘDÓW *

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Rozkład normalny (Gaussa)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Transkrypt:

Statystyka Opisowa w2: podstawowe miary Jerzy Stefaowski Istytut Iformatyki Politechika Pozańska Pozań, 205/6 aktualizacja 207

STATYSTYKA OPISOWA Techiki wstępej aalizy daych i ich prezetacji: gromadzeie, przechowywaie daych, aaliza daych surowych prezetacja daych: tabele, wykresy, parametry liczbowe obliczae dla daych. Cel: charakteryzacja daych - w zwięzłej formie odzwierciedlająca pewe ich cechy, p. średi dochód, średie zużycie paliwa,.. odalezieie różego rodzaju regularości ( ieregularości ) ukrytych w daych, zależości między podzbiorami daych.

Podstawowymi zadaiami parametrów opisowych jest określeie: przeciętego poziomu zmieych - tj. miary przeciętej (położeia), reprezetującej wszystkie wartości szeregu, zmieości (dyspersji, rozproszeia) wartości zmieych w obserwowaej zbiorowości, tj. określeie miary zmieości, rozmieszczeia wariatów cechy w zbiorze, przez obliczeie mometów oraz wskazaie skupieia (kocetracji) i spłaszczeia (ekscesu) w stosuku do kształtu krzywej ormalej, przez obliczeie wskaźika spłaszczeia. w jakim stopiu baday szereg odbiega od idealej symetrii, tj. określeie miary asymetrii.

Miary położeia wartości przecięte średia arytmetycza miary położeia klasycze średia harmoicza średia geometrycza pozycyje modala kwatyle kwartyl pierwszy mediaa kwartyl trzeci cetyle

Wartości przecięte WSKAŹNIKI POŁOŻENIA (miary położeia, parametry położeia ) charakteryzują ajbardziej reprezetatywe dae, cetralą tedecję daych, określają środek próbki: Niech :, 2,..., - próbka o liczości. Wartość średia w próbce ( średia próbkowa, średia próbki ) ( + 2 +... + ) i i

Średia uciaa (ucięta) ( z parametrem k ) tk 2k k i k+ ( i), stosowaa gdy wartości odstające są wyikiem błędu (błęde przetworzeie daych lub błędy przyrządów pomiarowych). Ostrzeżeie: obserwacje odstające mogą być bardzo istote, p. są wyikiem rozregulowaia procesu produkcji

Średia wisorowska ( z parametrem k ) wk k i k+ ( ) k + ( k+ ) + ( i) + ( k + ) ( k) 2 Stosowaa w sytuacjach gdy wartości skraje ( k ajmiejszych lub k ajwiększych ) iepewe co do ich prawdziwych wartości (p. zostały utracoe z bazy daych; ie mogły być zaobserwowae w przypadku badaia czasu życia lub czasu bezawaryjej pracy urządzeia gdy eksperymetator ma ograiczoy czas obserwowaia zjawiska. Moda ajczęściej występująca wartość (lub wartości) w próbce.

Średia harmoicza Średia harmoicza jest stosowaa, gdy wartości cechy statystyczej podawae są w przeliczeiu a stałą jedostkę iej zmieej, p. prędkość w km/h, gęstość zaludieia w osobach/km 2, spożycie w kg/osobę, itp. Średią harmoiczą moża wyzaczyć ze wzoru: H i i + +... 2 +

Średia harmoicza Przykład: W ciągu 8 godzi pracy w przychodi obserwowao pracę trzech pielęgiarek. Na wykoaie obowiązków związaych z jedym pacjetem pielęgiarka A potrzebowała 4 mi pielęgiarka B 6 mi, a pielęgiarka C 2 mi. Jaki jest średi czas zużyway a jedego pacjeta? (proszę zwrócić uwagę a rzeczywistą jedostkę badaej cechy: mi/osobę!!!) H 4 + 3 + 6 2 6 mi

Średia harmoicza Gdyby zastosować średią arytmetyczą uzyskalibyśmy iy wyik: 4 + 6 + 2 3 7 3 mi Jest to wyik ieprawidłowy, bo przy takim tempie pracy, trzy pielęgiarki w ciągu 8 godzi (480 miut) obsłużyłyby 3 480 7,333 mi96 osób. W rzeczywistości jedak, pielęgiarka A mogłaby zająć się 480 420 pacjetami, pielęgiarka B - 480 680, a pielęgiarka C - 480 240, co daje 20+80+40240 pacjetów.

Średia geometrycza Średią geometryczą stosuje się przy badaiu średiego tempa zmia zjawisk, tz. w sytuacji, gdy zjawiska są ujmowae w sposób dyamiczy. Średią geometryczą wyzacza się korzystając ze wzoru: G i i 2...

Średia geometrycza Przykład: W ciągu trzech kolejych lat liczba osób owozakażoych wirusem X wyosiła odpowiedio: 500, 750, 825. Jaki był średi względy przyrost liczby owych zakażeń? Wartości cechy statystyczej w tym zadaiu to przyrosty liczby zakażeń w kolejych latach, tz.: 2 750 500 825 750,5, Zgodie ze wzorem, średi przyrost, to: G,5,,28

Średia geometrycza Gdyby w tym przykładzie zastosować średią arytmetyczą uzyskalibyśmy wyik: (,5+,) 2,3. Wyikałoby z tego, że w 3 roku, powio być 500,3,3845 osób owozakażoych.

W przypadku szeregu szczegółowego korzysta się z relacji: i i Dla szeregu rozdzielczego o przedziałach klasowych, w których zmiea reprezetująca badaą cechę statystyczą jest skokowa, a przedziały klasowe jedojedostkowe (puktowe) stosuje się wzór a tzw. średią ważoą: k i i atomiast w przypadku zmieych ciągłych występujących w szeregu rozdzielczym o przedziałach klasowych wielojedostkowych, średią arytmetyczą wyzacza się jako: i k i! i i

Przykład. Miesięczy dochód 0-ciu osób ( w tys. PLN): Dochód (PLN) [,,5) [,5, 2) [2, 2,5) [2,5, 3) Liczba osób 2 2 4 2 Średia a podstawie daych zgrupowaych: k ~ ii 2,25 + 2,75 + 4 2,25 + i 0 2 2,75 2,05

Mediaa w próbce (mediaa próbki, mediaa próbkowa) Niech ( ) (2)... ( ) ( ) uporządkowae w sposób rosący wartości próbki: () mi{, 2,..., },..., () ma{, 2,..., } med, gdy jest ieparzyste (( +) / 2) med ( ( / 2) + ( / 2+ ) ), gdy jest parzyste. 2

Przykład. Miesięczy dochód -tu osób: Dochód (PLN) 2000 2500 3500 9000 Liczba osób 4 4 2 Średie wyagrodzeie tej grupy osób to: (4 2000 + 4 2500 + 2 3500 + 9000) 4000 2000, 2000, 2000, 2000, 2500, 2500, 2500, 2500, 3500, 3500, 9000 Mediaa 2500

Średia wrażliwa a obserwacje odstające: 4000 > 3500, 9000 typowego dochodu. (0) ( ) - średia ie odzwierciedla Mediaa odpora ( mało wrażliwa ) a obserwacje odstające: med ( 6) 2500 - mediaa jest lepszą miarą przeciętego wyagrodzeia iż średia

W sposób przybliżoy obliczamy mediaę opierając się a wzorze iterpolacyjym: h0 Me N 0 + ( Me sk ) 0 gdzie: 0 - dola graica przedziału mediay, h 0 - rozpiętość przedziału mediay, 0 - liczebość przedziału mediay, N Me - umer mediay, sk- - suma liczebości wszystkich przedziałów klasowych poprzedzających przedział mediay.

Miary zmieości Miary zmieości (rozproszeia, dyspersji) opisują rozrzut wartości cechy statystyczej w populacji wokół wartości przeciętej. Charakteryzują stopień zróżicowaia jedostek zbiorowości pod względem badaej cechy.

Miary zmieości wariacja klasycze odchyleie stadardowe odchyleie przecięte miary zmieości współczyik zmieości rozstęp pozycyje odchyleie ćwartkowe współczyik zmieości Miary klasycze, to miary, których wartość jest wyzaczoa w oparciu o wszystkie obserwacje. Miary pozycyje, to miary, a których wartość wpływają tylko wybrae obserwacje z próby uporządkowaej.

(miary rozproszeia, zmieości ) charakteryzują rozrzut daych, rozproszeie wartości próbki wokół parametru położeia. Rozstęp próbki R (, ) () Wariacja próbki (w próbce) s 2 i ( i ) 2,

Odchyleie stadardowe w próbce (próbki) s 2 s Odchyleie przecięte od wartości średiej d i i Doly (pierwszy) kwartyl Q mediaa podpróbki składającej się z elemetów próbki miejszych od mediay med.

Góry (trzeci) kwartyl Q 3 mediaa podpróbki składającej się z elemetów próbki większych od mediay. Rozstęp międzykwartylowy: IQR Q 3 Q

Popularym mierikiem dyspersji jest wariacja która dla szeregów: w przypadku szeregu szczegółowego dla szeregu rozdzielczego puktowego dla szeregu rozdzielczego z przedziałami klasowymi S S 2 2 ( - ) 2 i i S k (! - ) 2 i i k i i 2 i k ( - ) 2 i i k i i i

Odchyleie stadardowe 68% 95% 3s 2s s 99,7% + s + 2s + 3s Poza przedział +/- jedego odchyleia stadardowego od średiej wykracza około 32% obserwacji. Poza przedział +/- dwóch odchyleń stadardowych od średiej wykracza tylko około 5% obserwacji. Prawdopodobieństwo, wystąpieia obserwacji spoza przedziału +/- trzech odchyleń stadardowych od średiej jest zikome i wyosi ok. 0,3%.

współczyiki zmieości Defiiuje się je jako stosuek wartości miary dyspersji do średiej. Współczyik zmieości oparty a odchyleiu stadardowym postaci: S V s Współczyik zmieości oblicza się rówież dla odchyleia ćwiartkowego:. Q V Q Me

Współczyik skośości określa zarówo kieruek, jak i siłę asymetrii i wyzacza się go: dla miar klasyczych W s Do S dla miar pozycyjych A s ( Q ( Q 3 3 Me) Me) + ( Me ( Me Q Q ) )

Współczyiki skośości są miarami iemiaowaymi i uormowaymi, co umożliwia porówywaie asymetrii różych rozkładów. Poza przypadkami skrajej asymetrii wartości współczyików asymetrii W s, A s wahają się w przedziale <-, >, w przypadku szeregu symetryczego przyjmują oe wartość zero.

Miary asymetrii Wskaźik asymetrii (zway rówież mierikiem skośości) dla szeregu symetryczego jest rówy zero. W szeregach asymetryczych mierik skośości może być większy lub miejszy od zera, mówimy wówczas o asymetrii prawostroej (dodatiej) lub asymetrii lewostroej (ujemej).

2 0 8 6 4 2 0 2 3 4 5 6 7 8 9 0 Wartość cechy X Rys. Przykład szeregu symetryczego

2 3 4 5 6 7 8 9 0 Rys. 2 Szereg o asymetrii dodatiej (prawostroej)

2 3 4 5 6 7 8 9 0 Rys. 3 Szereg asymetryczy ujemie (lewostroie)

W szeregu symetryczym Me Do przy asymetrii lewostroej D 0 < Me < Do < Do M s < 0 przy prawostroej > Me > Do > Do M s > 0

WYKRES Boplot (pudełkowy) ilustruje wzajeme położeie pięciu wskaźików sumaryczych: ( ) mi, Q, med, Q3, () ma. Obserwacja potecjalie odstająca 0 0,4 0,8,2,6

Z wykresu odczytujemy astępujące wskaźiki: Q 0, rzut a oś poziomą lewego boku prostokąta Q2 0,7 rzut a oś poziomą prawego boku prostokąta Q3 0,3 rzut a oś poziomą pioowego odcika wewątrz prostokąta IQR długość podstawy prostokąta Wąsy wykresu ramkowego liie po obu stroach prostokąta. Rzut lewego wąsa a oś poziomą przedział [ *, Q ], gdzie * mi{ k : Q 3/2 IQR k Q }, podobie określamy rzut prawego wąsa przedział [ *, Q ], gdzie * ma{ k : Q 3 k Q 3 + 3/2 IQR }

Bo Plot wykres pudełkowy Rozważamy rozkład wartości w pewej serii pomiarów tej samej zmieej Joh Tukey wprowadził wykres pudełkowy boplot dla wizualizacji rozkladu wartości Więcej iformacji: M media Q, Q3 quarrtiles Whiskers.5 * iterquartile rage Dots - outliers http://mathworld.wolfram.com/bo-ad- WhiskerPlot.html http://e.wikipedia.org/wiki/bo_plot Darwi s plat study http://www.upscale.utoroto.ca/geeraliterest/harriso/visualisatio/visualisatio.html

Wykorzystaie wykresów pudełkowych - porówaia

Cout 00 Average 2,02544 Media,46467 Variace 3,6395 Stadard deviatio,77875 Miimum 0,050559 Maimum 8,05684 Rage 8,0479 Lower quartile 0,63868 Upper quartile 3,23695 Iterquartile rage 2,59833 Coeff. of variatio 87,8206% Bo-ad-Whisker Plot 0 2 4 6 8 0 Col_

Histogram 40 30 frequecy 20 0 0-3 5 7 9 Col_ Bo-ad-Whisker Plot 0 2 4 6 8 0 Col_

Summary Statistics for RAND Cout 00 Average -0,0696 Media -0,056888 Variace,07775 Stadard deviatio,0385 Miimum -3,3656 Maimum 2,26235 Rage 5,6275 Lower quartile -0,726224 Upper quartile 0,680553 Iterquartile rage,40678 Std. skewess -,86072 Coeff. of variatio -937,836% Bo-ad-Whisker Plot -3,4-2,4 -,4-0,4 0,6,6 2,6 RAND

Histogram 40 30 frequecy 20 0 0-3,7 -,7 0,3 2,3 4,3 RAND Bo-ad-Whi sker Pl ot -3,4-2,4 -,4-0,4 0,6,6 2,6 RAND