W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Podobne dokumenty
MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka. Opisowa analiza zjawisk masowych

1 Podstawy rachunku prawdopodobieństwa

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Parametry statystyczne

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Analiza struktury i przeciętnego poziomu cechy

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Miary statystyczne w badaniach pedagogicznych

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Opisowa analiza struktury zjawisk statystycznych

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Xi B ni B

W1. Wprowadzenie. Statystyka opisowa

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Wykład 5: Statystyki opisowe (część 2)

Miary w szeregach. 1 Miary klasyczne. 1.1 Średnia Średnia arytmetyczna

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Statystyczne metody analizy danych

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Podstawy statystyki - ćwiczenia r.

Próba własności i parametry

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Analiza zróżnicowania, asymetrii i koncentracji

STATYSTYKA OPISOWA. Dr Alina Gleska. 28 września Instytut Matematyki WE PP

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Laboratorium 3 - statystyka opisowa

Zakład Ubezpieczeń Społecznych Departament Statystyki. Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2010 roku.

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

Biostatystyka, # 1 /Weterynaria I/

4.2. Statystyczne opracowanie zebranego materiału

Pozyskiwanie wiedzy z danych

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Wykład 4: Statystyki opisowe (część 1)

Statystyka matematyczna dla leśników

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka opisowa w wycenie nieruchomości Część I - wyznaczanie miar zbioru danych

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyka Matematyczna Anna Janicka

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Inteligentna analiza danych

Wykład dla studiów doktoranckich IMDiK PAN. Biostatystyka I. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2018 roku

Estymacja punktowa i przedziałowa

Matematyka stosowana i metody numeryczne

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Miary asymetrii STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Zadanie 2.Na III roku bankowości złożonym z 20 studentów i 10 studentek przeprowadzono test pisemny ze statystyki. Oto wyniki w obu podgrupach.

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Średnie. Średnie. Kinga Kolczyńska - Przybycień

Matematyka z el. statystyki, # 1 /Geodezja i kartografia II/

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Statystyka opisowa. Robert Pietrzykowski.

Zawartość. Zawartość

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

TREŚCI NAUCZANIA z przedmiotu pracowania ekonomiczno - informatyczna na podstawie programu nr 341[02]/MEN/ klasa 3 TE

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

ANALIZA JAKOŚCIOWA I ILOŚCIOWA TESTÓW SZKOLNYCH MATERIAŁ SZKOLENIOWY

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Transkrypt:

Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego, szeregu rozdzielczego punktowego oraz szeregu przedziałowego. Na wstępie przypomnijmy i usystematyzujmy wiedzę dotyczącą zasad budowy szeregu rozdzielczego przedziałowego. Poszczególne etapy budowy szeregu rozdzielczego omówimy na przykładzie. Załóżmy, że dysponujemy danymi pochodzącymi z pewnej obserwacji: 96,93915 88,01758 68,72354 52,2388 67,12029 72,06346 64,64764 90,96913 31,00088 91,14962 76,89283 27,57829 48,61091 44,35213 64,45647 97,98895 82,20884 43,73263 43,84818 65,70472 100,6262 71,04333 92,2647 73,76527 93,05446 29,5419 66,18221 10,76849 86,45386 98,62349 87,50821 57,8543 107,7631 16,1241 34,27547 70,44473 70,72125 84,18074 44,04258 96,49353 94,04173 68,4936 21,69934 47,57353 31,19727 91,45263 105,8718 64,77387 106,3404 107,3339 106,9621 102,4222 43,21126 75,82349 64,04413 13,63236 66,19645 88,33829 70,49121 108,7026 69,28481 59,21425 19,87178 102,3282 86,83195 90,41208 16,81934 76,83596 60,11941 53,5102 55,71382 58,03436 64,11598 74,95631 93,94231 71,31789 70,02375 18,46352 49,68808 87,66699 32,13509 50,5165 86,82514 51,52177 87,99823 67,46167 93,21093 85,45338 33,59928 46,85697 34,41589 38,0079 37,16665 107,4977 28,08028 45,79523 18,69515 60,65026 19,96077 88,60044 81,83356 102,397 91,24854 44,62819 66,76028 67,17125 62,17792 54,56313 17,53751 74,96715 17,57984 28,13501 33,06876 99,14579 35,38696 71,32207 37,60998 104,1976 15,33538 77,58853 W pierwszym kroku należy wyznaczyć wartość najmniejszą oraz największą występujące wśród naszych obserwacji. Przy pomocy popularnego arkusza kalkulacyjnego Excel możemy tego dokonać za pomocą funkcji min max. W naszym przypadku, mamy x min =10,76849 x max =108,7026. W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Ewentualnie można wykorzystać pomocniczą tabelkę: liczba obserwacji (N) liczba przedziałów (k) 30-60 6-8 60-100 7-10 100-200 9-12 200-500 11-17 500-1500 16-25 W rozważanym przez nas przypadku n=120. Mamy zatem kilka możliwości na ustalenie liczby przedziałów: Natomiast na podstawie tabelki liczba przedziałów powinna być pomiędzy 9 a 12. Wybierzmy zatem, że k=10. Po ustaleniu liczby przedziałów należy obliczyć rozpiętość danych W celu zwiększenia przejrzystości zapisu, możemy dokonać pewnych drobnych modyfikacji, a mianowicie, przyjmiemy, że rozpiętość wynosi 100, natomiast x min =10. Dzięki tej drobnej modyfikacji otrzymamy całkowitoliczbowe końce przedziałów, co w znaczący sposób uprości nam obliczenia. Dysponując rozpiętością r oraz liczbą przedziałów k możemy wyznaczyć długość poszczególnych przedziałów Zazwyczaj długości poszczególnych przedziałów są takie same. W szczególnych przypadkach skrajne przedziały mogą mieć inną ( większą) długość niż pozostałe. Możemy już teraz określić końce przedziałów oraz zliczyć ile elementów znajduje się w każdym z przedziałów. Otrzymujemy następującą tabelkę:

przedział 10-20 11 20-30 5 30-40 11 40-50 11 50-60 9 60-70 18 70-80 15 80-90 13 90-100 15 100-110 12 n i Do obliczania liczby wystąpień w programie Excel można wykorzystać funkcję macierzową częstość. Pierwszą z rozpatrywanych przez nas miar będzie wskaźnik struktury jest to stosunek liczby jednostek o danej wartości do wszystkich obserwacji W rozważanym przez nas przypadku mamy przedział n i 10-20 11 11/120=0,09166666666666666666666666666667 20-30 5 5/120=0,04166666666666666666666666666667 30-40 11 11/120=0,09166666666666666666666666666667 40-50 11 11/120=0,09166666666666666666666666666667 50-60 9 0,075 60-70 18 18/120=0,15 70-80 15 15/120=0,125 80-90 13 13/120=0,10833333333333333333333333333333 90-100 15 15/120=0,125 100-110 12 12/120=0,1 Jest oczywiste, że wskaźniki struktury powinny sumować się do jedności.

Miary przeciętne (położenia) charakteryzują zbiorowość statystyczną niezależnie od różnic występujących między poszczególnymi jednostkami wchodzącymi w jej skład. Dokonują one charakterystyki podobieństw zbiorowości ze względu na wyróżnioną cechę zmienną. Podział miar położenia: klasyczne o średnia arytmetyczna (zwykła, ważona), o średnia chronologiczna, o średnia harmoniczna, o średnia geometryczna, pozycyjne o dominanta, o kwantyle, kwartyle (kwartyl pierwszy, mediana, kwartyl trzeci), decyle, percentyle (centyle). Średnie klasyczne obliczane są na podstawie wartości wszystkich jednostek badawczych, ukazując średni poziom cechy w zbiorowości. Spełniają on następującą zależność i nie muszą (choć mogą) pokrywać się w pewną wartością badanej cechy. Najbardziej popularna jest średnia arytmetyczna. Charakteryzuje ona średni (przeciętny) poziom cechy zmiennej w zbiorowości. Robi to tym lepiej, im mniejsze jest zróżnicowanie między wartościami badanej zmiennej (wartości skrajne mogą bowiem zniekształcić rezultat obliczeń). Sposób obliczania średniej arytmetycznej jest uzależniony od sposobu prezentacji danych W przypadku szeregu prostego (wyliczającego) mamy W przypadku szeregu punktowego wzór ten przyjmuje postać W przypadku szeregu przedziałowego mamy

gdzie oznacza środek i-tego przedziału. Średnia chronologiczna stosowana jest dla szeregów momentów, tzn. do wyznaczania przeciętnego poziomu zjawiska obserwowanego w różnych momentach czasu i dana jest wzorem Średnia harmoniczna z dodatnich liczb zadana jest wzorem Średnia geometryczna dana jest wzorem Średnie pozycyjne (miary pozycyjne) oparte są na wartościach cechy zmiennej wybranych jednostek zbiorowości charakteryzujących się szczególnym położeniem. Można je dokładnie wyznaczyć w szeregach prostych (wyliczających) i rozdzielczych jednostopniowych punktowych), natomiast w szeregach rozdzielczych wielostopniowych (przedziałowych) można wskazać jedynie przedział, w którym znajduje się przeciętna pozycyjna, a następnie oszacować jej wartości przy wykorzystaniu wzoru interpolacyjnego. Dominanta to wartość cechy zmiennej, która występuje najczęściej w badanej zbiorowości (wartość dominująca). Sposób wyznaczania dominanty: szereg prosty (wyliczający) wyznaczenie dominanty polega na wskazaniu najczęściej powtarzającej się wartości cechy zmiennej, szereg rozdzielczy jednostopniowy (punktowy) wyznaczenie dominanty polega na wskazaniu wartości cechy zmiennej, której odpowiada maksymalna liczebność, szereg rozdzielczy wielostopniowy (przedziałowy) wyznaczenie dominanty

polega na wskazaniu przedziału, w którym znajduje się dominanta (przedział o największej liczebności), a następnie oszacowaniu jej wartości w oparciu o wzór interpolacyjny gdzie lewy koniec przedziału zawierającego dominantę liczebność przedziału z dominantą liczebność przedziału poprzedzającego przedział z dominantą liczebność przedziału następującego po przedziale z dominantą długość przedziału z dominantą. Kwartyle Kwantyle to wartości cechy zmiennej, które dzielą badaną zbiorowość na określone części pod względem liczby jednostek. Wyróżnia się kwartyle dzielące zbiorowość na cztery części, decyle dzielące zbiorowość na 10 części oraz percentyle (centyle) dzielące zbiorowość na 100 części. Mediana (kwartyl drugi) to wartość cechy zmiennej, która dzieli badaną zbiorowość na dwie części w taki sposób, że połowa jednostek zbiorowości charakteryzuje się wartościami nie wyższymi, a połowa nie niższymi od mediany. Sposoby wyznaczania mediany: W szeregu prostym (wyliczającym) { ( ) ( ) ( ) gdzie oznacza k-ty wyraz w uporządkowanym niemalejąco ciągu obserwacji. Powyższy wzór pozostaje również słuszny dal szeregu rozdzielczego punktowego. W przypadku szeregu przedziałowego mamy nieco bardziej skomplikowany wzór: gdzie

lewy koniec przedziału z medianą numer przedziału z medianą liczebność przedziału z medianą długość przedziału z medianą. W analogiczny sposób wyznacza się kwartyle, w tym wypadku dla szeregu przedziałowego mamy wzory gdzie lewy koniec przedziału z kwartylem pierwszym liczebność przedziału z kwartylem pierwszym numer przedziału z kwartylem pierwszym długość przedziału z kwartylem pierwszym lewy koniec przedziału z kwartylem trzecim liczebność przedziału z kwartylem trzecim numer przedziału z kwartylem trzecim długość przedziału z kwartylem trzecim Miary zmienności Miary zmienności (dyspersji) charakteryzują zbiorowość statystyczną, uwzględ-niając różnice między poszczególnymi jednostkami wchodzącymi w jej skład. Dokonują one charakterystyki stopnia zróżnicowania zbiorowości ze względu na wyróżnioną cechę zmienną. Podział miar zmienności: klasyczne: o wariancja, o odchylenie standardowe, o typowy obszar zmienności, o klasyczny współczynnik zmienności;

pozycyjne: o rozstęp, o odchylenie ćwiartkowe, o kwartylowy obszar zmienności, o kwartylowy współczynnik zmienności. Klasyczne miary zmienności liczone są na podstawie wartości cechy zmiennej wszystkich jednostek badanej zbiorowości, ukazując jednocześnie różnice między wartościami badanej cechy dla poszczególnych jednostek, a wartością centralną (zazwyczaj średnią arytmetyczną). Wariancja (drugi moment centralny) Wariancja to średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej tej cechy. Jest ona stosowana przy konstrukcji wielu parametrów, ale jej wyniku nie interpretuje się. Sposób obliczania wariancji: Szereg prosty: Szereg rozdzielczy punktowy: Szereg przedziałowy: Odchylenie standardowe jest bezwzględną miarą zróżnicowania, która informuje, o ile przeciętnie poszczególne jednostki badanej zbiorowości różnią się pod względem cechy zmiennej (in plus lub in minus) od średniej arytmetycznej tej zmiennej. Odchylenie jest pierwiastkiem kwadratowym z wariancji. Typowy obszar zmienności. Jeżeli rozkład cechy w zbiorowości jest normalny, to w granicach typowego obszaru zmienności mieści się około 2/3 jednostek badanej zbiorowości.

Klasyczny współczynnik zmienności Klasyczny współczynnik zmienności jest względną miarą zróżnicowania, która informuje o sile zróżnicowania badanej zbiorowości pod względem cechy zmiennej oraz umożliwia ocenę średniej arytmetycznej. Im wartość współczynnika jest wyższa, tym zróżnicowanie jest silniejsze, i odwrotnie. Pozycyjne miary zmienności oparte są na wartościach cechy zmiennej wybranych jednostek zbiorowości charakteryzujących się szczególnym położeniem. Zazwyczaj są obliczane wtedy, gdy niemożliwe lub niewskazane jest wykorzystanie miar klasycznych. Rozstęp (empiryczny obszar zmienności) Rozstęp określa całkowitą zmienność wartości badanej cechy i tym samym służy wstępnej ocenie dyspersji gdzie: x min minimalna wartość cechy zmiennej, x max maksymalna wartość cechy zmiennej. Odchylenie ćwiartkowe jest bezwzględną miarą zróżnicowania, która określa przeciętne zróżnicowanie połowy jednostek zbiorowości jednostek środkowych, czyli skupionych wokół mediany (po odrzuceniu 25% jednostek o najniższych wartościach cechy zmiennej i 25% jednostek o wartościach najwyższych) gdzie: Q 1 kwartyl pierwszy, Q 3 kwartyl trzeci. Kwartylowy obszar zmienności W granicach kwartylowego obszaru zmienności mieści się 50% jednostek badanej zbiorowości

Kwartylowy współczynnik zmienności Kwartylowy współczynnik zmienności jest względną miarą zróżnicowania, która informuje o sile zróżnicowania badanej zbiorowości pod względem cechy zmiennej oraz umożliwia ocenę mediany. Im wartość współczynnika jest wyższa, tym zróżnicowanie jest silniejsze, i odwrotnie.