Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.



Podobne dokumenty
MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka. Opisowa analiza zjawisk masowych

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

1 Podstawy rachunku prawdopodobieństwa

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Opisowa analiza struktury zjawisk statystycznych

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Parametry statystyczne

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Wykład 5: Statystyki opisowe (część 2)

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

Statystyczne metody analizy danych

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Pozyskiwanie wiedzy z danych

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

W1. Wprowadzenie. Statystyka opisowa

Analiza struktury i przeciętnego poziomu cechy

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Miary statystyczne w badaniach pedagogicznych

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Laboratorium 3 - statystyka opisowa

Próba własności i parametry

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Analiza zróżnicowania, asymetrii i koncentracji

Zakład Ubezpieczeń Społecznych Departament Statystyki. Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2010 roku.

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Wykład 4: Statystyki opisowe (część 1)

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Biostatystyka, # 1 /Weterynaria I/

Rachunek prawdopodobieństwa i statystyka

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Zadanie 2.Na III roku bankowości złożonym z 20 studentów i 10 studentek przeprowadzono test pisemny ze statystyki. Oto wyniki w obu podgrupach.

Xi B ni B

Inteligentna analiza danych

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Matematyka z el. statystyki, # 1 /Geodezja i kartografia II/

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

STATYSTYKA OPISOWA. Dr Alina Gleska. 28 września Instytut Matematyki WE PP

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Statystyka opisowa. Robert Pietrzykowski.

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Miary asymetrii STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Podstawy statystyki - ćwiczenia r.

Struktura wysokości emerytur i rent wypłacanych przez ZUS po waloryzacji w marcu 2018 roku

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Analiza statystyczna w naukach przyrodniczych

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Statystyka matematyczna dla leśników

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Statystyka Matematyczna Anna Janicka

Wykład dla studiów doktoranckich IMDiK PAN. Biostatystyka I. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Miary w szeregach. 1 Miary klasyczne. 1.1 Średnia Średnia arytmetyczna

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2

Wprowadzenie

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Zmienne losowe. Statystyka w 3

Matematyka stosowana i metody numeryczne

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

4.2. Statystyczne opracowanie zebranego materiału

Statystyka opisowa w wycenie nieruchomości Część I - wyznaczanie miar zbioru danych

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Statystyczne metody analizy danych

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

Transkrypt:

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Zadania analityczne (1) Analiza przewiduje badanie podobieństw i różnic, jakie występują między elementami danej zbiorowości ze względu na wyróżnioną cechę statystyczną. Podobieństwa badamy określając przeciętny poziom (tendencję centralną) cechy w danej zbiorowości. Różnice badamy, określając dyspersję, asymetrię i koncentrację wariantów cechy.

Zadania analityczne (2) Dyspersja (zmienność, rozproszenie) zróżnicowanie wariantów cechy w stosunku do przeciętnego poziomu tej cechy. Asymetria (skośność) wewnętrzne rozmieszczenie jednostek w ramach danej zbiorowości z punktem widzenia cechy badanej. Koncentracja stopień nierównomierności rozkładu wariantów cechy pomiędzy poszczególne jednostki danej zbiorowości oraz stopień skupienia wariantów cechy wokół przeciętnego poziomu tej cechy.

Parametry opisujące zbiorowość Klasyczne Przeciętny poziom x średnia arytmetyczna G średnia geometryczna H średnia harmoniczna Ocena dyspersji d odchylenie przeciętne s odchylenie standardowe, s 2 - wariancja V - współczynnik zmienności x Pozycyjne D dominanta, Me mediana Q 1, Q 3 kwartyle Dci decyle O 2 obszar zmienności Q odchylenie ćwiartkowe V Me pozycyjny współczynnik zmienności Ocena asymetrii W s współczynnik asymetrii A s współczynnik asymetrii α 3 moment 3 centralny, standaryzowany Ocena skupienia α 4 moment 4 centralny, standaryzowany

Średnia arytmetyczna (SA) Jest to suma wartości cechy wszystkich jednostek badanej zbiorowości podzieloną przez liczbę tych jednostek. Wadą SA jest wrażliwość na przypadki odstające. Wartości badanej cechy oznaczymy przez: x 1, x 2, x 3,, x n, SA szeregu statystycznego wyznaczymy z poniższego wzoru: x= x 1 x 2 x 3 x n n = n i=1 n x i

Średnia arytmetyczna przykład Dwóch pedagogów bada uczniów. Przeprowadzono obserwację czasu trwania tych badań w minutach i zanotowano następujące wyniki: Dla pedagoga A: 12, 15, 15, 18, 20 Dla pedagoga B: 10, 10, 12, 12, 15, 15, 18, 20, 21, 21 Korzystając ze wzoru uzyskujemy: x A = 12 15 15 18 20 5 = 80 5 =16 min x B = 10 10 12 12 15 15 18 20 21 21 10 = 154 10 =15,4 min

Średnia geometryczna (SG) Jest pierwiastkiem n-tego stopnia z iloczynu n wartości zmiennej. Jest właściwą charakterystyką centralnego skupienia: gdy wartości jednostek zbiorowości statystycznej mają charakter miar względnych. gdy zjawisko wykazuje wyraźną asymetrię, gdy brak ważkich argumentów dla pominięcia wartości ekstremalnych. Jest wykorzystywana do opisywania średniego tempa zmian zjawisk. x G = n x 1 x 2 x n = n n i=1 x i

Średnia geometryczna przykład W ciągu trzech kolejnych lat liczba dzieci przyjętych do przedszkoli wynosiła odpowiednio: 500, 750, 825. Jaki był średni względny przyrost liczby nowych wychowanków? Uwaga: wartości cechy statystycznej w tym zadaniu to przyrosty liczby wychowanków w kolejnych latach, tzn.: x 1 = 750 500 =1,5 x 2 = 825 750 =1,1 x G = 1,5 1,1=1, 28 Gdyby w tym przykładzie zastosować średnią arytmetyczną (1,5+1,1) 2=1,3, to wynikałoby z tego, że w 3-cim roku, powinno być 500 1,3 1,3=845 nowych wychowanków.

Średnia harmoniczna (SH) Jest odwrotnością średniej arytmetycznej z odwrotności wartości zmiennych. Jest stosowana zdecydowanie rzadziej niż arytmetyczna. Konieczność jej użycia zachodzi, gdy wartości cechy statystycznej podawane są w przeliczeniu na stałą jednostkę innej zmiennej, np. prędkość w km/h, gęstość zaludnienia w osobach/km 2, spożycie w kg/osobę, itp. W przypadku szeregów szczegółowych SH obliczamy według wzoru: x H = n n i=1 1 x i

Średnia harmoniczna przykład W ciągu 8 godzin pracy w zakładzie poprawczym obserwowano pracę trzech wychowawców. Na wykonanie obowiązków związanych z jednym wychowankiem wychowawca A potrzebował 4 min, wychowawca B 6 min, a wychowawca C 12 min. Jaki jest średni czas zużywany na jednego wychowanka? x H = 3 1 4 1 6 1 12 =6 min/osobę Średnia arytmetyczna wynosi w tym przypadku 7.3 min/osobę, przy takim tempie pracy, trzech wychowawców w ciągu zmiany (8 godzin) zbadałoby 3 480 7,333=196 osób. W rzeczywistości wychowawca A mógłby zbadać 480 4=120 wychowanków, wychowawca B 480 6=80, a wychowawca C 480 12=40, co daje łącznie 120+80+40=240 wychowanków.

Wartość modalna (dominanta) Jest to wartość cechy, która najczęściej (najliczniej) występuje w badanej zbiorowości statystycznej. Można, stwierdzić, że jest to wartość typowa dla tej zbiorowości. Wartość modalną przedstawiać będziemy następująco: D = x d, gdzie x d wartość i-tej cechy, dla której n i = max. Wartość modalna, jako miara pozycyjna, jest odporna na występowanie przypadków odstających.

Mediana albo wartość środkowa (1) Jest to wartość cechy, która rozdziela zbiorowość na dwie równe części, zajmując środkową pozycję w szeregu statystycznym. Sposób wyznaczania wartości mediany Me uzależniony jest od wielu czynników, a do najważniejszych należy zaliczyć: liczbę elementów szeregu (parzysta czy nieparzysta), typ szeregu (szereg szczegółowy czy rozdzielczy).

Mediana albo wartość środkowa (2) Gdy n jest nieparzyste Gdy n jest parzyste M e =x n 1 2 P Me = n 1 2 M e = x n x n 2 2 1 2 P Me = n 2

Kwantyle Mediana informuje, poniżej i powyżej jakiej wartości cechy znajduje się 50% zbiorowości. Można podzielić zbiorowość na większą liczbę części. Wartości ustalające podział nazywamy kwantylami. Najczęściej stosowane są: kwartyle dzielą szereg statystyczny na 4 części, decyle dzielą szereg statystyczny na 10 części, centyle dzielą szereg statystyczny na 100 części.

Kwartyle Kwartyl pierwszy (Q1) dzieli zbiorowość na dwie części tak, że 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu, a 75% równe bądź wyższe. Kwartyl drugi jest to mediana (Me). Kwartyl trzeci (Q3) dzieli zbiorowość na dwie części tak, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi trzeciemu, a 25% równe bądź wyższe. Kwartyle wyznacza się w sposób analogiczny do mediany.

Decyle

Centyle Centyle stosowane są dla prób o dużej liczebności. Centyl 50 odpowiada medianie, a centyle 25 i 75 to odpowiednio kwartyle Q1 i Q3. Centyle są często stosowane do odnoszenie różnych pomiarów antropometrycznych u badanego dziecka do ogółu populacji dzieci. Siatki centylowe są to wykresy na których zaznaczono kilka wybranych centyli (zwykle 3, 10, 25, 50, 75, 90 i 97) w zależności od wieku dla wybranego parametru antropometrycznego.

Siatki centylowe (1) Siatki centylowe wskaźnika względnej masy ciała (BMI) chłopców i dziewcząt warszawskich (opr. I. Palczewska, Z. Niedźwiecka, 1999 r.)

Siatki centylowe (2) Siatka centylowa wzrostu u chłopców Przykładowe zadanie: Ocenić wzrost 10 letniego chłopca, mierzącego 130 cm.

Ocena rozproszenia populacji Rozrzut wartości cechy statystycznej wokół wartości przeciętnej opisują miary zmienności. Miary zmienności charakteryzują stopień zróżnicowania elementów zbiorowości pod względem badanej cechy: Miary klasyczne ich wartość jest wyznaczana w oparciu o wszystkie obserwacje są to wariancja, odchylenie standardowe, odchylenie przeciętne, współczynnik zmienności. Miary pozycyjne na ich wartość wpływają tylko wybrane obserwacje z próby uporządkowanej są to rozstęp, odchylenie ćwiartkowe, współczynniki zmienności.

Wariancja Jest to średnia arytmetyczna kwadratów odchyleń poszczególnych obserwacji od średniej arytmetycznej zbiorowości. Nie jest wyrażona w jednostkach cechy, ale w jednostkach podniesionych do kwadratu. Jest wskaźnikiem "rozrzutu" wartości zmiennej losowej wokół jej wartości oczekiwanej średniej. n i=1 s 2 = x 1 x 2 x 2 x 2... x n x 2 n = x i x 2 n

Odchylenie standardowe Jest pierwiastkiem kwadratowym wariancji. Jest miarą zmienności o jednostce zgodnej z mianem badanej cechy statystycznej. Określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej. s= x 1 x 2 x 2 x 2... x n x 2 n = n i=1 x i x 2 n

Typowy obszar zmienności populacji Określamy, znając średnią arytmetyczną i odchylenie standardowe próby: ( x s)<x typowe ( x+s) W tym zakresie mieszczą się około 2/3 (dokładniej 68%) wszystkich elementów badanej zbiorowości statystycznej: Poza przedział ± jednego odchylenia standardowego od średniej wykracza około 32% obserwacji. Poza przedział ± dwóch odchyleń standardowych tylko około 5% obserwacji. Prawdopodobieństwo, wystąpienia obserwacji spoza przedziału ± trzech odchyleń standardowych od średniej jest uważane za znikome, bo wynosi około 0,3%.

Odchylenie przeciętne Jest to średnia arytmetyczna bezwzględnych odchyleń wartości cechy od jej średniej arytmetycznej. Jest miarą rzadziej stosowaną w analizach statystycznych niż odchylenie standardowe. Odchylenie przeciętne jest zawsze mniejsze od odchylenia standardowego, policzonego dla tego samego szeregu. d= x 1 x x 2 x... x n x n = i=1 n x i x n

Cd. przykładu ze slajdu 6 Wariancja czasu badania ucznia przez pedagogów A i B wynosi: s 2 A = 12 16 2 15 16 2 15 16 2 18 16 2 20 16 2 5 16 1 1 4 16 = 38 5 5 =7,6min2 s A = 7,6=2,76min s 2 B =17,24min 2 s B = 17,24=4,15min = Więc, typowy obszar zmienności wynosi: dla pedagoga A: 16±2,76 min (13,24 min; 18,76 min) dla pedagoga B: 15,4±4,15 min (11,25 min; 19,55 min)

Rozstęp Jest to różnica między najwyższą i najniższą zaobserwowaną wartością cechy statystycznej: R = x max x min. Jest najprostszą miarą zmienności. Opisuje empiryczny obszar zmienności badanej cechy, nie dając informacji o zróżnicowaniu poszczególnych wartości cechy w całej zbiorowości. Zależy od jednostkowych przypadków ekstremalnych, a nie od zróżnicowania typowych obserwacji przeważających w zbiorowości.

Odchylenie ćwiartkowe Jest to połową różnicy między trzecim, a pierwszym kwartylem: Q= Q 3 Q 1 2 Jest miarą zmienności najczęściej używaną w parze z medianą. Mierzy poziom zróżnicowania 50% elementów, pozostałych po odrzuceniu wartości najmniejszych (25%) i największych (25%). Typowy obszar zmienności przez kwartyli wyrażamy tak: (Q 1 < x typ < Q 3 )

Współczynniki zmienności Jest to iloraz bezwzględnej miary zmienności cechy i przeciętnej wartości tej cechy (V x i V Me ). Stosuje się do oceny zróżnicowania kilku zbiorowości pod względem tej samej cechy, ewentualnie tej samej zbiorowości pod względem kilku cech. Jest wielkością niemianowaną. Wartości współczynników podaje się z reguły w procentach. Jest przyjęte, że zbiorowość uważa się za niejednorodną, gdy współczynnik zmienności jest większy niż 10%.

Miary asymetrii zbiorowości Porównanie średniego poziomu cechy i jej rozproszenia nie zawsze wykazuje różnic między badanymi zbiorowościami. Rozkłady mogą być symetryczne lub asymetryczne (prawostronnie lub lewostronnie) przy tym samym rozproszeniu.

Miary asymetrii zbiorowości Asymetrię można ocenić porównując różnice pomiędzy średnią arytmetyczną, a medianą lub modalną. Asymetria prawostronna: Asymetria lewostronna: x >Me>Mo x <Me<Mo Współczynnik asymetrii (wskaźnik skośności) przyjmuje wartość 0 przy braku asymetrii, wartości dodatnie przy asymetrii prawostronnej, a wartości ujemne przy asymetrii lewostronnej: W s =( x Mo) A s = Q 3 Me Me Q 1

Klasyczny współczynnik asymetrii a 3 = n i=1 x i x 3 = x 1 x 3 x 2 x 3... x n x 3 s 3 n s 3 n