Statystyczne metody analizy danych



Podobne dokumenty
POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Statystyczne metody analizy danych

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka. Opisowa analiza zjawisk masowych

1 Podstawy rachunku prawdopodobieństwa

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

W1. Wprowadzenie. Statystyka opisowa

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Próba własności i parametry

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Miary statystyczne w badaniach pedagogicznych

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Statystyka Matematyczna Anna Janicka

Parametry statystyczne

Wykład 5: Statystyki opisowe (część 2)

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Analiza struktury i przeciętnego poziomu cechy

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Opisowa analiza struktury zjawisk statystycznych

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Pozyskiwanie wiedzy z danych

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ćwiczenia 1-2 Analiza rozkładu empirycznego

4.2. Statystyczne opracowanie zebranego materiału

Miary asymetrii STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Analiza zróżnicowania, asymetrii i koncentracji

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Zadania ze statystyki, cz.6

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Wykład 4: Statystyki opisowe (część 1)

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

Statystyka matematyczna i ekonometria

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

ANALIZA KORELACJI I REGRESJI

Statystyka w pracy badawczej nauczyciela

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Analiza współzależności zjawisk

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

PDF created with FinePrint pdffactory Pro trial version

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

99 wybranych pytań ze statystyki i odpowiedzi na nie

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Rachunek prawdopodobieństwa i statystyka

Biostatystyka, # 1 /Weterynaria I/

Analiza statystyczna w naukach przyrodniczych

Miary w szeregach. 1 Miary klasyczne. 1.1 Średnia Średnia arytmetyczna

Analiza współzależności dwóch cech I

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Podstawowe pojęcia statystyczne

Wprowadzenie do analizy korelacji i regresji

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

Estymacja punktowa i przedziałowa

Transkrypt:

Statystyczne metody analizy danych Statystyka opisowa Wykład I-III Agnieszka Nowak - Brzezioska

Podstawowe pojęcia STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych. BADANIE STATYSTYCZNE - ogół prac mających na celu poznanie struktury określonej zbiorowości statystycznej. ZBIOROWOŚD (POPULACJA) STATYSTYCZNA zbiór dowolnych elementów (osób, przedmiotów, faktów) podobnych pod względem określonych cech (ale nie identycznych) poddanych badaniu statystycznemu. JEDNOSTKA STATYSTYCZNA - składowe (elementy) zbiorowości (obiekty badania), które podlegają bezpośredniej obserwacji lub pomiarowi.

n - oznaczenie liczby jednostek statystycznych w populacji ZBIOROWOŚD (POPULACJA) GENERALNA wszystkie elementy będące przedmiotem badania, co do których chcemy formułowad wnioski ogólne. ZBIOROWOŚD PRÓBNA (PRÓBA) - podzbiór populacji generalnej; wyniki badao próby są uogólniane na zbiorowośd generalną. Próba musi byd reprezentatywna. Reprezentatywnośd zależy od: sposobu wyboru jednostek (celowy, losowy) oraz liczebności próby. n>30 - duża próba n 30 - mała próba

Populacja a próba Z oczywistych powodów nie jesteśmy w stanie opisad całej tej populacji. Musimy się zatem posłużyd podzbiorem populacji generalnej - pobraną wcześniej próbą. Na podstawie analizy tej próby będziemy jednak chcieli wyciągad wnioski na temat całej populacji. Aby to było możliwe należało na wstępie zadbad aby pobrana populacja w sposób możliwie reprezentatywny opisywała populację generalną.

Populacja a próba Do oceny i opisu populacji próby można posłużyd się samymi danymi ale jest to niewygodne. Z reguły badacz wykorzystuje różnorodne syntetyczne wskaźniki (statystyki) mające ilustrowad badaną populację. Gdy opisujemy jakąś skooczoną populację np. wzrost uczniów z klasy IIA (populacja generalna o skooczonej liczbie elementów) mówimy o statystykach z populacji. W przypadku gdy opisujemy jedynie wycinek jakiejś większej, najczęściej niepoliczalnej populacji generalnej, mówimy o statystyce z próby.

Estymacja, estymator Chcemy zatem wyznaczyd wartośd pewnej charakterystyki danych populacji na podstawie próby. Wyniki obliczane na próbie chcemy rozciągnąd na populację i wnioskowad o populacji. Opisywana zależnośd nosi nazwę estymacji. Poszczególne statystyki obliczane z próby takie jak np. średnia arytmetyczna z próby jest więc tylko przybliżeniem wartości przeciętnej z populacji m. W związku z tym są nazywane estymatorami.

SZEREGI STATYSTYCZNE SZEREGI STATYSTYCZNE odpowiednio usystematyzowany i uporządkowany surowy materiał statystyczny. Szeregi statystyczne dzielimy na szeregi: szczegółowe rozdzielcze (punktowe, przedziałowe) czasowe (momentów, okresów)

PRZYKŁAD 1 (szereg szczegółowy i szereg rozdzielczy)

SZEREG ROZDZIELCZY PUNKTOWY

WSKAŹNIK STRUKTURY (w i ) Wskaźnik struktury (inaczej częstośd) nazywany jest też: liczebnością względną, frakcją, odsetkiem. Wylicza się go następująco: Kolumna liczb { wi } nazywana jest rozkładem empirycznym (liczby usterek).

SKUMULOWANY WSKAŹNIK STRUKTURY (w i sk ) Skumulowany wskaźnik struktury (inaczej: częstośd skumulowana). Wylicza się go następująco: Kolumna liczb { w i sk } nazywana jest dystrybuantą empiryczną (liczby usterek).

ZALECENIA przy grupowaniu w szereg rozdzielczy przedziałowy

szereg rozdzielczy przedziałowy - przykład Przedmiotem badania jest czas dojazdu do pracy w dwóch firmach: X i Y.

Czas dojazdu pracowników firmy X [w minutach]

Czas dojazdu pracowników firmy Y [w minutach]

Pogrupuj dane w szeregi rozdzielcze następującej postaci : X Y

WSKAŹNIK PODOBIEOSTWA STRUKTUR Wskaźnik podobieostwa struktur (w p ) jest najprostszą miarą statystyczną pozwalającą ocenid podobieostwo kształtowania się badanej cechy w dwóch różnych zbiorowościach. Wyliczamy go następująco:

X Y

PREZENTACJA GRAFICZNA SZEREGOW STATYSTYCZNYCH HISTOGRAM - wykres słupkowy DIAGRAM - wykres liniowy Oba typy wykresów mogą byd sporządzane w wariantach dla: liczebności liczebności skumulowanej częstości częstości skumulowanej

Dla wzrokowego porównania rozkładu badanej cechy w dwóch (lub więcej) zbiorowościach używamy wyłącznie wykresów częstościowych. Dla firmy X wykonad je samodzielnie w domu. O innych typach wykresów poczytad samodzielnie we wskazanych wcześniej rozdziałach.

Histogram i diagram częstości dla czasu dojazdu pracowników firmy Y

Histogram i diagram częstości skumulowanej dla czasu dojazdu pracowników firmy Y

Diagramy częstości dla czasu dojazdu pracowników firm X i Y X Y

Statystyka opisowa to: Miary można podzielid na kilka podstawowych kategorii: miary położenia, np. kwantyl oraz miary tendencji centralnej (np. średnia arytmetyczna, średnia geometryczna, średnia harmoniczna, średnia kwadratowa, mediana, moda ) miary zróżnicowania np. (odchylenie standardowe, wariancja, rozstęp, rozstęp dwiartkowy, średnie odchylenie bezwzględne, odchylenie dwiartkowe, współczynnik zmienności ) miary asymetrii (np. współczynnik skośności, współczynnik asymetrii, trzeci moment centralny ) miary koncentracji (np. współczynnik Giniego, kurtoza )

Średnia arytmetyczna Średnią arytmetyczną - definiuje się jako sumę wartości cechy mierzalnej podzieloną przez liczbę jednostek skooczonej zbiorowości statystycznej. gdzie: n - liczebnośd zbiorowości próbnej (próby), x i - wariant cechy.

Y Należy pamiętad, że przy pogrupowaniu danych źródłowych w szereg rozdzielczy przedziałowy następuje pewna utrata informacji. Jeżeli policzymy średnią dla szeregu szczegółowego lub szeregu rozdzielczego punktowego, to wynik będzie dokładny i taki sam. Dla danych w postaci szeregu rozdzielczego przedziałowego średnia będzie już przybliżeniem. Tym większym, im szersze są przedziały klasowe, im jest ich mniej, itd.

Ważniejsze własności ŚREDNIEJ arytmetycznej

Moda Modalna (dominanta D, moda, wartość najczęstsza) - jest to wartośd cechy statystycznej, która w danym rozdziale empirycznym występuje najczęściej. Dla szeregów szczegółowych oraz szeregów rozdzielczych punktowych modalna odpowiada wartości cechy o największej liczebności (częstości). W szeregach rozdzielczych z przedziałami klasowymi bezpośrednio można określid tylko przedział, w którym modalna występuje, jej przybliżoną wartośd wyznacza się graficznie z histogramu liczebności (częstości) lub ze wzoru interpolacyjnego: gdzie: m - numer przedziału (klasy), w którym występuje modalna, - dolna granica przedziału, w którym występuje modalna, n m - liczebność przedziału modalnej, tzn. klasy o numerze m, n m-1 ; n m+1 - liczebność klas poprzedzającej i następnej, o numerach m -1 i m + 1, h m - rozpiętość przedziału klasowego, w którym występuje modalna.

Modalna (Mo) zwana też dominantą (D) jest to wartośd cechy, która występuje najczęściej w badanej zbiorowości.

Y Y

Y Y

Y

Modalna możemy wyznaczyd graficznie tak jak to pokazano na rysunku

Modalną wyznaczamy i sensownie interpretujemy tylko wtedy, gdy dane są pogrupowane w szereg rozdzielczy (punktowy lub przedziałowy). 2. Liczebnośd populacji powinna byd dostatecznie duża. 3. Diagram lub histogram liczebności (częstości) ma wyraźnie zaznaczone jedno maksimum (rozkład jednomodalny). 4. Dla danych pogrupowanych w szereg rozdzielczy przedziałowy modalna nie występuje w skrajnych przedziałach (pierwszym lub ostatnim) - przypadek skrajnej asymetrii. Nie da się w takim przypadku analitycznie wyznaczyd modalnej. 5. Dla danych pogrupowanych w szereg rozdzielczy przedziałowy przedział modalnej oraz dwa sąsiednie przedziały (poprzedzający i następujący po przedziale modalnej) powinny mied taką samą rozpiętośd.

Miary pozycyjne Kwantyle - definiuje się jako wartości cechy badanej zbiorowości, przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowośd na określone części pod względem liczby jednostek, części te pozostają do siebie w określonych proporcjach. Kwartyl pierwszy Q 1 dzieli zbiorowośd na dwie części w ten sposób, że 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q 1, a 75% równe bądź wyższe od tego kwartyla. Kwartyl drugi (mediana Me) dzieli zbiorowośd na dwie równe części; połowa jednostek ma wartości cechy mniejsze lub równe medianie, a połowa wartości cechy równe lub większe od Me; stąd nazwa wartość środkowa. Kwartyl trzeci Q 3 dzieli zbiorowośd na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q 3, a 25% równe bądź wyższe od tego kwartyla. Decyle np. decyl pierwszy oznacza, że 10% jednostek ma wartości cechy mniejsze bądź równe od decyla pierwszego, a 90% jednostek wartości cechy równe lub większe od decyla pierwszego.

Kwartyle to takie wartości cechy X, które dzielą zbiorowośd na cztery równe części pod względem liczebności (lub częstości). Części te pozostają w określonych proporcjach do siebie. Aby dokonywad takiego podziału zbiorowośd musi byd uporządkowana według rosnących wartości cechy X. Każdy kwartyl dzieli zbiorowośd na dwie części, które pozostają do siebie w następujących proporcjach. I tak: kwartyl 1 (QI) - 25% z lewej i 75% populacji z prawej strony kwartyla, kwartyl 2 (QII) - 50% z lewej i 50% populacji z prawej strony kwartyla, kwartyl 3 (QIII) - 75% z lewej i 25% populacji z prawej strony kwartyla.

Mediana Mediana (Me) - wartośd środkowa, inaczej: kwartyl 2 (QII). Jest to taka wartośd cechy X, która dzieli zbiorowośd na dwie równe części, tj. połowa zbiorowości charakteryzuje się wartością cechy X mniejszą lub równą medianie, a druga połowa większą lub równą. Mediana dla szeregu szczegółowego Szereg musi byd posortowany rosnąco!!! Wartośd mediany wyznacza się inaczej gdy liczebnośd populacji (n) jest nieparzysta, a inaczej gdy jest parzysta.

Y Y

Y Y

Kwartyl pierwszy i trzeci Dla szeregu szczegółowego kwartyl pierwszy i trzeci wyznacza się w ten sposób, że w dwóch częściach zbiorowości, które powstały po wyznaczeniu mediany, ponownie wyznacza się medianę; mediana w pierwszej części odpowiada kwartylowi pierwszemu, a w drugiej kwartylowi trzeciemu. Dla szeregu rozdzielczego wyznaczenie kwartyli poprzedza się ustaleniem ich pozycji:

gdzie: m - numer przedziału (klasy), w którym występuje odpowiadający mu kwartyl, - dolna granica tego przedziału, n m - liczebnośd przedziału, w którym występuje odpowiedni kwartyl, - liczebnośd skumulowana do przedziału poprzedzającego kwartyl, h m - rozpiętośd przedziału klasowego, w którym jest odpowiedni kwartyl.

Miary zmienności (rozproszenia, dyspersji) Miary klasyczne wariancja odchylenie standardowe odchylenie przeciętne współczynnik zmienności Miary pozycyjne rozstęp odchylenie dwiartkowe współczynnik zmienności

Miary KLASYCZNE Wariancja, odchylenie standardowe, odchylenie przeciętne, współczynnik zmienności (klasyczny) Wariancję (s 2 ) definiuje się jako średnią arytmetyczną kwadratów odchyleo wartości cechy od średniej arytmetycznej zbiorowości. Wariancja jest wielkością mianowaną w kwadracie miana badanej cechy i nie interpretujemy jej. Odchylenie standardowe (s) jest pierwiastkiem kwadratowym z wariancji. Jest ono wielkością mianowaną tak samo jak badana cecha. Odchylenie standardowe określa przeciętne zróżnicowanie badanej cechy od średniej arytmetycznej. Odchylenie przeciętne (d) jest średnią arytmetyczną bezwzględnych odchyleo wartości cechy od jej średniej arytmetycznej. Jest ono wielkością mianowaną tak samo jak badana cecha. Odchylenie przeciętne interpretujemy podobnie jak odchylenie standardowe. Współczynnik zmienności (klasyczny) (Vs lub Vd) jest to iloraz odchylenia standardowego (lub przeciętnego) przez średnia arytmetyczną. Jest to wielkośd niemianowana. Używamy go do porównao zmienności w dwu lub więcej zbiorowościach.

Ocena rozproszenia na podstawie obserwacji diagramów Na rysunku pokazano dwa diagramy częstości (1) i (2). Dla uproszczenia miary położenia (średnia, mediana i modalna) są sobie równe i identyczne dla obu zbiorowości. Mniejsze rozproszenie wokół średniej występuje w zbiorowości (1). Diagram jest smuklejszy i wyższy. Większe rozproszenie wokół średniej występuje w zbiorowości (2). Diagram jest bardziej rozłożysty i niższy. Odchylenie standardowe w zbiorowości (1) jest mniejsze niż w zbiorowości (2) s1 < s2

Przedział TYPOWYCH wartości cechy (miary klasyczne) Przedział taki ma tą własnośd, że około70% jednostek badanej zbiorowości charakteryzuje się wartością cechy należącą do tego przedziału.

Reguła 3 sigma

Dla szeregów szczegółowych

przykład Weźmy dane o liczbie braków: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4 Jak pamiętamy: n=50

Dla szeregów rozdzielczych punktowych

Dla szeregów rozdzielczych przedziałowych

czas dojazdu pracowników firmy Y

Rozstęp Najprostszą i najbardziej intuicyjną miarą zmienności przypadków w populacji próby jest rozstęp. Rozstęp - różnica pomiędzy wartością maksymalną, a minimalną cechy - jest miarą charakteryzującą empiryczny obszar zmienności badanej cechy. W związku z tym, że przy jego obliczeniu ignoruje się wszystkie dane (za wyjątkiem dwóch wartości - minimalnej i maksymalnej), nie daje on jednak informacji o zróżnicowaniu poszczególnych wartości cechy w zbiorowości.

Dla szeregów szczegółowych Weźmy dane z (liczba braków): 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,2, 2, 2, 2, 3, 3, 3, 3, 4, 4

Inny przykład Weźmy dane z innego przykładu 10, 10, 10, 12, 12, 12, 12, 13, 13, 13, 13, 13, 14, 14, 15, 15, 15

Dla szeregów rozdzielczych punktowych

Dla szeregów rozdzielczych przedziałowych

Wariancja Rozstęp możemy uznad jedynie za wstępną miarę zmienności w populacji próby. Zresztą przyjrzyjmy się takiemu przykładowi: Dwa obszary charakteryzują się identycznymi wartościami średnimi badanego parametru i identycznymi wartościami minimalnymi i maksymalnymi, a co za tym idzie identycznymi rozstępami. Jednak już na pierwszy rzut oka widad, że rozrzuty danych wokół wartości przeciętnej w obu przypadkach są skrajnie różne. W obszarze A dane są znacznie bardziej skumulowane przy wartości średniej niż w obszarze B.

Wariancja Wariancja - jest to średnia arytmetyczna kwadratów odchyleo poszczególnych wartości cechy od średniej arytmetycznej zbiorowości. szereg szczegółowy szereg rozdzielczy punktowy szereg rozdzielczy z przedziałami klasowymi Wykonując proste przekształcenia algebraiczne, otrzymamy: szereg szczegółowy szereg rozdzielczy

Odchylenie standardowe Odchylenie standardowe s - jest to pierwiastek kwadratowy z wariancji. Stanowi miarę zróżnicowania o mianie zgodnym z mianem badanej cechy, określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej. Typowy obszar zmienności cechy - około 2/3 wszystkich jednostek badanej zbiorowości statystycznej posiada wartości cechy w tym przedziale:

Odchylenie przeciętne Odchylenie przeciętne d - jest to średnia arytmetyczna bezwzględnych odchyleo wartości cechy od średniej arytmetycznej. Określa o ile jednostki danej zbiorowości różnią się średnio, ze względu na wartośd cechy, od średniej arytmetycznej. Pomiędzy odchyleniem przeciętnym i standardowym, dla tego samego szeregu, zachodzi relacja: d < s.

Odchylenie ćwiartkowe Q jest to parametr określający odchylenie wartości cechy od mediany. Mierzy poziom zróżnicowania tylko części jednostek; po odrzuceniu 25% jednostek o wartościach najmniejszych i 25% jednostek o wartościach największych. Typowy obszar zmienności cechy:

Miary asymetrii wskaźnik skośności współczynnik skośności

Rozkłady różnią się między sobą kierunkiem i siła asymetrii (miary klasyczne): dla szeregów symetrycznych jeżeli asymetria prawostronna jeżeli asymetria lewostronna. Wskaźnik skośności - jest to wielkośd bezwzględna wyrażona jako różnica między średnią arytmetyczną, a modalną.

Współczynniki skośności (asymetrii) są stosowane w porównaniach, do określenia siły oraz kierunku asymetrii, są to liczby niemianowane, im większa ich wartośd tym silniejsza asymetria. Pozycyjny współczynnik asymetrii określa kierunek i siłę asymetrii jednostek znajdujących się miedzy pierwszym z trzecim kwartylem.

Miary koncentracji współczynnik skupienia (koncentracji)(kurtoza) współczynnik koncentracji Lorenza

kurtoza Współczynnik skupienia (koncentracji) (kurtoza) K- jest miarą skupienia poszczególnych obserwacji wokół średniej. Im wyższa wartośd współczynnika tym bardziej wysmukła krzywa liczebności, większa koncentracja wartości cech wokół średniej.

Jeżeli przyjmiemy, że zbiorowośd ma: rozkład normalny, to: K = 3, rozkład bardziej spłaszczony od normalnego, to: K < 3, rozkład bardziej wysmukły od normalnego, to: K > 3. Stąd:

Analiza korelacji

Zależności korelacyjne Badając różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodniczne itp. stwierdzamy niemal zawsze, że każde z nich jest uwarunkowane działaniem innych zjawisk Istnienie związków pomiędzy zjawiskami charakteryzującymi badane zbiorowości bywa często przedmiotem dociekao i eksperymentów naukowych. Przykład: David Buss w publikacji z 2001 roku pt. Psychologia ewolucyjna. Jak wytłumaczyd społeczne zachowania człowieka?, opisał badanie, w którym sprawdzał, czy istnieje związek między szybkością chodzenia a pozycją społeczną. Okazało się, że związek ten jest dośd wyraźny wśród mężczyzn, natomiast w mniejszym stopniu wśród kobiet.

Inny przykład: Allison i Cicchetti w pracy Sleep in mammals (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. następujące charakterystyki: długośd snu w ciągu doby (godz/dobę), maksymalna długości życia (lata), masa ciała (kg), masa mózgu (g), czas trwania ciąży (dni). Cel badania: Ustalenie, czy istnieją jakiekolwiek zależności pomiędzy wymienionymi charakterystykami, a jeśli tak, to jaka jest siła tych zależności.

Kolejny przykład: Związek pomiędzy wagą a wzrostem człowieka próbuje się wyrazid za pomocą tzw. wskaźnika BMI (Body Mass Index): Przyjmuje się, że wartośd BMI dla osób z prawidłową masą ciała zawiera się mniej więcej w przedziale 18; 5 BMI < 25. Jednak BMI kształtuje się na poziomie indywidualnym dla konkretnych osób i może znacznie przekraczad wartośd 25. Przykład ten wskazuje, że zależnośd między wagą a wzrostem nie jest ściśle funkcyjna. Podana formuła opisuje tylko w przybliżeniu te zależności.

Przy analizie współzależności pomiędzy wzrostem i wagą, nie oczekujemy, aby zależnośd ta była ściśle funkcyjna, tzn. aby istniała jednoznacznie określona funkcja matematyczna y = f (x), podająca wagę y konkretnej osoby z ustalonym wzrostem x. Mimo tego wydaje się, że jakaś zależnośd pomiędzy wagą i wzrostem istnieje. Obserwując obie cechy w dużej zbiorowości osób, dojdziemy do przekonania, że średnia waga jest większa w grupie osób wyższych i na odwrót. Związek między wagą i wzrostem jest przykładem tzw. związku korelacyjnego, w skrócie korelacji. Z korelacją mamy do czynienia wtedy, gdy wraz ze zmianą wartości jednej cechy zmienia się średnia wartośd drugiej cechy.

Związek korelacyjny można odkryd obserwując dużą liczbę przypadków. Nie ujawnia się w pojedynczych obserwacjach. Zależnośd korelacyjna może byd prostoliniowa (w skrócie liniowa) lub krzywoliniowa, silna lub słaba. Na podstawie obserwacji wykresu rozproszenia możemy w przybliżeniu ocenid charakter zależności i jej siłę. Potrzebujemy miary, która pomogłaby wyrazid siłę zależności w sposób liczbowy.

Załóżmy, że między cechami X i Y występuje zależnośd korelacyjna o charakterze liniowym. Współczynnikiem służącym do pomiaru siły tego związku jest współczynnik korelacji liniowej Pearsona określony wzorem gdzie x; y oznaczają średnie arytmetyczne, natomiast sx ; sy odchylenia standardowe zmiennych odpowiednio X i Y.

Współczynnik r korelacji liniowej Pearsona Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [-1; 1]. Znak współczynnika informuje o kierunku korelacji (liniowa ujemna lub liniowa dodatnia). Wartośd bezwzględna r informuje o sile korelacji liniowej. W szczególnym przypadku, gdy r =1, wówczas mamy do czynienia z korelacją funkcyjną (tzn. zależnośd Y od X można wyrazid za pomocą funkcji Y = ax + b, gdzie a; b są pewnymi stałymi). Współczynnik r mierzy tylko korelację o charakterze prostoliniowym. Gdy r = 0, wówczas mówimy, że nie ma korelacji liniowej (ale może byd krzywoliniowa).

Wyniki badao ssaków Kilka wybranych uwag podsumowania: wszystkie cechy są ze sobą wzajemnie powiązane (w mniejszym lub większym stopniu), można zauważyd silną, dodatnią korelację liniową między masą mózgu i ciała, umiarkowana, ujemna korelacja liniowa między czasem snu a czasem życia, dośd silna korelacja (dodatnia lub ujemna) czasu ciąży z innymi zmiennymi, Pytanie: Jak opisad zależnośd np. czasu ciąży od wszystkich pozostałych zmiennych jednocześnie? Odpowiedzi dostarcza analiza regresji.

współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest, określony wzorem gdzie Własności: Współczynnik r S przyjmuje wartości z przedziału [-1; 1]. Wartośd r S = 1 oznacza, że istnieje całkowita zgodnośd uporządkowao wg rang a i i b i. Wartośd r S = -1 oznacza z kolei pełną przeciwstawnośd uporządkowao między rangami. Wartośd r S = 0 oznacza brak korelacji rang.

przykład Przypuśdmy, że porządkujemy 4 studentów w zależności od stopnia ich zdolności matematycznych, zaczynając od studenta najlepszego, któremu przydzielamy numer 1, a koocząc na studencie najsłabszym, któremu przydzielamy numer 4 (ocenę zdolności powierzamy np. ekspertowi) Mówimy wówczas, że studenci zostali uporządkowani w kolejności rang, a numer studenta jest jego rangą. Oznaczmy rangi poszczególnych studentów przez a i. Przykładowo, niech: a1 = 4; a2 = 2; a3 = 3; a4 = 1; co oznacza, że w badanej grupie, ustawionej w kolejności alfabetycznej, pierwszy student (oznaczmy go umownie literą A) jest najsłabszy, student B dobry, student C słaby, a student D najlepszy.

Załóżmy, że w podobny sposób uporządkowaliśmy tych samych studentów z punktu widzenia ich zdolności muzycznych. Niech b i będą rangami poszczególnych studentów: b1 = 2; b2 = 1; b3 = 3; b4 = 4 W ten sposób każdemu studentowi przyporządkowaliśmy po dwie rangi a i oraz b i. Pytanie: Jak na tej podstawie możemy ocenid, czy istnieje zależnośd między zdolnościami matematycznymi oraz muzycznymi w badanej grupie. Innymi słowy, jak ocenid stopie o zgodności (lub niezgodności) rang a i ; b i? Uwaga: W przypadku danych rangowych nie możemy zastosowad współczynnika korelacji Pearsona

korelacyjny wykres rozrzutu (korelogram) rodzaje zależności (brak, nieliniowa, liniowa) pomiar siły zależności liniowej (współczynnik korelacji Pearsona, współczynnik korelacji rang Spearmana) liniowa funkcja regresji

Badamy jednostki statystyczne pod katem dwóch różnych cech - cechy X oraz cechy Y. Pytanie jakie sobie stawiamy to: czy istnieje zależnośd pomiędzy cecha X i cecha Y? Jeżeli taka zależnośd istnieje, to poszukujemy odpowiedzi na kolejne pytania: jaki jest charakter tej zależności oraz jaka jest jej siła?

Zależnośd korelacyjna pomiędzy cechami X i Y charakteryzuje sie tym, że wartościom jednej cechy są przyporządkowane ściśle określone wartości średnie drugiej cechy.

Jeżeli otrzymamy bezładny zbiór punktów, który nie przypomina kształtem wykresu znanego związku funkcyjnego, to powiemy że pomiędzy cechami X i Y nie ma zależności. Gdy smuga punktów układa sie w kształt paraboli, powiemy, że istnieje zależnośd pomiędzy cechami X i Y i jest to związek nieliniowy; zależnośd nieliniowa. Gdy smuga punktów układa sie wzdłuż linii prostej, powiemy, że istnieje zależnośd pomiędzy cechami X i Y i jest to związek liniowy; zależnośd liniowa.

Pomiar KIERUNKU i SIŁY zależności liniowej. Szeregi szczegółowe Współczynnik korelacji (Pearsona) r xy obliczamy dla cech ilościowych wg następującego wzoru: gdzie: C(X,Y) kowariancja pomiędzy cechami X i Y s x (s y ) odchylenie standardowe cechy X (cechy Y)

INTERPRETACJA współczynnika korelacji r xy Znak współczynnika r xy mówi nam o kierunku zależności. I tak: znak plus zależnośd liniowa dodatnia, tzn. wraz ze wzrostem wartości jednej cechy rosną średnie wartości drugiej z cech, znak minus zależnośd liniowa ujemna, tzn. wraz ze wzrostem wartości jednej cechy maleją średnie wartości drugiej z cech.

Siła zależności Wartośd bezwzględna współczynnika korelacji, czyli r xy, mówi nam o sile zależności. Jeżeli wartośd bezwzględna r xy : jest mniejsza od 0,2, to praktycznie brak związku liniowego pomiędzy badanymi cechami, 0,2 0,4 - zależnośd liniowa wyraźna, lecz niska, 0,4 0,7 - zależnośd liniowa umiarkowana, 0,7 0,9 - zależnośd liniowa znacząca, powyżej 0,9 - zależnośd liniowa bardzo silna

przykład W grupie 7 studentów badano zależnośd pomiędzy ocena z egzaminu ze statystyki (Y), a liczba dni poświęconych na naukę (X).

Widad tutaj wyraźną zależnośd liniową (dodatnia). Obliczamy współczynnik korelacji (Pearsona). UWAGA! Liczebnośd populacji jest mała (n=7). Użyjemy tak małego przykładu tylko dlatego, aby sprawnie zilustrowad procedurę liczenia.

Współczynnik korelacji rang (Spearmana) Współczynnik korelacji rang (Spearmana) używamy w przypadku gdy: r S 1. chod jedna z badanych cech jest cecha jakościowa (niemierzalna), ale istnieje możliwośd uporządkowania (ponumerowania) wariantów każdej z cech; 2. cechy maja charakter ilościowy (mierzalny), ale liczebnośd zbiorowości jest mała (n<30). Numery jakie nadajemy wariantom cech noszą nazwę rang.

uwagi UWAGA! W procesie nadawania rang stymulanty porządkujemy malejąco, a destymulanty rosnąco. UWAGA! W procesie nadawania rang może zdarzyd się więcej niż 1 jednostka o takiej samej wartości cechy (np. k jednostek). Wówczas należy na chwile nadad tym jednostkom kolejne rangi. Następnie należy zsumowad takie rangi i podzielid przez k (otrzymamy w ten sposób średnią rangę dla tej grupy k jednostek). W ostateczności każda jednostka z tych k jednostek otrzyma identyczna rangę (średnia dla danej grupy k jednostek).

Współczynnik korelacji rang (Spearmana) r S wyznaczamy wg następującego wzoru: di różnica pomiędzy rangami dla cechy X i cechy Y Współczynnik korelacji rang (Spearmana) r S spełnia zawsze warunek: INTERPRETACJA Analogiczna jak dla współczynnika korelacji (Pearsona).

Wartośd współczynnika korelacji rang (Spearmana) potwierdza bardzo silna, dodatnia (znak plus) zależnośd pomiędzy czasem nauki (X), a uzyskana ocena (Y). przykład Dla danych z przykładu 1 obliczenia współczynnika korelacji rang (Spearmana) są następujące:

Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem związków i zależności pomiędzy rozkładami dwu lub więcej badanych cech w populacji generalnej. Termin regresja dotyczy kształtu zależności pomiędzy cechami. Dzieli się na analizę regresji liniowej i nieliniowej. W przypadku analizy nieliniowej, graficzną reprezentacją współzależności są krzywe wyższego rzędu np. parabola. Pojęcie korelacji dotyczy siły badanej współzależności. Analiza regresji i korelacji może dotyczyd dwóch i większej ilości zmiennych (analiza wieloraka). W tym miejscu zajmowad się będziemy jedynie najprostszym przypadkiem regresji prostoliniowej dwóch zmiennych.

Zapamiętad Co to jest korelacja, jakie są jej własności? Kiedy stosowad korelację rang Spearmana a kiedy Pearsona? Kiedy korelacja jest dodatnia / ujemna? Jak opisywad dany zbiór danych (jakie wskaźniki)? Jak zrobid wykres częstości?