Rozstęp Pozycyjne Odchylenie ćwiartkowe Współczynnik zmienności

Podobne dokumenty
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

1 Podstawy rachunku prawdopodobieństwa

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Wykład 5: Statystyki opisowe (część 2)

Wnioskowanie statystyczne. Statystyka w 5

Statystyka w pracy badawczej nauczyciela

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Statystyczne metody analizy danych

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Zadania ze statystyki, cz.6

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Wykład 4: Statystyki opisowe (część 1)

Rozkłady statystyk z próby. Statystyka

Ustalanie mocy testu i optymalnej wielkości próby

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

STATYSTYKA wykład 5-6

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Estymacja parametrów rozkładu cechy

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Analiza statystyczna. Ogólne własności funkcji. Funkcja liniowa. Równania i nierówności liniowe

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Sposoby prezentacji problemów w statystyce

Zadania ze statystyki cz.8. Zadanie 1.

5. WNIOSKOWANIE PSYCHOMETRYCZNE

Pomiary urodzeń według płci noworodka i województwa.podział na miasto i wieś.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Biostatystyka, # 3 /Weterynaria I/

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych

Pozyskiwanie wiedzy z danych

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Laboratorium 3 - statystyka opisowa

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Podstawy statystyki - ćwiczenia r.

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyka matematyczna i ekonometria

Analiza wariancji. dr Janusz Górczyński

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Przedmiot statystyki. Graficzne przedstawienie danych.

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

W1. Wprowadzenie. Statystyka opisowa

Pobieranie prób i rozkład z próby

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Analiza składowych głównych. Wprowadzenie

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Analiza statystyczna w naukach przyrodniczych

WNIOSKOWANIE STATYSTYCZNE

Zmienne zależne i niezależne

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Statystyka matematyczna dla leśników

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Wykład 9 Wnioskowanie o średnich

Biostatystyka, # 1 /Weterynaria I/

Transkrypt:

Miary zmienności:

Miary zmienności Klasyczne Wariancja Odchylenie standardowe Odchylenie przeciętne Współczynnik zmienności Rozstęp Pozycyjne Odchylenie ćwiartkowe Współczynnik zmienności 2

Spróbujmy zastanowić się nad cechą zbiorowości jaką jest zmienność. Oto przykładowe trzy zbiory danych: ) {jabłko, jabłko,..., jabłko} (inaczej mówiąc same jabłka), 2) {jabłko, jabłko,..., jabłko, gruszka} (jabłka i jedna gruszka), oraz 3) {jabłko, gruszka, gruszka, jabłko,..., gruszka} (mieszanina jabłek i gruszek). Oczywiście, powyższe przykłady można przedstawić także w postaci zbiorów liczb, jak zazwyczaj jest to czynione w podręcznikach do statystyki: ) {,,..., }, 2) {,,...,, 0}, 3) {, 0, 0,,..., 0}. 3

Jeżeli myślimy o zmienności, to całkiem intuicyjnie możemy powiedzieć, że zbiór pierwszy jest niezmienny (stały), zbiór drugi natomiast jest znacznie mniej zmienny niż zbiór trzeci. A zatem, każdy sposób mierzenia zmienności jakiegoś zbioru powinien być zgodny z naszą intuicją i umieć rozróżniać te zbiory pod względem zmienności. Podstawową, łatwą do wyliczenia, miarą zmienności dowolnego zbioru liczbowego jest rozstęp, R, definiowany w sposób następujący: gdzie przez oznaczamy wartość minimalną w tym zbiorze. R= x max x min, x max oznaczamy maksymalną wartość w zbiorze badanych liczb, a przez xmin 4

Zauważmy, że miara zmienności, jaką jest rozstęp z próby, wystarczająco dobrze odróżnia pod kątem zmienności zbiory stałe od zbiorów zmiennych: w naszym przykładzie liczbowym rozstęp liczony dla zbioru pierwszego wynosi 0 (i jest to cecha niezmiennicza zbiorów stałych) oraz dla zbioru drugiego i trzeciego (ogólnie dla każdego zbioru, w którym występuje chociaż jeden element inny od pozostałych). Jeżeli natomiast użyjemy rozstępu z próby w celu odróżnienia zmienności zbioru drugiego od zmienności zbioru trzeciego, to zauważymy, że miara ta nie jest dostatecznie czuła i nie potrafi tych dwóch zbiorów rozróżnić pod kątem zmienności. Rozstęp dla zbioru drugiego i dla zbioru trzeciego wynosi :. A zatem, miara zmienności jaką jest rozstęp pozwala odróżniać zbiory stałe od zmiennych; nie pozwala natomiast odróżniać intensywności występowania tej cechy, jaką jest zmienność. Dodatkową informacją, jaką otrzymujemy ze stosowania rozstępu z próby jako miary zmienności jest wiedza dotycząca zakresu zmienności. Choćby dlatego, powinniśmy badanie zmienności dowolnego zbioru rozpoczynać właśnie od tej miary. 5

Miarą, która pozwala natomiast odróżniać intensywność zmienności jest wariancja z próby, s 2. Definiowana jest ona w sposób następujący: s 2 = n n i= ( x i x) gdzie n oznacza liczność badanego zbioru liczbowego, x i poszczególne elementy tego zbioru, a x średnią arytmetyczną z tych liczb: x = n Równoważnie, możemy określić wariancję z próby jako: s = 2 n n i= n i= x i. 2 x i x 2 2, 6

Ponownie zauważmy, że wariancja z próby dla zbioru stałego wynosi zero oraz, że dla dowolnego zbioru liczbowego, w którym chociaż jeden element jest inny od pozostałych, wariancja z próby przyjmuje wartości dodatnie. A więc, ma tę samą cechę rozróżnialności zbiorów stałych od innych, jak rozstęp z próby. Co więcej, wariancja z próby pozwala odróżniać intensywność zmienności, czego nie potrafiła miarę nazywana rozstępem z próby. Prześledźmy to na następującym przykładzie dwóch zbiorów: A = {0, 0, 0, }, oraz B = {, 0,, 0}. Łatwo zauważyć, że zbiór B cechuje większa zmienność niż zbiór A. Rozstęp dla zbioru A wynosi, podobnie jak dla zbioru B, z więc rozstęp nie rozróżnia tych dwóch zbiorów pod względem zmienności. Wariancja zbioru A wynosi 0,25. Odpowiednia wariancja dla zbioru B wynosi 0,33. A zatem, zbiór B jest bardziej zmienny niż zbiór A (zgodnie z naszym intuicyjnym pojmowaniem zmienności). 7

Otóż, wariancja z próby jest funkcjonałem kwadratowym i dla zbiorów, w których liczby odnoszą się do wielkości mianowanych (np. kilometrów, lat, itp.), wariancja także jest wielkością mianowaną, tyle, że w kwadracie (np. odpowiednio kilometrów 2, lat 2, itp.). Zakłóca to nasze pojmowanie proporcji pomiędzy tymi wielkościami. Dlatego też w praktyce operuje się najczęściej tzw. odchyleniem kwadratowym z próby, σ, które jest pierwiastkiem kwadratowym z wariancji: 2 2 σ = s = x i x. n 2 Odchylenie kwadratowe z próby (oznaczane także czasami jako s) ma te same cechy co wariancja, natomiast znacznie łatwiej interpretować otrzymane wyniki. Np. dla powyższych zbiorów A i B otrzymuje się odpowiednio: σ A = 0, 5 oraz σ B = 0, 58. Zbiór B cechuje zatem większa zmienność, a otrzymane wielkości oddają chyba w sposób właściwy różnice występujące pomiędzy zmiennościami obu zbiorów. n i= 8

Rozważmy jeszcze jeden przykład, który pozwoli nam na jeszcze większą precyzję w mierzeniu zmienności: zbiór C = {0, 0, 0, } oraz zbiór D = {99, 99, 99, 00}. Zbiory te cechuje taka sama zmienność (jeden element jest inny od pozostałych; σ C = σ D = 0, 5 ), jednak wyraźnie widzimy, że skutki tej zmienności dla zbioru D są o wiele mniejsze od skutków dla zbioru C: różnica o jeden nie jest tak ważna jeśli punktem odniesienia jest 99 czy 00 w porównaniu do takiej samej różnicy o jeden jeśli punktem odniesienia jest 0 czy też. Dlatego też wprowadzono jeszcze jedna miarę zmienności, która uwzględnia i ten aspekt. Jest nią współczynnik zmienności, V, (podawany najczęściej w procentach): V = σ. x Dla zbiorów C i D wynosi on odpowiednio: V C = 200% oraz V D = 0,5%. I to jest właściwa miara zmienności tych zbiorów. 9

Eksperyment Dane w poszczególnych eksperymentach I II III IV V VI VII VIII IX 2 0,99 0,98 0,97 0,96 0,92 0,88 0,75,0,02,03,04,08,2,25 0,99 0,98 0,97 0,96 0,92 0,88 0,75,0,02,03,04,08,2,25 0,99 0,98 0,97 0,96 0,92 0,88 0,75,0,02,03,04,08,2,25 0,99 0,98 0,97 0,96 0,92 0,88 0,75,0,02,03,04,08,2,25 Parametry opisowe Minimum 0,99 0,98 0,97 0,96 0,92 0,88 0,75 Maksimum 2,0,02,03,04,08,2,25 Rozstęp 0 0,02 0,04 0,06 0,08 0,6 0,24 0,5 Średnia,083333 Wariancja próbki 0 0,083333 7,27E-05 0,00029 0,000655 0,0064 0,004655 0,00473 0,045455 Odchylenie standardowe 0 0,288675 0,008528 0,07056 0,025584 0,0342 0,068224 0,02336 0,2320 Współczynnik zmienności 0,00% 26,65% 0,85%,7% 2,56% 3,4% 6,82% 0,23% 2,32% 0

W eksperymencie pierwszym otrzymaliśmy dwanaście razy wartość. Co możemy powiedzieć o zjawisku, które właśnie się zrealizowało w postaci dwunastu jedynek? Właściwie nic sensownego, poza przypuszczeniem, że mamy do czynienia ze zjawiskiem stałym. Bez dodatkowej informacji nie potrafimy jednak ocenić pewności tego stwierdzenia. Oczywiście, gdybyśmy posiadali jakąś dodatkową wiedzę nasza sytuacja byłaby całkiem inna. Np. gdybyśmy wiedzieli, że obserwowana jedynka jest zapisem symbolicznym faktu, że w pewnej szkole dwunastu przypadkowo wylosowanych uczniów okazało się dziewczynką (według często stosowanego schematu kodowania: to dziewczynka, 0 to chłopiec), a wiedza ogólna podpowiada nam, że proporcje chłopców i dziewczynek wśród uczniów są mniej więcej równe, to szansa na to, że zdarzy się, iż otrzymamy dwanaście jedynek pod rząd wynosi jak do 22, czyli ok. 0,000244. Ponieważ jest to zdarzenie niezmiernie mało prawdopodobne, wniosek nasz (a jest to domena wnioskowania statystycznego) w tym przykładzie powinien brzmieć: trafiliśmy do żeńskiej szkoły. I wynik ten jest prawie pewny, podkreślmy jednak znaczenie informacji dodatkowej (owe proporcje chłopców i dziewczynek w populacji dzieci), bez której wnioskowanie powyższe nie byłoby możliwe.

W eksperymencie drugim otrzymaliśmy jedynek i jedną dwójkę. W konwencji powyższego przykładu znaczyłoby to, że znaleźliśmy dziewczynek i jednego chłopca wśród 2 przypadkowych uczniów pewnej szkoły (tym razem zastosowaliśmy kodowanie: to dziewczynka, a 2 to chłopiec). Czy nadal możemy twierdzić, że prawie na pewno jesteśmy w żeńskiej szkole? Używając wnioskowania statystycznego, pewnie nadal możemy tak twierdzić (chociaż z mniejszą pewnością), ale, podkreślmy to ponownie, bez informacji dodatkowej rozstrzygnąć się tego nie da (zakładając oczywiście, że chłopiec znalazł się tam przypadkiem, odwiedzając swoją siostrę lub otrzymana 2 jest wynikiem błędu w kodowaniu bo i tak się przecież od czasu do czasu zdarza). Zauważmy, że rozważany przykład jest na tyle specyficzny, że zaobserwowanie chociaż jednego ucznia płci męskiej oznacza, że na 00% nie jest to szkoła żeńska. Inna sprawa, to czy na podstawie tych danych możemy stwierdzić, że populacja uczniów składa się w 0% z chłopców a w 90% z dziewcząt. Wyraźnie liczność tej próbki jest na takie stwierdzenia zbyt mała! 2

To, co różni eksperyment I od II, to fakt, że w eksperymencie II wystąpiły dwie obserwowane wartości (jedynka i dwójka) i w sposób intuicyjny możemy stwierdzić, że obserwacje w eksperymencie II są bardziej zmienne niż w eksperymencie I. Czy jednak obserwowana zmienność jest na tyle duża, że pozwala już na wysnucie hipotezy, że uczniowie występują w dwóch płciach? Lub jeszcze inaczej: czy przyczyną obserwowanej zmienności jest występowanie uczniów w dwóch płciach? 3

W eksperymentach III IX staraliśmy się wprowadzić coraz większą zmienność tak, aby móc śledzić jak reagują na te zmiany wartości poszczególnych miar zmienności. Nie jest żadnym zaskoczeniem to, że wartości miar zmienności rosną w miarę tego jak wzrasta zmienność wśród danych. Pewne zdziwienie może natomiast wywołać fakt, że wprowadzenie jednej odstającej wartości obserwacji przy stałym zachowaniu pozostałych (eksperyment II) jest aż tak silnym zakłóceniem, że dopiero wyraźne wprowadzenie zmienności w eksperymencie IX jest z nim porównywalne, a i tak współczynnik zmienności V eksperymentu IX jest o ok. 5 punktów procentowych mniejszy od wartości tego współczynnika dla eksperymentu II. W praktyce uważa się, że dane, dla których współczynnik zmienności V jest mniejszy od 0% nie nadają się do poszukiwań czynników sprawczych, wywołujących ich zmienność. Jest to bardzo ważna informacja, gdyż zgodnie z nią konsekwentnie należy uważać zbiory danych, dla których współczynnik zmienności jest mniejszy od 0% za quasi-stałe, a więc nie wnoszące istotnych informacji. Jeszcze raz podkreślmy, że dane bez zmienności są niepożądane, jako nie wnoszące dodatkowej informacji. 4

Rozważmy jeszcze jedną właściwość jaką ma współczynnik zmienności V. Otóż, nie jest on zależny od uporządkowania badanych obserwacji (dotyczy to także pozostałych miar zmienności, tj. rozstępu z próby, wariancji i odchylenia standardowego). A zatem, z jego wartości nie można wnioskować o charakterystykach pozycyjnych danych. Ponadto, współczynnik zmienności silniej reaguje na odchylenia wśród danych w małej próbie niż w dużej próbie. 5

Przykład: Ciągi danych o różnych długościach 4 8 2 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 V = 5,47% 06,90% 04,45% 03,28% 6