STATYSTYKA OPISOWA Literatura A. Aczel, Statystyka w Zarządzaniu, PWN, 2000 A. Obecny, Statystyka opisowa w Excelu dla szkół. Ćwiczenia praktyczne, Helion, 2002. A. Obecny, Statystyka matematyczna w Excelu dla szkół. Ćwiczenia praktyczne, Helion, 2003. J. Koronacki, J. Mielniczuk, Statystyka dla studentów kierunków technicznych i przyrodniczych, WNT, 2006 S. Węglarczyk, Statystyka w inżynierii środowiska, Politechnika Krakowska, 2010 Tomasz Łukaszewski Wprowadzenie Populacja jest pojmowana jako zbiór wyników wszystkich pomiarów, którymi badacz jest zainteresowany. Wprowadzenie Próba jest podzbiorem wyników pomiarów wybranych z populacji. Pobieranie próby dokonuje się z reguły w sposób losowy, tj. w taki sposób, żeby każda możliwa próba złożona z n elementów miała taką samą szansę, że zostanie wybrana. Tak wybrana próbę nazywa się prostą próbą losową lub krócej próbą losową. Wprowadzenie Plan Statystyka opisowa ma na celu podsumowanie zbioru danych i wyciągnięcie podstawowych wniosków i uogólnień na temat zbioru (próby losowej). Jest to pierwszy i podstawowy krok w analizie danych. Uogólnieniem wyników badania próby losowej na całą populację oraz szacowania błędów wynikających z takiego uogólnienia zajmuje się wnioskowanie statystyczne. Miary położenia Miary rozproszenia Miary koncentracji 1
Szeregi pozwalają poznać podstawowe właściwości badanej zbiorowości, jak np. wartość występująca najczęściej wyliczeniowy (prosty) szereg rozdzielczy punktowy przedziałowy kumulacyjny zwykły (histogram) Szereg wyliczeniowy(prosty) Ćwiczenie 1_1(sortowanie) Szereg punktowy Ćwiczenie 1_2(LICZ.JEŻELI) Szereg przedziałowy kumulacyjny Ćwiczenie 1_3(CZĘSTOŚĆ) Szereg przedziałowy zwykły Ćwiczenie 1_4,1_5(HISTOGRAM) Szereg przedziałowy zwykły Ćwiczenie 1_6(CZĘSTOŚĆ-CZĘSTOŚĆ) Dla zastosowania miar klasycznych w analizie próby, potrzebna jest jej jednorodność ze względu na badaną cechę zmienną. Jednorodność ma miejsce, gdy rozkład zmiennej jest rozkładem jednomodalnym, co najwyżej umiarkowanie asymetrycznym. Jeżeli tak nie jest, należy skorzystać z miar pozycyjnych np. dominanta(modalna), mediana, kwantyle Analiza próby pod kątem jednorodności Ćwiczenie 2_1, 2_2, 2_3, 2_4, 2_5 Miary położenia Miary położenia Średnia arytmetyczna Średnia arytmetyczna jest podstawową miarą stosowaną w analizie struktury, bowiem opierając się na niej wylicza się często inne parametry, takie jak odchylenie standardowe, momenty centralne czy skośność Średnią arytmetyczną można wyznaczać z różnego rodzaju szeregów 2
Średnia arytmetyczna Średnia arytmetyczna Średnia arytmetyczna z szeregu punktowego Średnia arytmetyczna z szeregu przedziałowego Stosujemy wzór na średnią arytmetyczną ważoną = x i wariantcechy zmiennej n i liczebnośćcząstkowa (waga) odpowiadająca ceszex i Stosujemy wzór na średnią arytmetyczną ważoną = x i środek przedziału klasowego n i liczebnośćcząstkowa (waga) odpowiadająca ceszex i Ćwiczenie 3_1(porównaj uzyskane wartości obu średnich) Wykorzystaj wzór oraz funkcję ŚREDNIA Ćwiczenie 3_2(różnice między wartościami średnich) Ćwiczenie 3_3(błąd systematyczny gdy rozkład asymetryczny) Średnia harmoniczna Średnia harmoniczna Średnia harmoniczna - używamy jej gdy dane wyrażone są w postaci niemianowanej, czyli względnej x i wariantcechy zmiennej = 1 Ćwiczenie 4_1 W dwóch stutysięcznych miastach gęstość zaludnienia wynosi odpowiednio 200 i 300 osób na kilometr kwadratowy. Oblicz przeciętną gęstość zaludnienia obu tych miast. Odpowiedź 250 jest błędna! Miasto 1 to 500km2; Miasto 2 to 333,3 km2; Razem 200 000mieszkańców, 833,3 km2i240 osóbna km2 Wykorzystaj wzór oraz funkcję ŚREDNIA.HARMONICZNA() Średnia harmoniczna ważona Średnia harmoniczna ważona Średnia harmoniczna ważona - używamy jej gdy dane wyrażone są w postaci niemianowanej, czyli względnej a wagi różnią się między sobą = 1 x i wariantcechy zmiennej n i wagi Ćwiczenie 4_2 Dane są informacje na temat średniego zaludnienia w trzech państwach o różnej liczbie mieszkańców. Oblicz średnią gęstość zaludnienia na łącznym obszarze tych państw Zastosowanie średniej harmonicznej (nieważonej) daje błędny wynik! Wykorzystaj wzór oraz funkcję ŚREDNIA.HARMONICZNA() Porównaj otrzymane rezultaty 3
Modalna, mediana, kwartyle Modalna Poznane wcześniej miary to klasyczne miary położenia Istnieją również pozycyjne miary położenia. Są to wartości cechy statystycznej występujące u konkretnej jednostki statystycznej. Jednostka ta wyróżnia się miejscem(pozycją) w uporządkowanym szeregu statystycznym. Wyjątkiem jest mediana w szeregu o parzystej liczbie elementów. Miary pozycyjne są odporne na zmiany pojedynczych wartości cech. Modalna (dominanta) dla szeregu prostego i punktowego informuje o wartości cechy zmiennej, której odpowiada maksymalna liczba spostrzeżeń lub w przypadku cechy ciągłej, wokół której koncentrują się spostrzeżenia. W zbiorowościach jednorodnych uzasadnione jest użycie do ich opisu modalnej Ćwiczenie 4_3 Wykorzystaj funkcję WYST.NAJCZĘŚCIEJ() Modalna (dominanta) dla szeregu przedziałowego może być wyznaczona tylko szacunkowo Mediana Kwartyle Mediana dla szeregu prostego i punktowego dzieli zbiorowość na dwie części w ten sposób, że połowa jednostek zbiorowości charakteryzuje się wartościami nie większymi od mediany, a połowa nie mniejszymi od niej. =, =, =!!"#, =, Ćwiczenie 4_5 Odczytaj medianę z szeregu kumulacyjnego Często stosowaną miarą pozycyjną są kwantyle. Spośród nich najczęściej używane są wartości ćwiartkowe, zwane kwartylami. Ćwiczenie 4_7 Uporządkuj szereg lub skorzystaj z funkcji KWARTYL KWARTYL(zakres;1) KWARTYL(zakres;3) Z szeregu przedziałowego można wyznaczyć kwartyle jedynie w sposób przybliżony Miary rozproszenia Miary rozproszenia Miary rozproszenia Jeżeli znamy średni poziom badanej cechy, możemy przeprowadzić badanie stopnia zróżnicowania całej zbiorowości pod względem jej wartości Najczęściej stosowane miary absolutne to: odchylenie przeciętne, odchylenie standardowe czy odchylenie ćwiartkowe Dysponując tymi parametrami można określić typowy obszar zmienności i względną miarę rozproszenia. 4
Odchylenie przeciętne Odchylenie przeciętne (średnie) używane dla szeregów o rozkładzie symetrycznym lub zbliżonym do symetrycznego. $ % = x i warianty cechyzmiennej - średnia arytmetyczna n i liczebnośćcząstkowa dla cechyx i Ćwiczenie 5_1 Skorzystaj z funkcji ODCH.ŚREDNIE Odchylenie standardowe Miarą najbardziej precyzyjną wśród miar rozproszenia jest odchylenie standardowe. Odchylenie standardowe można też wyznaczać z szeregu przedziałowego ' = ( ) x i środekprzedziałuklasowego n i liczebnośćcząstkowadlacechyx i N liczebność zbiorowości Ćwiczenie 5_2 Skorzystaj z funkcji ODCH.STANDARD.POPUL oraz z funkcji ODCH.STANDARDOWE Odchylenie ćwiartkowe Typowy obszar zmienności Odchylenie ćwiartkowe (kwartylowy obszar zmienności) wyznaczamy, gdy nie można zastosować miar klasycznych a także wtedy, gdy interesuje nas zmienność 50% środkowych jednostek zbiorowości Q 1 kwartylpierwszy Q 3 kwartyltrzeci Ćwiczenie 5_3 * = * + * 2 Skorzystaj z KWARTYL(zakres;1) KWARTYL(zakres;3) W typowym obszarze zmienności mieści się (zgodnie z teorią) około 2/3 wszystkich obserwacji Ćwiczenie 5_4 Skorzystaj z funkcji: ŚREDNIA ODCH.STAND.POPUL CZĘSTOŚĆ ' <./% < +' Reguła 3 sigm Relacja między odchyleniami Jeżeli rozkład jest zbliżony do rozkładu normalnego to 1 na 370 obserwacji przekracza średnią arytmetyczną o więcej niż plus-minus trzy odchylenia standardowe (pozostałe 99.73% jestodchyloneo mniejniż3sigma) Między zastosowanymi miarami zróżnicowania zachodzi następująca relacja: * <$<' Ćwiczenie 5_5 Skorzystaj z funkcji: ŚREDNIA ODCH.STAND.POPUL CZĘSTOŚĆ i ILE.LICZB Ćwiczenie 5_6 Skorzystaj z funkcji: ODCH.ŚREDNIE ODCH.STAND.POPUL CZĘSTOŚĆ i ILE.LICZB 5
Współczynnik zmienności Współczynnik zmienności pozwala na porównanie stopnia zróżnicowania cechy zmiennej w kilku zbiorowościach. Daje również możliwość oceny stopnia jednorodności zbiorowości, co jest istotne do poprawnej analizy statystycznej 0<=V<=0,20 0,20 < V <= 0,40 0,40 < V <= 1,00 1,00 < V 1 = ' małe zróżnicowaniecechy przeciętne zróżnicowanie cechy duże zróżnicowanie cechy bardzo duże zróżnicowanie cechy Ćwiczenie 5_7 Skorzystaj z funkcji: ŚREDNIE ODCH.STAND.POPUL Znając wartości miar tendencji centralnej oraz miar rozproszenia, można pogłębić wiedzę na temat struktury badanej zbiorowości przez zastosowanie innego narzędzia analizy, jakim są miary asymetrii. Wyróżniamy trzy rodzaje parametrów asymetrii klasyczny klasyczno-pozycyjny pozycyjny(pomijamy go w tej pracy) Klasyczny współczynnik asymetrii Klasyczny współczynnik asymetrii Momentzwykłypierwszegorzędu(2 ) -średnia Momentcentralnydrugiegorzędu(3 )-wariancja Kierunek asymetrii można mierzyć, posługując się momentem centralnym trzeciego rzędu 3 + = ( ) + Wartość dodatnia to asymetria prawostronna, wartość ujemna to asymetria lewostronna, wartość równa 0 wskazuje na rozkład symetryczny Siła asymetrii: Wartość <= 0,7 4 + = 3 + ' + - słaba asymetria 0,7 < wartość < 1,4 - umiarkowana asymetria 1,4 <= wartość - silna asymetria Ćwiczenie 6_1 6
Klasyczno-pozycyjny w. asymetrii Miary koncentracji Kierunek i siłę asymetrii można zmierzyć posługując się klasyczno-pozycyjnym parametrem asymetrii. Wykorzystuje się go do porównywania szeregów jednomodalnych o umiarkowanej asymetrii: -mediana 5 6 = 3( ) ' Miary koncentracji Ćwiczenie 6_2 Miary koncentracji Współczynnik spłaszczenia Dopełnieniem statystycznego opisu struktury są miary koncentracji: Koncentracja jako skupienie wokół wartości średniej; do analizy natężenia koncentracji wykorzystuje się współczynnik spłaszczenia (moment centralny czwartego rzędu) Koncentracja rozumiana jako nierównomierny rozkład wartości cechy zmiennej między jednostkami zbiorowości; do określenia koncentracji wykorzystuje się współczynnik koncentracji Lorenza i krzywą koncentracji Lorenza Moment centralny czwartego rzędu 3 8 = ( ) 8 Współczynnik spłaszczenia: 4 8 = 3 8 ' 8 Jeżeli wartość współczynnika jest większa od 3, to krzywa jest wysmukła w stosunku do krzywej normalnej; w przeciwnym wypadku krzywa jest spłaszczona Ćwiczenie 7_1 Współczynnik spłaszczenia Krzywa koncentracji Lorenza Krzywa nierównomierności podziału globalnego zasobu cechy Tworzymy wielobok koncentracji Lorenza oś odciętych to skumulowane częstości względne liczby zdarzeń (np. liczby transakcji) oś rzędnych to skumulowane częstości względne wartości zdarzeń (np. wartości transakcji) Ćwiczenie 7_2 7
Krzywa koncentracji Lorenza (2005) Krzywa koncentracji Lorenza (1947-2005) 8