Literatura STATYSTYKA OPISOWA A. Aczel, Statystyka w Zarządzaniu, PWN, 2000 A. Obecny, Statystyka opisowa w Excelu dla szkół. Ćwiczenia praktyczne, Helion, 2002. A. Obecny, Statystyka matematyczna w Excelu dla szkół. Ćwiczenia praktyczne, Helion, 2003. J. Koronacki, J. Mielniczuk, Statystyka dla studentów kierunków technicznych i przyrodniczych, WNT, 2006 S. Węglarczyk, Statystyka w inżynierii środowiska, Politechnika Krakowska, 2010 Tomasz Łukaszewski Wprowadzenie Populacja jest zbiorem wyników wszystkich pomiarów, którymi badacz jest zainteresowany. Wprowadzenie Próba jest podzbiorem wyników pomiarów wybranych z populacji. Pobieranie próby dokonuje się z reguły w sposób losowy, tj. w taki sposób, żeby każda możliwa próba złożona z n elementów miała taką samą szansę, że zostanie wybrana. Tak wybrana próbę nazywa się prostą próbą losową lub krócej próbą losową. Wprowadzenie Plan Statystyka opisowa ma na celu podsumowanie próby losowej i wyciągnięcie podstawowych wniosków i uogólnień na temat tego zbioru. Jest to pierwszy i podstawowy krok w analizie danych. Uogólnieniem wyników badania próby losowej na całą populację oraz szacowania błędów wynikających z takiego uogólnienia zajmuje się wnioskowanie statystyczne. Analiza jednorodności Miary położenia Miary rozproszenia Miary koncentracji 1
Szeregi pozwalają poznać podstawowe właściwości badanej zbiorowości, jak np. wartość występująca najczęściej. Budując szeregi należy pamiętać o zaleceniach teoretycznych, np. równe długość przedziałów. wyliczeniowy (prosty) szereg rozdzielczy punktowy przedziałowy Szereg punktowy (Ćwiczenie 1_2 ) E9 = Licz.Jeżeli(A2:A193;D9) Szereg kumulacyjny (Ćwiczenie 1_3) F25 = Częstość(A2:I20;3)/171 Szereg zwykły (Ćwiczenie 1_4) B2-B6: 100,200,,600 + HISTOGRAM (Analiza danych) kumulacyjny zwykły (histogram) Analiza jednorodności Analiza jednorodności Analiza jednorodności Dla zastosowania miar klasycznych w analizie próby, potrzebna jest jej jednorodność ze względu na badaną cechę zmienną. Jednorodność ma miejsce, gdy rozkład zmiennej jest rozkładem jednomodalnym, co najwyżej umiarkowanie asymetrycznym. Jeżeli tak nie jest, należy skorzystać z miar pozycyjnych np. dominanta (modalna), mediana, kwantyle Analiza próby pod kątem jednorodności Ćwiczenie 2_1, 2_2 HISTOGRAM 2
Miary położenia Miary położenia Średnia arytmetyczna Średnia arytmetyczna jest podstawową miarą stosowaną w analizie struktury, bowiem opierając się na niej wylicza się często inne parametry, takie jak odchylenie standardowe, momenty centralne czy skośność Średnią arytmetyczną można wyznaczać z różnego rodzaju szeregów Średnia arytmetyczna Średnia arytmetyczna Średnia arytmetyczna z szeregu punktowego Średnia arytmetyczna z szeregu przedziałowego Stosujemy wzór na średnią arytmetyczną ważoną = x i wariant cechy zmiennej n i liczebność cząstkowa (waga) odpowiadająca cesze x i N liczebność zbiorowości Stosujemy wzór na średnią arytmetyczną ważoną = x i środek przedziału klasowego n i liczebność cząstkowa (waga) odpowiadająca cesze x i N liczebność zbiorowości Ćwiczenie 3_1 Wykorzystaj wzór oraz funkcję ŚREDNIA Ćwiczenie 3_2 (różnice między wartościami średnich) D3 = (A3+B3)/2. Średnia harmoniczna Średnia harmoniczna Średnia harmoniczna - używamy jej gdy dane wyrażone są w postaci względnej = 1 x i wariant cechy zmiennej N liczba obserwacji Ćwiczenie 4_1 W dwóch stutysięcznych miastach gęstość zaludnienia wynosi odpowiednio 200 i 300 osób na kilometr kwadratowy. Oblicz przeciętną gęstość zaludnienia obu tych miast. Odpowiedź 250 jest błędna! Miasto 1 to 500 km2; Miasto 2 to 333,3 km2; Razem 200 000 mieszkańców, 833,3 km2 i 240 osób na km2 Wykorzystaj wzór (N = 2) Wykorzystaj funkcję ŚREDNIA.HARMONICZNA() 3
Średnia harmoniczna ważona Średnia harmoniczna ważona Średnia harmoniczna ważona - używamy jej gdy dane wyrażone są w postaci niemianowanej, czyli względnej a wagi różnią się między sobą = 1 x i wariant cechy zmiennej n i wagi (liczebności cząstkowe) N liczebność zbiorowości (N = n 1 + n 2 + ) Ćwiczenie 4_2 Dane są informacje na temat średniego zaludnienia w trzech państwach o różnej liczbie mieszkańców. Oblicz średnią gęstość zaludnienia na łącznym obszarze tych państw Zastosowanie średniej harmonicznej (nieważonej) daje błędny wynik! Wykorzystaj wzór oraz funkcję ŚREDNIA.HARMONICZNA() Porównaj otrzymane rezultaty Modalna, mediana, kwartyle Modalna Poznane wcześniej miary to klasyczne miary położenia Istnieją również pozycyjne miary położenia. Są to wartości cechy statystycznej występujące u konkretnej jednostki statystycznej. Jednostka ta wyróżnia się miejscem (pozycją) w uporządkowanym szeregu statystycznym. Wyjątkiem jest mediana w szeregu o parzystej liczbie elementów. Modalna (dominanta) dla szeregu prostego i punktowego informuje o wartości cechy zmiennej, której odpowiada maksymalna liczba spostrzeżeń lub w przypadku cechy ciągłej, wokół której koncentrują się spostrzeżenia. W zbiorowościach jednorodnych uzasadnione jest użycie do ich opisu modalnej Ćwiczenie 4_3 Wykorzystaj funkcję WYST.NAJCZĘŚCIEJ() lub wskaż wynik Modalna (dominanta) dla szeregu przedziałowego może być wyznaczona tylko szacunkowo Mediana Kwartyle Mediana dla szeregu prostego i punktowego dzieli zbiorowość na dwie części w ten sposób, że połowa jednostek zbiorowości charakteryzuje się wartościami nie większymi od mediany, a połowa nie mniejszymi od niej. =, =, =!!"#, =, Ćwiczenie 4_5 (mediana z szeregu kumulacyjnego) E2=D2, E3=D3+E2 k=n/2=96 Często stosowaną miarą pozycyjną są kwantyle. Spośród nich najczęściej używane są wartości ćwiartkowe, zwane kwartylami (Q 1, Q 3 ) Ćwiczenie 4_7 Uporządkuj szereg lub skorzystaj z funkcji KWARTYL KWARTYL(zakres;1) KWARTYL(zakres;3) Z szeregu przedziałowego można wyznaczyć kwartyle jedynie w sposób przybliżony 4
Miary rozproszenia Miary rozproszenia Miary rozproszenia Jeżeli znamy średni poziom badanej cechy, możemy przeprowadzić badanie stopnia zróżnicowania całej zbiorowości pod względem jej wartości Najczęściej stosowane miary absolutne to: odchylenie przeciętne, odchylenie standardowe czy odchylenie ćwiartkowe Dysponując tymi parametrami można określić typowy obszar zmienności i względną miarę rozproszenia. Odchylenie przeciętne Odchylenie przeciętne (średnie) używane dla szeregów o rozkładzie symetrycznym lub zbliżonym do symetrycznego. $ % = x i warianty cechy zmiennej - średnia arytmetyczna n i liczebność cząstkowa dla cechy x i N liczebność zbiorowości Ćwiczenie 5_1 Skorzystaj z funkcji ODCH.ŚREDNIE Odchylenie standardowe Miarą najbardziej precyzyjną wśród miar rozproszenia jest odchylenie standardowe. Odchylenie standardowe można też wyznaczać z szeregu przedziałowego ' = ( ) x i środek przedziału klasowego n i liczebność cząstkowa dla cechy x i N liczebność zbiorowości Ćwiczenie 5_2 Skorzystaj z funkcji ODCH.STANDARD.POPUL oraz z funkcji ODCH.STANDARDOWE dla szeregu Odchylenie ćwiartkowe Typowy obszar zmienności Odchylenie ćwiartkowe (kwartylowy obszar zmienności) wyznaczamy, gdy nie można zastosować miar klasycznych a także wtedy, gdy interesuje nas zmienność 50% środkowych jednostek zbiorowości Q 1 kwartyl pierwszy Q 3 kwartyl trzeci Ćwiczenie 5_3 * = * + * 2 Skorzystaj z KWARTYL(zakres;1) KWARTYL(zakres;3) W typowym obszarze zmienności mieści się (zgodnie z teorią) około 2/3 wszystkich obserwacji Ćwiczenie 5_4 Skorzystaj z funkcji: ŚREDNIA ODCH.STAND.POPUL CZĘSTOŚĆ ' <./% < +' 5
Reguła 3 sigma Relacja między odchyleniami Jeżeli rozkład jest zbliżony do rozkładu normalnego to 1 na 370 obserwacji przekracza średnią arytmetyczną o więcej niż plus-minus trzy odchylenia standardowe (pozostałe 99.73% jest odchylone o mniej niż 3 sigma) Między zastosowanymi miarami zróżnicowania zachodzi następująca relacja: * <$ <' Ćwiczenie 5_5 Skorzystaj z funkcji: ŚREDNIA ODCH.STAND.POPUL CZĘSTOŚĆ i ILE.LICZB Ćwiczenie 5_6 Skorzystaj z funkcji: ODCH.ŚREDNIE ODCH.STAND.POPUL CZĘSTOŚĆ i ILE.LICZB Współczynnik zmienności Współczynnik zmienności pozwala na porównanie stopnia zróżnicowania cechy zmiennej w kilku zbiorowościach. Daje również możliwość oceny stopnia jednorodności zbiorowości, co jest istotne do poprawnej analizy statystycznej 1 = ' 0 <= V <= 0,20 małe zróżnicowanie cechy 0,20 < V <= 0,40 przeciętne zróżnicowanie cechy 0,40 < V <= 1,00 duże zróżnicowanie cechy 1,00 < V bardzo duże zróżnicowanie cechy Ćwiczenie 5_7 Skorzystaj z funkcji: ŚREDNIA ODCH.STAND.POPUL Znając wartości miar tendencji centralnej oraz miar rozproszenia, można pogłębić wiedzę na temat struktury badanej zbiorowości przez zastosowanie innego narzędzia analizy, jakim są miary asymetrii. Wyróżniamy trzy rodzaje parametrów asymetrii klasyczny klasyczno-pozycyjny pozycyjny (pomijamy go w tej pracy) 6
Klasyczny współczynnik asymetrii Klasyczny współczynnik asymetrii Moment zwykły pierwszego rzędu (2 ) - średnia Moment centralny drugiego rzędu (3 ) - wariancja Kierunek asymetrii można mierzyć, posługując się momentem centralnym trzeciego rzędu 3 + = ( ) + Wartość dodatnia to asymetria prawostronna, wartość ujemna to asymetria lewostronna, wartość równa 0 wskazuje na rozkład symetryczny Siła asymetrii: Wartość <= 0,7 4 + = 3 + ' + - słaba asymetria 0,7 < wartość < 1,4 - umiarkowana asymetria 1,4 <= wartość - silna asymetria Ćwiczenie 6_1 Klasyczno-pozycyjny w. asymetrii Miary koncentracji Kierunek i siłę asymetrii można zmierzyć posługując się klasyczno-pozycyjnym parametrem asymetrii. Wykorzystuje się go do porównywania szeregów jednomodalnych o umiarkowanej asymetrii: - mediana 5 6 = 3( ) ' Miary koncentracji Ćwiczenie 6_2 Miary koncentracji Współczynnik spłaszczenia Dopełnieniem statystycznego opisu struktury są miary koncentracji: Koncentracja jako skupienie wokół wartości średniej; do analizy natężenia koncentracji wykorzystuje się współczynnik spłaszczenia (moment centralny czwartego rzędu) Koncentracja rozumiana jako nierównomierny rozkład wartości cechy zmiennej między jednostkami zbiorowości; do określenia koncentracji wykorzystuje się współczynnik koncentracji Lorenza i krzywą koncentracji Lorenza Moment centralny czwartego rzędu 3 8 = ( ) 8 Współczynnik spłaszczenia: 4 8 = 3 8 ' 8 Jeżeli wartość współczynnika jest większa od 3, to krzywa jest wysmukła w stosunku do krzywej normalnej; w przeciwnym wypadku krzywa jest spłaszczona Ćwiczenie 7_1 7
Współczynnik spłaszczenia Krzywa koncentracji Lorenza Krzywa nierównomierności podziału globalnego zasobu cechy Tworzymy wielobok koncentracji Lorenza oś odciętych to skumulowane częstości względne liczby zdarzeń (np. liczby transakcji) oś rzędnych to skumulowane częstości względne wartości zdarzeń (np. wartości transakcji) Ćwiczenie 7_2 Krzywa koncentracji Lorenza (2005) Krzywa koncentracji Lorenza (1947-2005) 8