Analiza Danych Jerzy Stefanowski Instytut Informatyki Politechniki Poznańskiej Tel. 6652933 CW - 8 Wykład dla kierunku Informatyka (1wsze spotkanie) Poznań, 2006/7
Wykład nr 1 Wprowadzenie do Analizy Danych oraz Statystyka Opisowa część 1 1. Uwagi wstępne 2. Cel przedmiotu 3. Statystyka opisowa i wnioskowanie statystyczne 4. Pomiar cech i skale pomiarowe 5. Opracowywanie materiału statystycznego (szeregi ) 6. Graficzne przedstawianie danych 7. Podsumowanie
Wprowadzenie Po co analiza danych? Rozwój technologii informatycznych. Posiadanie dużych ilości danych nie jest równoznaczne z ich użytecznością. Potrzeba inteligentnego przetwarzania zebranych informacji. Konieczna jest ocena jakości danych, ich analiza oraz uproszczenie opisu tak, aby można ułatwić interpretacje zjawisk, wyciągnąć użyteczne wnioski i podejmować lepsze decyzje. Stosowane metody: 1. Metody statystyczne (tradycyjne rozumienie terminu analiza danych), 2. Metody eksploracji baz danych w celu poszukiwania użytecznej "wiedzy" (techniki data mining wywodzące się ze sztucznej inteligencji, systemy maszynowego uczenia się,...) Dostępność wielu pakietów statystycznych (SAS, Statistica, SPSS, ).
Literatura Statystyka praktyczna, Starzyńska Wacława, PWN, 2000. Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001. Statystyka w zarządzaniu, Aczel A. PWN. Przystępny kurs statystyki, Stanisz A., 1997. Po prostu statystyka, Clegg F., 1994. Metody statystyczne w badaniach sondażowych rynku, Kowal J., 1997. Plan wykładów 1. Statystyka opisowa (przedstawianie danych, miary tendencji centralnej i rozproszonej). 2. Od rachunku prawdopodobieństwa do wnioskowania statystycznego (zmienne losowe i rozkłady; estymacja parametrów). 3. Weryfikacja hipotez statystycznych (testy parametryczne dla jednej zbiorowości, dla dwóch prób; testy nieparametryczne). 4. Analiza zależności między zmiennymi (korelacja, regresja, ).
Statystyka i pojęcia z nią związane Co to jest statystyka? Zjawiska masowe procesy powtarzające się dużą ilość razy. Przykłady: Procesy gospodarcze (produkcja, konsumpcja, marketing, ), Zjawiska demograficzne (urodzenia, starzenie się ludności, ), Społeczne (preferencje polityczne, ). Statystyka dyscyplina nauki zajmująca się metodami zbierania, opracowywania i analizy danych o zjawiskach masowych.
Statystyka opisowa a wnioskowanie statystyczne Statystyka opisowa prezentacja danych w sposób uporządkowany, prosty z wykorzystaniem, np., miar tendencji centralnej i miar rozproszenia. Pomagają one w redukcji dużej liczby danych do zbioru bardziej zwięzłych i "pojemnych" miar. Wnioskowanie statystyczne pozwala ustalać prawidłowości i podejmować decyzje na podstawie zredukowanej liczby danych (próby) przy zastosowaniu rachunku prawdopodobieństwa. Rachunek prawdopodobieństwa możliwe jest określenie jak błąd popełnia się uogólniając wyniki z próby na całą zbiorowość. WS pełni funkcje wyjaśniające i prognostyczne (predykcja i przewidywanie).
Przykład 1. Statystyka opisowa przykłady Dysponujemy informacjami o realizacji należności z tytułu sprzedaży produktów pewnego przedsiębiorstwa z różnymi terminami płatności: Analiza pojedynczych zapisów transakcji? Dane pogrupowane w tabeli (szereg rozdzielczy): Terminy płatności % sprzedaży w latach - sprzedaż 1994 1995 1996 1997 za gotówkę 70 69 67 71 z terminem płatności 30-dni 20 15 10 5 z terminem płatności 60-dni 7 10 11 13 z terminem płatności 90-dni 3 5 7 6 z terminem płatności 120-dni - 1 5 5
Przykład 2. Rejestracja ruchu samochodowego na autostradzie w oparciu o zapis z punktów pobierania opłat. Różne formy prezentacji danych: Tablice dzienne, tygodniowe, Lecz także inaczej? Typowa, przeciętna liczba samochodów w danym okresie. Na autostradę wjeżdża średnio około 100 samochodów na godzinę średnia miara tendencji centralnej około rozrzut / rozproszenie rozkładu wartości wokół wartości średnich.
Wnioskowanie statystyczne przykłady Badania marketingowe nowego produktu wśród konsumentów: wybór grupy osób; ocena i porównanie z dotychczasowymi produktami, obserwowane różnice oceny produktu, czy można postawić ogólniejsze wnioski wobec zbiorowości wszystkich klientów. Inne przykłady: Badania preferencji wyborczych na podstawie reprezentatywnej próby losowej. Badanie skuteczności nowego leku.
Zbiorowość, populacja i próba Zbiorowość statystyczna - zbiór elementów (osób, obserwacji, przedmiotów,...) podobnych do siebie pod względem określonych cech (ale nie identycznych) i objętych badaniem statystycznym. Jednorodność badanej grupy - składa się z jednostek, które nie różnią się od siebie z punktu widzenia celu badania. Populacja - zbiór elementów obejmujący wszystkie jednostki będące przedmiotem badań. Badanie pełne vs. częściowe. Próba - podzbiór populacji, obejmujący część jej elementów wybranych w określony sposób (losowy lub celowy). Reprezentatywność badanie, które przeprowadza się na części danych, może być również odniesione wszystkich elementów, które nie są badane. Cechy statystyczne - obiekty (jednostki statystyczne, elementy zbiorowości) podlegające badaniu posiadają własności: wspólne stałe dla wszystkich obiektów, zmienne takie, które różnicują obiekty między sobą.
Pomiar cech i skale pomiarowe Model pominięcie części cech rzeczywistych badanego zdarzenia oraz akcentowanie tych aspektów, które są szczególnie użyteczne dla celu badania. Pomiar wybranych zmiennych niezbędnym aspektem definiowania modelu. Pomiar - przyporządkowanie liczb lub odpowiednich symboli obiektom zgodnie z określonymi regułami w taki sposób, aby odzwierciedlały one relacje zachodzące między tymi obiektami. Mierzenie zmiennych Rodzaje zmiennych: 1. Liczba obiektów lub zdarzeń 2. Natężenie lub intensywność występowania pewnej właściwości, którą wykazuje obiekt lub zdarzenie. 3. Częstość (lub częstotliwość) występowania właściwości lub zdarzeń. Obiekty podlegające badaniu mają cechy/właściwości: jakościowe (nominalne), porządkujące i ilościowe.
Typy skal pomiarowych Skale metryczne i niemetryczne Wyróżnia się cztery podstawowe skale pomiarowe: 1. nominalna, 2. porządkowa, 3. przedziałowa, 4. ilorazowa.
Przykład różnych skal pomiarowych Dostępne są dane o pracownikach pewnej uczelni. Pracowni k Specjalność Płeć Wiek Znajomoś ć j. ang. Stanowisko A bazy danych M 45 b.dobra profesor B zarządzanie K 39 dobra adiunkt C marketing M 41 dobre profesor D matematyka M 47 słaba wykładowc a E sieci komp. K 29 b.dobra asystent F j.program. M 36 dobra adiunkt G ekonomia M 34 słaba adiunkt
Skala nominalna - zbiór dwóch lub więcej kategorii jakościowych, które umożliwiają zupełną i rozłączną klasyfikację wyników. Relacje między kategoriami- równość i różność. Liczby przypisywane kategoriom - nie mają innego znaczenia niż odróżnienie jednej kategorii od drugiej. Nie są możliwe działania arytmetyczne na danych w tej skali. Skalowanie binarne - cecha występuje 1, w przeciwnym przypadku 0. Skalowanie trychotomiczne (tak, nie, nie wiem). Przykłady pomiarów wyrażonych w skali nominalnej: płeć, status małżeński, marka handlowa, gatunek towaru, typ posiadanej własności, branża przemysłowa, rodzaj lub profil firmy, rodzaj usług, typ potencjalnego klienta.
Skala porządkowa - wyznaczona przez relację porządkującą niektóre lub wszystkie elementy zbioru wyników. Skala ta pociąga za sobą porządkowanie lub szeregowanie wartości zmiennej, np. uporządkowanie różnych marek handlowych: A, B, C, D. 1 - najbardziej preferowana marka D, 2 - C i 3 -B marki preferowane w dalszej kolejności, 4 - marka A najmniej preferowana. --D----C---------------B--------A- Pomiar porządkowy nie daje informacji o wielkości kolejnych różnic między elementami; nie można porównywać odległości ani dokonywać operacji arytmetycznych. Przykłady: niektóre skale szacunkowe lub pozycyjne, status zawodowy, upodobanie do marki handlowej, gatunku towarów, itp. siły reakcji konsumentów na różne bodźce.
Skale metryczne Skala przedziałowa (interwałowa, równomierna) spełnia własności uporządkowania a ponadto zakłada, że porządkowany zbiór wartości cech składa się z liczb rzeczywistych. Skalę określa się wskazując stała jednostkę miary i relację przyporządkowującą każdemu wynikowi obserwacji liczbę (zero przyjęte arbitralnie ). Działania arytmetyczne, takie jak dodawanie i odejmowania są możliwe. Przykłady: temperatura w skali Celsjusza, wynik finansowy, czas kalendarzowy. Skala ilorazowa posiada własności skali przedziałowej; ponadto pomiary charakteryzują się stałymi stosunkami oraz istnieniem bezwzględnego zera (niearbitralnego). Pomiary określane są na osi R+ wraz z zerem. Każdemu wynikowi obserwacji można przyporządkować liczbę o stałym ilorazie. Można wykonywać operacje arytmetyczne (w tym mnożenie i dzielenie). Przykłady: wiek, dochody, cena towaru, wielkość sprzedaży, upływający czas.
Prezentacja tabelaryczna materiału statystycznego Zmienna skokowa Przykład: W stu kolejnych rzutach kostką otrzymano następujące wyniki: ---- przykład z wykładu Jak opisać powyższą próbę wyników? Podajmy rozkład wartości jakie cecha przyjmuje w próbie. Rozkład liczby oczek w próbie: Wartość (liczba oczek) 1 2 3 4 5 6 Liczność (liczba wystąpień) 16 19 9 17 25 14 Częstość 0,16 0,19 0,09 0,17 0,25 0,14
Prezentacja tabelaryczna materiału statystycznego Przykład 4 Rejestrujemy wiek 20 pracowników zgłaszających się na okresowe badania w pewnym zakładzie pracy. Zaobserwowane wielkości (w latach): 36, 41, 33, 34, 38, 26, 33, 36, 30, 48, 39, 31, 35, 36, 38, 37, 22, 31, 25, 32 Szereg uporządkowany: 22, 25, 26, 30, 31, 31, 32, 33, 33, 34, 35, 36, 36, 36, 37, 38, 38, 39, 41, 48 Liczba różnych wartości w próbie 16. Agregacja danych grupowanie obserwacji z wykorzystaniem przedziałów klasowych.
Przykład 5 cd. Rozpatrzmy następujące przedziały wiekowe: [20,25), [25,30), [30,35), [35,40), [40,45), [45,50). Przedział Klasa Liczność klasy Częstość [20,25) 22 1 1/20=0,05 [25,30) 25,26 2 2/20=0,1 [30,35) 30,31,31,32,33,33,34 7 7/20=0,35 [35,40) 35,36,36,36,37,38,38,39 8 8/20=0,4 [40,45) 41 1 1/20=0,05 [45,50) 48 1 1/20=0,05 9 Histogram (wzrost pracowników) 8 7 6 Liczba obs. 5 4 3 2 1 0 [20,25) [25,30) [30,35) [35,40) [40,45) > 45 wiek (lata)
Wykresy dla danych ilościowych Uporządkowany szereg wartości cechy: x 1, x 2,, x k (x 1 < x 2 < < x k ; k n) Rozkład wartości: (x 1,n 1 ), (x 2,n 2 ), (x k,n k ) Histogram wykres słupkowy umieszczony w układzie współrzędnych; oś rzędnych reprezentuje częstości / liczności a oś odciętych różne wartości zmiennej, wysokość słupków jest proporcjonalna do częstości. Przykłady: Rozkład liczby oczek w próbie: Wartość (liczba oczek) 1 2 3 4 5 6 Liczność (liczba wystąpień) 16 19 9 17 25 14 Częstość 0,16 0,19 0,09 0,17 0,25 0,14 Diagram liczebności wystąpień oczek 30 25 20 15 10 5 0 1 2 3 4 5 6 Liczba oczek
Szeregi statystyczne Grupowanie obserwacji przedziały klasowe. Jak dobierać przedziały klasowe? Przedziały o równej szerokości: Rozpiętość przedziału: h = x max k x min gdzie: x max i x min maksymalna i minimalna wartość cechy, k ustalona wcześniej liczba przedziałów. Ale, skąd wiemy.? Różne techniki heurystyczne, np.: liczba obserwacji niewielka nie więcej niż 5 przedziałów, wielkość przedziału (Koronacki,Malenczuk str. 24). 1 3 h o = 2,64 IQR n (IQR rozstęp międzykwartylowy), Pojęcia powiązane: środek przedziału klasowego x i. Rozkład liczności zbiór wartości zmiennej (lub jej wariantów) oraz liczba przypadków przyjmujących te wartości. Liczności bezwzględne, częstości względne, częstości procentowe, Częstości skumulowane suma częstości wszystkich poprzednich przedziałów aż do danego przedziału włączenie.
Graficzne przedstawianie danych Jeden rysunek jest więcej wart niż 100 słów. Wykresy statystyczne służą do bardziej skondensowanego i poglądowego, w porównaniu do szeregów przedstawienia wyników. Wykresy dla danych jakościowych: Przykład 7: W poniższej tabeli przedstawiono dane dotyczące polskiego importu-eksportu w latach 1992-1995 wyrażone w mln dol. USA (Źródło: Rocznik Statystyczny, 1996, s. 467). Pozycja 1992 1993 1994 1995 Import 1531,2 1837,9 1876,4 2339,2 Eksport 1665,7 1409,8 1735,5 2100,1 Obrót 3169,9 3247,7 3611,9 4439,3 Przykłady prezentacji za pomocą wykresów statystycznych: Histogram słupkowy dla danych ekonomicznych z 1992 roku 3500 3000 (w mln dol USA) 2500 2000 1500 1000 500 0 Import Eksport Obrót
Inne formy prezentacji wykresów statystycznych Histogram słupkowy dla danych ekonomicznych o wymianie z zagranicą 5000 4500 4000 3500 3000 2500 2000 1500 1000 500 0 1992 1993 1994 1995 Import Eksport Obrót Wykres kołowy dla danych z 1992 roku 1531,2 3169,9 Import Eksport Obrót 1665,7 Wykres liniowy 5000 4500 4000 3500 3000 2500 2000 1500 1000 500 0 1992 1993 1994 1995 Import Eksport Obrót
Zadanie domowe: Za książką Koronacki, str 14 = dane dotyczące składu wyznaniowego ludności Warszawy w latach 1864 i 1917. Kategoria Rok 1864 Rok 1917 wyznanowiona Liczebność % Liczebność % Katolicy 131808 59,1 387069 46,2 Prawosławni 3026 1,4 3961 0,5 Ewangelicy 15909 6,7 12147 1,5 Żydzi 72772 32,6 329535 39,3 Inne wyznania 287 0,2 104500 12,5 Proszę przedstawić graficzne powyższe dane. Wykres słupkowu składu wyznaniowy ludności Warszawy w roku 1864 Liczebność 140000 120000 100000 80000 60000 40000 20000 0 Katolicy Prawosławni Ewangelicy Żydzi Inne wyznania
Podsumowanie Omówiono: 1. Pojęcia związane ze statystyczną analizą danych, w tym: cel i zakres badań statystycznych rozróżnienie metod na statystykę opisową i wnioskowanie statystyczne, zbiorowość, populacja, próba, cechy statystyczne. 2. Pomiar cech i skale pomiarowe. 3. Opracowywanie danych w postaci szeregów statystycznych, metody doboru przedziałów klasowych 4. Podstawowe wykresy do graficznego przedstawiania danych. Więcej o wizualizacji danych: późniejsze wykłady + literatura. Warto rozszerzyć wiedzę, np. zapoznać się z zagadnieniami gromadzenia danych i metodyce prowadzenia badań statystycznych, tworzeniem prób,
Wykład nr 2 Statystyka opisowa część 2 Plan wykładu 1. Uwagi wstępne 2. Miary tendencji centralnej 2.1. Wartości średnie 2.2. Miary pozycyjne 2.3. Dominanta 3. Miary rozproszenia 4. Miary asymetrii 5. Miary koncentracji 6. Podsumowanie
Statystyka opisowa Cel zwięzłe przedstawienie ogólnej charakterystyki istotnych właściwości badanej zbiorowości. Podstawowe zadania: 1. Określenie przeciętnej wielkości i rozmieszczenia wartości zmiennej miary położenia / tendencji centralnej. 2. Określenie granic zmienności wartości zmiennej miary rozproszenia (zmienności, dyspersji). 3. Określenie parametrów rozkładu wartości zmiennej miary asymetrii i koncentracji rozkładu oraz podobieństwa struktury. 4. Ocena zmienności zjawisk w czasie. 5. Określenie współzależności zmiennych. Statystyki opisowe w odniesieniu do skal pomiarowych
Średnia arytmetyczna Stosowane dla skal metrycznych Średnia arytmetyczna definiowana jako 1 n x = i = 1xi n gdzie x i wartość i-tego pomiaru, a n liczebność populacji. Przykład: W pewnym doświadczeniu medycznym bada się czas snu (w minutach) pacjentów. Zmierzono u n = 12 losowo wybranych pacjentów czas: 435, 389, 533, 324, 561, 395, 416, 500, 499, 397, 356 i 398. Średni czas 435 + 389 + K+ 398 x = =? 12 Własności średniej arytmetycznej: n ( x i x) i= 1 inne (mniej dogodne później)
Inne rodzaje średnich arytmetycznych Średnia ważona (w i to tzw. wagi): x = n w i i= 1 n w i= 1 x Przykład testu psychologicznego: i i A co z szeregami rozdzielczymi? Średnia szeregu punktowego: Jeśli wartości wyników, jakie przybiera zmienna w próbie x 1, x 2,, x k występują z licznością n 1, n 2,, n k, to średnia arytmetyczna jest zdefiniowana jako: k ni xi x = i= 1, n gdzie k jest liczbą różnych wartości zmiennej, a n = k n i i= 1.
Średnia arytmetyczna dla szeregu rozdzielczego przedziałowego zdefiniowana jako: ni x& i x = i= 1, n gdzie k jest liczbą różnych wartości zmiennej, n i liczność i-tego przedziału klasowego, k x& i wartość środkowa (średnia) i-tego przedziału klasowego. Komentarz jest to przybliżony sposób obliczeń. Przykład 4. Czy dotychczasowe sposoby wyznaczania średniej są zawsze właściwe? Ograniczenia średniej arytmetycznej: wartości skrajne mają silny wpływ na jej wartość, średniej arytmetycznej nie można policzyć, gdy skrajne przedziały szeregu są rozwarte, traci swoją wartość poznawczą w przypadku rozkładów silnie asymetrycznych i wielomodowych, nieadekwatna dla niemetrycznych skal, prób małolicznych.
Przykład obliczenia średniej z szeregu Rozważmy rozkład miesięcznych zasadniczych wynagrodzeń pracowników zatrudnionych w pewnej firmie. 6 pracowników ma wynagrodzenie 2500 zł, 6 ma 3000 zł, 7 3100 zł, 4 3500 zł, 3 4000 zł, 2 5000 zł a jeden zarabia 12000 zł. Oblicz średnie wynagrodzenie pracownika z wyższym wykształceniem. 1 x = (6 2500 + 8 3000 + 7 3100 + K+ 1 12000) 31 Czy to jest wiarygodna informacja? Np. dla kandydata zgłaszającego się do pracy =? Sprawdźmy jak wygląda histogram częstości?
Inne rodzaje średnich Średnia ucinana (z parametrem k) : x = 1 n k = tk n 2 k x i i k + 1 Średnie dla analizy dynamik zjawisk i stosowane dla skal ilorazowych Średnia geometryczna stosowana dla oceny średniego tempa zmian zjawiska w czasie (oraz gdy w szeregu występują znaczne różnice między obserwacjami; mniej wrażliwa na krańcowe obserwacje odstające ). Zdefiniowana jako: x = x x K n G 1 2 x n Średnie harmoniczne: Używana, gdy wartości zmiennej podane są w jednostkach względnych, np. przeciętna szybkość (w km/godz), przeciętna cena towarów (wyrażona w liczbie jednostek za jednostkę pieniężną), gęstość zaludnienia (os/km 2 ). Średnia harmoniczna prosta zdefiniowana jako x h = n n i = 1 1 x i
Miary pozycyjne Określają pozycję pewnego (typowego) przypadku w stosunku do innych przypadków (ze względu na ich położenie w zbiorowości). Mediana (wartość środkowa) próby Jest to wartość, dla której dokładnie połowa wyników w próbie jest od niej mniejsza lub równa, a druga połowa jest od niej większa lub równa. Jak wyznaczać medianę? x med = x( ( n+ 1) 2) 0,5 ( x( n 2) + x( n 2+ 1) ) gdy n jest nieparzyste gdy n jest parzyste Przykład 9. Zapytano 7 osób o wiek i otrzymano następujące odpowiedzi: 18, 21, 43, 27, 51, 35, 29 lat. Wyznacz medianę.
Wyznaczenie mediany z szeregu rozdzielczego: h0 n x med = x0 + ( F 1 ) n0 2 gdzie: x 0 dolna granica przedziału klasowego, który zawiera pierwszych 50% skumulowanych częstości. h 0 rozpiętość przedziału klasowego zawierającego medianę. n 0 częstość odpowiadająca przedziałowi klasowemu zawierającego medianę. n ogólna liczna obserwacji. F -1 częstość skumulowana przedziału poprzedzającego przedział klasowego, który zawiera pierwszych 50% skumulowanych częstości. Przykład obliczeń:
Kwantyle (decyle, kwartale, percentyle) Wartości cechy (mierzonej na skali, co najmniej porządkowej), które dzielą próbę na określone części pod względem liczby obserwacji. Najczęściej stosowane: kwartale (podział na 4 części), decyle (podział na 10 części), percentyle (podział na 100 części), Ilustracja graficzna:
Dominanta (wartość modalna, moda) Definicja: jest to ta kategoria zmiennej nominalnej (lub porządkowej czy wartość liczbowa), która występuje najczęściej. Przykład. Zbadano marki komputerów, które używa 10 osób. Są one następujące: HP, Del, Cm, HP, IBM, Cm, Cm, No, Cm, IBM. Wyznaczyć wartość modalną. Wyniki pomiarów powinny być wcześniej pogrupowane w odpowiednie szeregi. Wyznaczanie dominanty jest dopuszczalne, gdy rozkład zmiennej jest, jednomodalny a jego asymetria jest umiarkowana. Jeśli zbiorowość jest niejednorodna, a rozkład zmiennej ma 2,3 lub więcej szczytów to mówimy o rozkładach binominalnych, trimodalnych, itd.
Wyznaczenie dominanty z szeregu rozdzielczego: n0 n x 1 mod = x0 + h0 ( n0 n 1) + ( n0 n+ 1) gdzie: x 0 dolna granica przedziału klasowego z największą częstością. h 0 rozpiętość przedziału klasowego zawierającego dominantę n 0 częstość odpowiadająca przedziałowi klasowemu z największą częstością. n -1 częstość odpowiadająca przedziałowi poprzedzającemu. n +1 częstość odpowiadająca przedziałowi następnemu. Przykład:
Miary rozproszenia Nazywane także miarami zmienności lub dyspersji. Służą do oceny czy wartości cechy są bardzo rozproszone lub skoncentrowane wokół wartości przeciętnej. Miary rozproszenia są zależne od skali pomiarowej. Skala przedziałowa Rozstęp (różnica między pomiarem najwyższym i najniższym). Odchylenie średnie R = x max x min D m n = i = 1 x n i x Wariancja i odchylenie standardowe: wariancja w próbie n ( ) 2 1 = = x x s i i n 1 odchylenie standardowe s pierwiastek z wariancji 2 n ( x x) i s = i= 1 n 1 Różnice w obliczaniu dla próby i populacji --- n vs. (n 1) 2
Przykład: W dwóch grupach chorych zmierzono ciśnienie skurczowe krwi. Otrzymano następujące wyniki: (Grupa-1 145, 125, 130, 155, 140, 150, 135) (Grupa-2 115, 150, 100, 180, 140, 165, 130). Oblicz podstawowe miary tendencji centralnej i rozproszenia. Własności odchylenia standardowego: jest tym większe, im większy jest rozrzut wokół średniej, gdyby wszystkie pomiary były sobie równe, odchylenie standardowe również byłoby równe zero, w przypadku rozkładu normalnego obowiązuje tzw. reguła trzech sigm. Inne komentarze: żaden wskaźnik rozproszenia nie powinien zmieniać swej wartości, gdy do wszystkich elementów próby zostanie dodana ta sama liczba (dodatnią lub ujemną), pomnożenie każdego elementu próby przez tę samą liczbę powinno prowadzić do pomnożenia wskaźnika przez wartość bezwzględną tej liczby, wskaźniki rozproszenia nie są odporne na wartości odstające w próbie.
Inne miary rozproszenia Skala nominalna miary informacji (np. entropia rozkładu danych). Skala porządkowa rozstęp międzykwartylowy - ćwiartkowy (przedział między kwartylem pierwszym a trzecim). IQR = Q 3 Q 1 Skala ilorazowa tzw. względne miary zróżnicowania Współczynnik zmienności: s V s = x Stosowany w porównywania siły dyspersji: kilku zbiorowości pod względem tej samej zmiennej, jednej zbiorowości, ale ze względu na kilka różnych zmiennych. Przykład:
Miary asymetrii Po co są potrzebne? Przykład ilustracyjny Badano czas reakcji (w minutach) na lek w trzech grupach 100- osobowych. Dane przedstawiono w poniższej tabeli Czas reakcji Grupa 1 Grupa 2 Grupa 3 10,20 10 5 10 20,30 20 35 25 30,40 40 25 25 40,50 20 25 35 50,60 10 10 5 Średnia arytmetyczna i wariancja są jednakowe dla wszystkich grup i wynoszą x =35 oraz s 2 =120. Ale czy grupy są identyczne? A co z wizualizacją rozkładów? Wykonajmy histogramy!
Grupa1 liczba osób 50 40 30 20 10 0 10,20 20,30 30,40 40,50 50,60 Czas reakcji na lek (min) Grupa2 Liczba osób 40 35 30 25 20 15 10 5 0 10,20 20,30 30,40 40,50 50,60 Czas reakcji na lek (min) Grupa3 liczba osób 40 35 30 25 20 15 10 5 0 10,20 20,30 30,40 40,50 50,60 Czas reakcji na lek (min) Dokonaj interpretacji!
Podsumowanie 1. Kompleksowe podejście do analizy danych przy pomocy miar statystyki opisowej polega na wyznaczeniu, o ile to możliwe, wszystkich niezbędnych rodzajów średniej, przynajmniej jednej miary rozproszenia oraz miar skośności rozkładu. 2. Warto wykonać i analizować graficzne kształty rozkładów wartości zmiennej w próbie. 3. Wybór miar położenia i rozproszenia jest zależny od rodzaju skali pomiarowej i specyfiki rozkładów wartości. 4. Podczas wykładu omówiono przede wszystkim: miary średnie (różnego rodzaju) miary pozycyjne i dominantę, podstawowe miary rozproszenia dla skal przedziałowej i porządkowej, zjawiska asymetrii i zmiany koncentracji rozrzutu wartości. Nie omówiono wszystkich miar stosowanych w statystyce opisowej! Warto rozszerzyć wiedzę, np. wskaźnikami stosowanymi do analizy dynamiki zjawisk, w szczególności, tzw. metody indeksowe stosowane do analizy szeregów czasowych, Warto samodzielnie czytać książki NAPRAWDE WARTO!