ZAAWANSOWANE TECHNIKI KOMPUTERWEJ ANALIZY DANYCH dr Adam SOJDA lato 2016
ZTKAD - wiadomości wstępne Warunki zaliczenia przedmiotu Egzamin - zadania - proste obliczenia, test wyboru, analiza zrzutów ekranowych Projekt - zaliczenie Test Praktyczny - przy komputerze Pozytywna ocena końcowa zaliczenie wszystkich elementów na co najmniej ocenę dostateczny (3.0) Ocena końcowa średnia ważona - 0.4 / 0.2 / 0.4 za E / P /TP
ZTKAD - wiadomości wstępne Materiały: http://dydaktyka.polsl.pl/roz6/asojda/ default.aspx Szukamy Google dydaktyka sojda wykłady laboratorium wyniki egzaminu
ZTKAD - podręczniki Anna Malarska statystyczna analiza danych wspomagana programem SPSS SPSS Kraków 2005
ZTKAD - podręczniki Andrzej Stanisz Przystępny kurs statystyki z zastosowaniem STATISTICA PL na przykładach z medycyny StatSoft Polska stron 1900
ZTKAD - podręczniki Przemysław Biecek Przewodnik po pakiecie R https://cran.r-project.org/doc/ contrib/biecek-r-basics.pdf
ZTKAD - podręczniki Jinjer Simon Excel. Profesjonalna analiza i prezentacja danych Helion
ZTKAD - podręczniki Dobosz M. Wspomagana komputerowo statystyczna analiza wyników badań. EXIT. Warszawa 2004 Górniak J., Wachnicki J.: Pierwsze kroki w analizie danych SPSS for Windows Wydawnictwo SPSS Kraków 2004 Luszniewicz A., Słaby T.: Statystyka z pakietem komputerowym Statistica PL. Wydawnictwo C.H. Beck W-wa 2001 Nawojczyk M.: Przewodnik po statystyce dla socjologów. Wydawnictwo SPSS Kraków 2010 Bedyńska S. (red), Statystyczny Drogowskaz, Tom 1-3, Wydawnictwo Akademickie i Profesjonalne sp. z o.o., Warszawa 2012
ZTKAD - programy IBM SPSS - dostarczony Statistica PL - strona CK POLSL https://www.polsl.pl/jednostki/rjp2/strony/ Witamy.aspx R, RStudio - darmowy https://www.rstudio.com/home/ Excel - we własnym zakresie Open Office - darmowy https://www.openoffice.org/pl/
ZTKAD - wiadomości podstawowe Informatyka umiejetność obsługi programu Excel, Word - inny edytor i arkusz kalkulacyjny Statystyka elementy statystyki opisowej średnia, wariancja, odchylenie standardowe, dominanta, kwantyle, współczynnik asymetrii, zmienności, kurtoza badanie zależności pomiędzy zmiennymi: współczynnik korelacji liniowej Pearsona statystyka χ 2 i miary na miej konstruowane wariancja wewnątrz i międzygrupowa
ZTKAD - wiadomości podstawowe elementy statystyki matematycznej zmienna losowa i jej parametry i rozkłady wartość oczekiwana, wariancja, rozkłady teoretyczne: normalny, χ 2, t-studenta, F jednostajny Poissona testowanie hipotez statystycznych badanie zgodności z rozkładem normalnym testy o średniej, średnich testy o wskaźniku struktury inne
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA (z fr. enquête, dosł. "zebranie świadectw w celu wyjaśnienia problemów wymagających rozstrzygnięcia ) - technika używana w naukach społecznych posługująca się narzędziem zwanym kwestionariuszem ankiety. Jest specyficzną, pisemną formą wywiadu, należącą do badań skategoryzowanych, które są ściśle określone przez zespół reguł i zasad właściwych dla określonego badania. Ankiety służą do zebrania dużej liczby informacji o zjawiskach występujących w społeczeństwie przy wykorzystaniu z reguły małych nakładów sił i środków
ZTKAD - Ankieta - podstawowe narzędzie badacza ankieta jest arkuszem z wydrukowanymi na nim pytaniami i wolnymi miejscami na wpisywanie odpowiedzi lub też z gotowymi odpowiedziami, spośród których osoby badane wybierają te, które uważają za prawidłowe ankieta jest techniką gromadzenia informacji polegającą na wypełnieniu najczęściej samodzielnie przez badanego specjalnych kwestionariuszy na ogół o wysokim stopniu standaryzacji w obecności lub częściej bez obecności ankietera technika pośredniego zdobywania informacji przez pytania stawiane wybranym osobom za pośrednictwem drukowanej listy pytań kwestionariusza
ZTKAD - Ankieta - podstawowe narzędzie badacza PODZIAŁ ANKIET ze względu na dostęp do informacji o respondencie: jawne (imienne) ankiety, które mogą wskazać na osobę respondenta ze względu na zawarte w nich pytania, np. pytania o wiek, miejsce zamieszkania, miejsce urodzenia, anonimowe (bezimienne) - nie są podpisywane, ponadto nie zawierają żadnych pytań, które mogłyby ujawnić osobę respondenta, gdyby na nie odpowiedział. Ankiety anonimowe cieszą się lepszym powodzeniem, ponieważ respondenci chętniej, częściej i rzetelniej odpowiadają na pytania. ze względu na częstotliwość przeprowadzania: jednorazowe (sporadyczne) badające dane zjawisko w danym momencie tylko raz, okresowe (badania panelowe) ankiety wielokrotnie powtarzane wśród tej samej zbiorowości w równych odstępach czasu, np. kwartał.
ZTKAD - Ankieta - podstawowe narzędzie badacza RODZAJE PYTAŃ pytania otwarte pozwalają respondentowi na całkowitą swobodę wypowiedzi, pytania półotwarte pozwalają na zaprezentowanie własnej odpowiedzi oprócz innych zaproponowanych wcześniej wariantów dotyczących pytania, pytania zamknięte rodzaj pytań zaopatrzonych w listę wcześniej przygotowanych możliwości odpowiedzi do wyboru, dostarczających ujednoliconych i zestandaryzowanych odpowiedzi, które w efekcie są łatwe do analizy i skracają czas przeprowadzania badań Typ pytań zamkniętych: koniunktywny pozwala na wybranie kliku możliwych odpowiedzi, dysjunktywny pozwala na wybranie tylko jednej odpowiedzi, alternatywny pozwala na wybranie jednej odpowiedzi np. TAK/ NIE
ZTKAD - Ankieta - podstawowe narzędzie badacza RODZAJE PYTAŃ pytania filtrujące pytania stosowane w celu dokonania eliminacji tych osób, których nie dotyczy dane pytanie. Pomagają uniknąć błędów logicznych i merytorycznych, związanych z zadawaniem pytań osobom, których nie dotyczą, pytania kontrolne pomagają zweryfikować szczerość udzielanych odpowiedzi przez respondenta, pytania projekcyjne pytania zadawane są nie wprost, lecz pośrednio, co powoduje, że badany wyrazi swoją opinię. np. respondent, pracownik firmy XYZ, nie jest pytany o to, jak ocenia pracę zarządu, lecz jaka jest według niego opinia pozostałych pracowników na ten temat, pytania rangowane są to pytania, w których respondent zostaje poproszony o ponumerowanie gotowych odpowiedzi wg określonego kryterium np. od najmniej istotnych dla siebie do najbardziej, pytania metryczkowe obejmują cechy demograficzno-społeczne badanego, jak: wiek, płeć, wykształcenie, wykonywany zawód, stan cywilny itd.; zaleca się, aby były umieszczone na końcu kwestionariusza
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Pytanie 1 wiek samochodu: podać dokładny rok produkcji: wybrać jeden z przedziałów np. 1-2 2-5 5-10 10-15 15-25 powyżej 25
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Pytanie 2 kolor samochodu: biały niebieski zielony żółty srebrny czerwony czarny
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Pytanie 3 dzień przeznaczony na naukę poniedziałek wtorek środa czwartek piątek sobota niedziela
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Pytanie 4 ulubiony gatunek filmowy (zaznacz maksymalnie 2) komedia dramat melodramat SF sensacyjny horror XXX
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Pytanie 4 a Najwięcej przyjemności sprawia mi oglądanie następujących kategorii filmów XXX kategoria zdecydowanie się nie zgadzam raczej się nie zgadzam nie mam zdania raczej się zgadzam zdecydowanie się zgadzam xxx
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Uwaga: pytanie 4 a należy do grupy drażliwych respondent może nie być szczery respondent może nie chcieć odpowiedzieć na pytanie pytania nie powinno się zadawać respondentowi
ZTKAD - Ankieta - podstawowe narzędzie badacza Ankiety zebrane
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Czas na wersję elektroniczną jaki format zapisu danych uniwersalne formaty plików *.csv - tekst rozdzielony znakami tabulacji *.xls - arkusz excel kodowanie znaków - UFT-8 polskie znaki - tylko w konieczności (windows-1250, iso-8859-2, UTF-16, UTF-18) wybór programu do analizy danych funkcje umiejętność obsługi i prostota dostosowanie do potrzeb
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Zakładamy bazę danych z wypełnionych ankiet wyniki z ankiety - wiersz pytania kolumny numerujemy ankiety - jedna kolumna na numer identyfikacyjny ankiety pierwszy wiersz informacja o kolejnych pytaniach CZY WPISUJEMY CAŁE PYTANIE?
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA ID Pyt_1_rok_ prod Pyt_1_rok_prod _przedz Pyt_2_kolor Pyt_3_dzień 100001 2010 5-10 niebieski poniedziałek 100002 2015 1-2 zielony poniedziałek 100003 2013 2-5 żółty poniedziałek 100004 2014 1-2 czerwony niedziela 100005 2010 5-10 czerwony sobota 100005 1970 powyżej 25 zielony wtorek CZY WPISUJEMY CAŁE PYTANIE? ZAWSZE BRAKUJE MIEJSCA
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA ID Pyt_4_1_film Pyt_4_2_film 100001 komedia SF 100002 SF - 100003 XXX - 100004 - - 100005 dramat SF 100005 komedia SF
ZTKAD - Ankieta - podstawowe narzędzie badacza BRAKUJE DANYCH w analizach braki danych - oznaczają miejsca w danych, dla których wartości nie są znane. dlaczego powstają braki danych: naturalne - nie otrzymaliśmy wszystkich wyników, nie wróciły wszystkie wysłane ankiety część danych została usunięta brak odpowiedzi przez respondenta nie chciał odpowiedzieć, nie wiedział co odpowiedzieć i nie było takiej opcji, celowo nie odpowiedział, bo mógł (max 3 a wybiera 2) pytanie nie było dla niego np. osoby niepalącej nie pytamy się o ulubioną markę papierosów.
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA wpisywanie ręczne danych za każdym razem poniedziełek poniedziałek CZY MOŻNA TO UPROŚCIĆ? ZAKODOWAĆ ODPOWIEDZI
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA pytanie zmienna (zmienne) cecha(y) statystyczna(e) Co czyta komputer, program? liczba rzeczywista, całkowita ciąg znaków, znak wartości logiczne {prawda, fałsz} To wartości jakie może przyjmować zmienna. Nie mieszamy tych kategorii, jak liczby to liczby, jak znaki to znaki, jak wartości liczbowe, to wartości liczbowe. Wyjątek pusty.
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Płeć: kategoria kodowanie_1 znak kodowanie_2 liczba Kobieta K 0 Mężczyzna M 1 Uwaga: co jest liczbą program potraktuje jak liczbę!!
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA KODOWANIE - zamieniamy wartości na liczby w sposób naturalny, jak najbardziej prosty i konsekwentny Liczba zostaje liczbą Logiczne: Fałsz - 0 Prawda - 1 Znaki: dni tygodnia (są różne sposoby kodowanie dni tygodnia zobacz excel ) PN - 1, WT - 2, ŚR - 3, CZ - 4, PT - 5, SO - 6, ND - 7 kolory: dowolny sposób kolejność jak w ankiecie
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA KODOWANIE braków danych wszystkie wartości zmiennych to liczby, zatem brak danych też powinien być LICZBĄ albo komórka powinna być pusta W programach istnieją dwa rodzaje braków danych: systemowe - pusta komórka -. zdefiniowane - nie dotyczy, nie wiem, nie chcę odpowiadać Jaką liczba? zmienna ma 10 kategorii brak danych zakodujemy liczbą odstającą od normalnych kategorii np. 999, 998, 997
ZTKAD - Ankieta - podstawowe narzędzie badacza ANKIETA Co z brakami danych pomijamy, uzupełniamy np. jakąś wartością? programy oferują opcje zastępowania braków danych
ZTKAD - Analiza danych - WPROWADZENIE Zbiorowość statystyczna - zbiór dowolnych elementów (osób, przedmiotów, faktów) podobnych pod względem określonych cech (ale nie identycznych) poddanych badaniu statystycznemu. Zbiorowość (populację) generalną stanowią wszystkie elementy będące przedmiotem badania, co do których chcemy formułować wnioski ogólne. Zbiorowość próbna (próba) podzbiór populacji generalnej, obejmujący część jej elementów. Badaniom podlega próba, wnioski są uogólniane na zbiorowość generalną. Próba mała n 30, próba duża n >30.
ZTKAD - Analiza danych - WPROWADZENIE Reprezentatywność próby zależy od: nieobciążoności losowy dobór elementów, struktura próby jest podobna do struktury populacji schematy losowania elementów do próby uzupełnić uzupełnić liczności próba powinna mieć odpowiednią liczbę elementów
ZTKAD - Analiza danych - WPROWADZENIE Cechy statystyczne własności, którymi charakteryzują się jednostki statystyczne (obiekty). PODZIAŁ I Cechy stałe wspólne wszystkim jednostkom danej zbiorowości i nie podlegają badaniu, ale decydują o przynależności: rzeczowe co lub kogo poddajemy badaniu, przestrzenne gdzie badamy, czasowym okres badania. Cechy zmienne własności, które różnią poszczególne jednostki statystyczne.
ZTKAD - Analiza danych - WPROWADZENIE PODZIAŁ II Cechy niemierzalne jakościowe - określane za pomocą określeń słownych np. preferencje polityczne, kolor oczu, ulubiony gatunek filmowy, Cechy mierzalne ilościowe - warianty możemy wyrazić liczbowo za pomocą jednostek fizycznych, np. waga, wzrost, czas dojazdu, czas reakcji na bodziec, Cechy skokowe przyjmują tylko niektóre wartości. Stanowią je najczęściej podzbiory zbioru liczb całkowitych np. liczba dzieci, Cechy ciągłe przyjmują dowolną wartość z przedziału liczbowego np. czas Cechy quasi-mierzalne cechy o charakterze porządkowym np. oceny w szkole.
ZTKAD - Analiza danych - WPROWADZENIE Cechy przyjmują określony rozkład. Rozkład jest reprezentowany w postaci par liczb w formie tabelarycznej lub graficznej, gdzie zbiór wariantów cechy zestawiony jest z odpowiadającymi im liczebnościami (częstościami). 30% Wykres kołowy 16% czerwony zielony biały czarny fioletowy 400 HISTOGRAM 21% Wykres słupkowy 20% 13% 300 22 21 200 17 15 14 100 11 11 9 6 0 10-20 20-30 30-40 40-50 2012 0 czerwony zielony biały czarny fioletowy
ZTKAD - Analiza danych - WPROWADZENIE Opis statystyczny analiza rozkładu cechy dokonana za pomocą określonych procedur statystycznych. Efektem opisu statystycznego są pewne charakterystyki liczbowe. Wnioskowanie statystyczne - wyciąganie wniosków odnośnie populacji generalnej na podstawie danych uzyskanych z próby. Pomiar - ustalenie poziomu natężenia badanej cechy. Jest to procedura przyporządkowania wariantom cech statystycznych różnych symboli. Rolę symboli może pełnić: liczba np. 80 kg, 30 min; słowo np. kobieta, mężczyzna ; symbol np..
ZTKAD - Analiza danych - WPROWADZENIE poziom nominalny - podstawowe rozróżnienie i podział obiektów ze względu na charakteryzujące je odmiany. kategoriom czy też wariantom cechy można przypisać pewne liczby np. kobieta - 1, mężczyzna - 2. Liczby te spełniają jedynie rolą nazw kategorii - nie można wykonywać na nich żadnych operacji matematycznych. (programy statystyczne mogą wymagać kodowania zmiennych za pomocą wartości liczbowych, bądź tekstowych), poziom porządkowy - pozwala się na uporządkowanie jednostek według stopnia natężenia tej cechy. posiadana wiedza nie pozwala na ocenę o ile bardziej czy też o ile większe są od siebie poszczególne kategorie, poziom ilościowy - interwałowy (przedziałowy) - można ocenić różnice pomiędzy poszczególnymi kategoriami, poziom ilościowy - ilorazowy - występuje zero absolutne (fizyczny punkt zerowy) np. waga, wzrost, wiek, dochody.
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej dane obserwacje zmiennej : x 1,,x n średnia - dowolna funkcja f(x 1,,x n ) spełniająca warunek min{x 1,,x n } f(x 1,,x n ) max{x 1,,x n } rodzaje: średnia arytmetyczna, średnia geometryczna, średnia harmoniczna, średnia ucinana, średnia ważona, średnia winsorowska
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej dane obserwacje zmiennej : x 1,,x n średnia arytmetyczna x = n x i i=1 n = x 1 +...+ x n n średnia geometryczna x g = n x i i=1 n = x 1... x n n średnia harmoniczna x h = n n i=1 1 x i = 1 n x 1 +...+ 1 x n
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia ucinana (trimmed) - wartości porządkuje się odrzuca się pewien procent wartości (k-wartości) najmniejszych i największych z pozostałych wyznacza się średnią x tk = n k i=k+1 x i ( ) n 2k = x k+1 ( ) +...+ x ( n k) n 2k
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia winsorowska - wartości porządkuje się a pewien procent wartości najmniejszych i największych zastępuje się najbliższą nie odrzuconych wartością. x wk = ( k)x k+1 n k i=k+1 ( ) + x i n ( ) + ( k)x ( n k) = k x k+1 ( ) + x k+1 ( ) +...+ x n k ( ) + k x n k ( ) n
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej dane obserwacje zmiennej : x 1,,x n średnia ważona dla kolejnych wartości zmiennych ustala się nieujemne wagi, z których przynajmniej jedna jest większa od zera wagi do obserwacji : w 1,,w n x w = n i=1 n i=1 w i x i w i = w 1x 1 +...+ w n x n w 1 +...+ w n
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Średnia - wyznaczamy Zadanie Dla kolejnych wartości 1, 2,, 10 wyznaczyć powyższe średnie. Dla średniej ważonej waga kwadrat wartości - wagi: 1, 4, 9, 16, 25,, 100 Dla średniej uciętej i winsorowskiej k=2
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia arytmetyczna: x = n x i i=1 n = x 1 +...+ x n n x == 1+ 2 + 3+ 4 + 5 + 6 + 7 + 8 + 9 +10 10 = 55 10 = 5,5
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia geometryczna: x g = n x i i=1 n = x 1... x n n x g == 10 1 2 3 4 5 6 7 8 9 10 = 10 3628800 = 4,5287
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia harmoniczna: x h = n n i=1 1 x i = 1 n x 1 +...+ 1 x n x h = 10 1 1 + 1 2 + 1 3 + 1 4 + 1 5 + 1 6 + 1 7 + 1 8 + 1 9 + 1 10 = 10 2,9290 = 3,4141
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia ucinana - 2 najmniejsze i 2 największe wartości x tk = n k i=k+1 x i ( ) n 2k = x k+1 ( ) +...+ x ( n k) n 2k x == 3+ 4 + 5 + 6 + 7 + 8 10 4 = 33 6 = 5,5
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia winsorowska - 2 najmniejsze i 2 największe wartości x wk = ( k)x k+1 n k i=k+1 ( ) + x i n ( ) + ( k)x ( n k) = k x k+1 ( ) + x k+1 ( ) +...+ x n k ( ) + k x n k ( ) n x = 3+ 3+ 3+ 4 + 5 + 6 + 7 + 8 + 8 + 8 10 = 55 10 = 5,5
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej średnia ważona x w = x w = n i=1 n i=1 w i x i w i = w 1 x 1 +...+ w n x n w 1 +...+ w n 1 1+ 4 2 + 9 3+16 4 + 25 5 + 36 6 + 49 7 + 64 8 + 81 9 +100 10 1+ 4 + 9 +16 + 25 + 36 + 49 + 64 + 81+100 x w == 3025 385 = 7,8571
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej Kwantylem rzędu p (0 < p < 1) ozn. k p nazywamy taką wartość cechy, że p100% obserwacji w zbiorze ma wartości nie większe od niej. Kwartyl pierwszy Q 1 dzieli zbiorowość uporządkowana na dwie części w ten sposób, że 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu, a 75% ma wartości równe bądź wyższe od tego kwartyla. Kwartyl drugi mediana (M e ), wartość środkowa Q 2 dzieli zbiorowość na dwie równe części; połowa ma wartości mniejsze bądź równe wartości mediany, a połowa wartości cechy równe bądź większe medianie. Kwartyl trzeci Q 3 dzieli zbiorowość uporządkowana na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi trzeciemu, a 25% ma wartości równe bądź wyższe od tego kwartyla.
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej Mediana (M e ) (zwana też wartością środkową, wartością przeciętną lub drugim kwartylem) wartość cechy w szeregu uporządkowanym, powyżej i poniżej której znajduje się jednakowa liczba obserwacji. Mediana jest kwantylem rzędu 0,5 (k 0,5 ), czyli drugim kwartylem (Q 2 ). Np. 2,2,2,3,3,4,4,5,6 Mediana M e = 3 Np. 2,2,2,3,3,4,4,5,6,7 Mediana M e = 3,5
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej x i n i n i przedział liczebności 0-20 10 10 (1..10] 20-40 30 40 (10 40] 40-60 50 90 (40 90] k p = x 0 + pn ni h 0 n 0 k 0,5 = x 0 + 0,5 120 ni pn = 0,5 120 = 60 n 0 20 60-80 20 110 (90 110] 80-100 10 120 (110 120] k 0,5 = 40 + 60 40 50 20 k 0,5 = 48
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej Dominanta - wartość pojawiająca się najczęściej - moda, modalna (ozn. D o, M o ) Np. 2,2,2,3,3,4,4,5,6 Dominanta D o =2 30% Wykres kołowy 16% czerwony zielony biały czarny fioletowy 20% 13% 21% Dominanta D o = fioletowy
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Miary tendencji centralnej, środkowej Dominanta - wartość pojawiająca się najczęściej - moda, modalna (ozn. D o, M o ) 50 D o = x 0 + ( n 0 n ) ( n 0 n ) + ( n 0 n ) h 0 + 37,5 25 12,5 0 10 30 50 20 10 0 20 40 60 80 100 D o = 40 + D o = 40 + D o = 40 + ( n 0 n ) ( n 0 n ) + ( n 0 n ) 20 + ( 50 n ) ( 50 n ) + ( 50 n ) 20 + ( 50 30) 50 30 ( ) + ( 50 20) 20 = 48
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Współczynnik asymetrii rozkŀad skrajnie asymetryczny rozkŀad jednomodalny rozkŀad skrajnie asymetryczny 140 140 140 105 105 105 70 70 70 35 35 35 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Współczynnik asymetrii 140 rozkŀad siodŀowy 120 90 rozkŀad bimodalny 105 60 70 35 30 0 1 2 3 4 5 6 7 8 9 120 rozkŀad wielomodalny 0 1 2 3 4 5 6 7 8 9 90 60 30 0 1 2 3 4 5 6 7 8 9
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Współczynnik asymetrii - skośności - informuje, czy przeważają wartości poniżej, czy też powyżej poziomu przeciętnego. rozkład symetryczny - x = D O = M e asymetria prawostronna - przeważnie - x > M e > D O asymetria lewostronna - przeważnie - x < M e < D O
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Współczynnik asymetrii Współczynniki asymetrii: klasyczny: A = m 3 s 3 klasyczno- pozycyjny: pozycyjny: A s = x D O s ( ) ( Q Q ) 2 1 ( ) + ( Q Q ) 2 1 A = Q Q 3 2 Q Q Q 3 2
ZTKAD - Analiza danych - Opis statystyczny - jedna zmienna Współczynnik skupienia KURTOZA miara koncentracji - miara skupienia wartości zmiennej wokół średniej. K = m 4 s 4 m k = N i=1 ( x i x ) k N