Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl
Wprowadzenie Podstawowe cele analizy zbiorów danych Uogólniony opis poszczególnych cech/zmiennych-statystyka opisowa; analiza struktury zbioru danych -rozkłady empiryczne zmiennej Odkrywanie i badanie zależności występujących pomiędzy zmiennymi Weryfikacja hipotez statystycznych Narzędzia: metody statystyki matematycznej pakiety statystyczne Statgraph, Statistica moduły statystyczne w arkuszach kalkulacyjnych, bazach danych
Temat: Wstępna analiza danych
Na czym polega Wstępna analiza danych: Ile danych: ile zmiennych (cech: Płeć, wykształcenie, staż, zarobki) ile przypadków (1255) Jakie typy dane jakościowe (płeć, wykształcenie) dane ilościowe (staż pracy, płaca) Ile braków, jakie, jak je zastąpić
Statystyki opisowe
Statystyka Opisowa Parametrami statystycznymi ( statystykami) nazywamy liczby umożliwiające sumaryczny opis zbiorowości. Parametry te tak dokładnie charakteryzujązbiorowość, że mogąbyćwykorzystane do porównywania różnych zbiorowości. Wyróżnia sięnastępujące grupy parametrów statystycznych: Miary położenia (klasyczne i pozycyjne) Miary zmienności Miary asymetrii i koncentracji
Miary położenia Średnie arytmetyczna, ważona harmoniczna geometryczna Moda- dominanta Kwantyle kwartyl pierwszy mediana (kwartyl drugi) kwartyl trzeci decyl percentyl
x Estymatory punktowe parametrów statystycznych Obliczanie wartości średnich = 1 n n i = 1 Średnia arytmetyczna x i x... = n x x x g 1 2 n Średnia geometryczna x n i = 1 = n i = 1 x i w w Średnia ważona, gdzie wagi w i >0 x h = n i = i i 1 n Średnia harmoniczna 1 x i
Moda (dominanta) W rozkładach empirycznych określa się dominantę (modę), tj. najczęściej występującą wartość cechy M o = x o + n n m m 1 ( nm nm 1) + ( nm nm + 1 ) h m gdzie x 0 - dolna granicą przedziału w którym występuje moda, h m - rozpiętość przedziału klasowego, n m, n m-1, n m+1 - liczebności odpowiednio przedziału z modą, poprzedniego i następnego
Graficzne wyznaczanie mody histogram 30 25 20 liczebność 15 10 5 0 Mo 6 12 18 24 35 36 42 48 54 wiek
Mediana wzór interpolacyjny dla zmiennej ciągłej Medianą rozkładu empirycznego Me nazywamy taką wartość cechy, że co najmniej połowa jednostek zbiorowości ma wartość cechy nie większą niż Me i jednocześnie połowa jednostek ma wartość cechy nie mniejszą niż Me. Czyli dystrybuanta empiryczna F n (Me) 1/2 Dla zmiennej losowej ciągłej medianę oblicza się wg wzoru: Me m h m n = x + m n m 2 i = gdzie x m - dolna granica przedziału zawierającego medianę h m,n m - odpowiednio rozpiętość i liczebność przedziału mediany 1 1 n i
Mediana Wzór Pearsona na relacje pomiędzy Mo, Me, oraz dla rozkładów symetrycznych i umiarkowanie asymetrycznych x Mo = 3 ( x Me ) 25% wartości 25% wartości 25% wartości 25% wartości Q1 Mediana Q3 min Rozstęp kwartylowy Rozstęp max
Kwantyle Kwantylem rzędu p, gdzie 0<p<1,w rozkładzie empirycznym nazywamy takąwartośćzmiennej x p, dla której, jako pierwszej, dystrybuanta empiryczna spełnia relacjęf(x p ) p, tzn., że prawdopodobieństwo przyjęcia przez zmiennąwartości nie większych od x p wynosi co najmniej p, a wartości nie mniejszych x p wynosi co najmniej 1-p Mediana - Kwantyl rzędu 1/2 Kwartyl - Kwantyl rzędu k/4, gdzie k=1,..,3 Decyl Kwantyl rzędu k/10, gdzie k=1,...,9 Percentyl Kwantyl rzędu k/100, gdzie k=1,...,99;. Percentyl jest wielkościąokreślającąjaki procent obserwacji (wyników) znajduje sięponiżej zadanej wartości x p
Miary zmienności Miary zmienności dzieląsięna miary klasyczne i pozycyjne. miary pozycyjne: rozstęp, odchylenie ćwiartkowe, współczynnik zmienności miary klasyczne: wariancja, odchylenie standardowe, odchylenie przeciętne, współczynnik zmienności
Odchylenie ćwiartkowe Kwartyle sąwykorzystywane do określenia pozycyjnej miary zróżnicowania, nazywanej odchyleniem ćwiartkowym, którym jest wielkość Q, określona wzorem Q = Q Q 3 1 2
Miary zmienności Rozstęp- najprostsza miara zmienności Odchylenie ćwiartkowe Odchylenie przeciętne Q R=x max x min Q 3 Q = 1 2 Współczynnik zmienności d x1 x + L+ n i= 1 = = n x x n x i n x V d = d x
Klasyczne miary zmienności Wariancja s 2 n 1 = ( x n i= 1 Odchylenie standardowe s = i = 1 i x) 1 n ( x i x n Współczynnik zmienności - klasyczny 2 ) 2 V s = s x
Miary skośności / asymetrii Miarą stopnia i kierunku asymetrii jest klasyczny współczynnik asymetrii g, obliczany według wzoru: g = A s 3 3 gdzie s jest odchyleniem standardowym A 3 jest trzecim momentem centralnym rozkładu empirycznego A r 3 3 = 1 ( x i x ) n i = 1 n i
Miary skośności / asymetrii Niemianowany współczynnik asymetrii (skośności) A stosowany do porównań asymetrii wielu rozkładów A = x s Mo gdy: A=0 rozkład symetryczny A<0 asymetria lewostronna- wydłużone lewe ramie rozkładu A<0 asymetria prawostronna wydłużone prawe ramie rozkładu Stwierdzono, że jedynie w przypadku bardzo silnej asymetrii współczynnik A przekracza wartość 1
Cechy statystyczne i ich rodzaje Cechy, którymi wyróżniająsięjednostki wchodzące w skład zbiorowości, nazywa się cechami statystycznymi. Każda zbiorowośćstatystyczna ma dużo cech, wyboru cech dokonuje sięna podstawie zakładanego celu badań. Należy wybieraćtakie cechy, które stanowią istotną własność badanego zjawiska Typy cech cechy jakościowe niemierzalne (np. kolor, sprawnyniesprawny, ale jakościowymi mogąbyćteżliczby np. nr piętra, ) cechy ilościowe mierzalne to takie, które dadzą się wyrazićza pomocąjednostek miary w pewnej skali ( np. wzrost [cm], waga [kg], udział[%]). Cecha mierzalna jest: ciągła, może przyjmowaćkażdąwartośćz określonego, skończonego przedziału liczbowego (np.odległość, ciężar, temperatura) dyskretna, skokowa przyjmuje wartości ze zbioru skończonego lub przeliczalnego (ilośćwyrobów wadliwych, liczba zatrudnionych w zawodzie).
Co to jest pomiar Pomiar jest procedurąprzyporządkowywania liczb różnym wartościom zmiennej według ustalonej zasady. W naukach empirycznych analizowanie różnych cech staje się użyteczne wtedy gdy można mierzyćich nasilenie w różnych obiektach. Najprostszym przypadkiem pomiaru jest zliczanie. Typowym pomiarem jest pomiar długości ( odległości dwóch punktów), polega on na policzeniu ile odcinków o znanej długości (1 cm, 1m, 1 cal) mieści sięwzdłużmierzonego przedmiotu (odcinka) Jak mierzyćzmienne niemierzalne np. talent, agresję(liczba wulgaryzmów wypowiedzianych w jednostce czasu?), konstruujemy wskaźniki
Skale pomiaru Stanley Smith Stevens rozróżnił cztery skale pomiarowe: Najprostszym przykładem pomiaru jest klasyfikacja, czyli nazywanie, dotyczy tylko zmiennych jakościowych, gdy brane pod uwagę kategorie są rozłączne, ponadto, gdy bierze się pod uwagęwszystkie możliwe kategorie danej zmiennej, to podział jest wyczerpujący. Pomiar w skali porządkowej (rangowej) oznacza uporządkowanie ze względu na nasilenie cechy. Tę skalę cechuje spójność( jeśli x jest różny od y yox<ylub x>y) i przechodniość(x<yi y<zto x<z) Przypisaćjakiemuśpomiarowi rangęoznacza określenie jego miejsca w ustalonym porządku. Rangi oznaczająporządek a nie różnice pomiędzy kolejnymi pomiarami
Skale pomiaru cechy Skala nominalna dotyczy cech jakościowych, operacją pomiarowąjest identyfikacja kategorii do której należy zaliczyćwynik, prowadzi do podziału zbioru na zbiory rozłączne ( np. samochody wg kolorów). Skala porządkowa stosowana jest do badania cech których natężenie jest określane przez przymiotniki, pociąga za sobąporządkowanie lub uszeregowanie badanej zmiennej ( np. poniżej normy, w normie, powyżej normy, albo za mały, mały, średni, duży, za duży) Skala równomierna (przedziałowa)-stosowania do pomiaru cech ilościowych, zakłada że zbiór wartości cechy składa sięz liczb rzeczywistych określona przez wskazanie stałej jednostki miary i relacji przyporządkowującej liczbękażdemu wynikowi obserwacji (czas kalendarzowy, temperatura o C) Skala ilorazowa-posiada wszystkie właściwości skali przedziałowej ale pomiary wg tej skali charakteryzująsięstałymi stosunkami i bezwzględnym zerem, ma zastosowanie w fizyce, technice np.. czas jaki upłynąłod chwili t 1 do t 2
Dane jako wyniki badań Wyniki obserwacji i pomiarów mogąbyćwyrażone w postaci: Tekstu (cechy jakościowe) Liczb całkowitych Przedziałów liczbowych Dane źródłowe zawierająsięw: zbiorze, zbiorze uporządkowanym, zwanym szeregiem szczegółowym zbiorze podzielonym na klasy, zwanym szeregiem rozdzielczym
Opracowanie materiału statystycznego Szeregi statystyczne Celem tych działańjest przejście od danych indywidualnych do danych zbiorowych. Materiał źródłowy należy odpowiednio posegregować i policzyć, w wyniku otrzymuje siętzw. tablice robocze. Klasyfikacja danych musi być przeprowadzona: w sposób rozłączny, jednostki o określonych cechach musząbyćjednoznacznie przydzielone do poszczególnych klas W sposób zupełny, tzn. klasy musząobjąćwszystkie występujące cechy danej zbiorowość Technika zestawiania zależy od rodzaju skali pomiarowej
Szeregi statystyczne szczegółowe rozdzielcze czasowe Z cechą ilościową Z cechą jakościową punktowe przedziałowe proste skumulowane proste skumulowane
Szereg szczegółowy Badana cecha przyjmuje niewielką liczbę jednostek (mała grupa) {x 1,...,x n} Wartości porządkuje się lub Rosnąco x 1 <... <x n Malejąco x 1 >... >x n
Szereg czasowy, dynamiczny, chronologiczny Otrzymuje sięw wyniku grupowania typologicznego (wyodrębniającego różne jakościowo cechy) wariancyjnego (porządkującego zbiorowość przez łączenie w klasy jednostek mających odpowiednie wartości cech) gdy podstawągrupowania jest zmiana badanego zjawiska w czasie
Wykres dla szeregu typologicznego; poziom wykształcenia
Kategoryzacja według dwóch zmiennych Jaki jest stan wykształcenia kobiet i mężczyzn
Analiza zmian w czasie-budowa szeregu czasowego Lata Liczba pacjentów 1993 21 1994 59 1995 97 1996 116 1997 262 1998 281 1999 315 2000 336 2001 497 2002 562 2003 1025 2004 1210 2005 1167 2006 1511 1600 1400 1200 1000 800 600 400 200 Wykres dla szeregu czasowego Liczba pacjentów zarejestrowanych rocznie w przychodni uzależnień od komputera 0 1992 1994 1996 1998 2000 2002 2004 2006 2008
Szereg rozdzielczy Przy budowie szeregu rozdzielczego wyróżnia siętrzy etapy: Ustalenie liczby klas oraz wielkości przedziałów klasowych Przyporządkowanie danych przyjętym przedziałom klasowym Zliczanie liczby jednostek w każdej klasie Liczba klas k zależy przede wszystkim od liczby obserwacji n Stosowane bywająnastępujące wzory pomocne do szacowania liczby przedziałów budowanego szeregu rozdzielczego: lub k=1+3,322 log n k = n
Szereg rozdzielczy uwagi praktyczne Każdy przedział klasowy ma dolną i górną granicę Różnice pomiędzy tymi granicami nazywa się rozpiętością (szerokością) przedziału klasowego. Przy równej rozpiętości przedziałów, liczebności są porównywalne. Częstośćjest to iloraz liczby elementów zbioru zakwalifikowanych do danej klasy przez liczbęwszystkich elementów zbioru Uwaga: Ostatecznie badacz podejmuje decyzje o wartościach granic, szerokości przedziałów klasowych i ich liczbie, kierując sięwiedząmerytorycznąo badanym zjawisku, Przykład: W kartotekach pacjentów notowana jest data urodzenia, ta informacja pozwala zbadać cechę jaką jest ich wiek.
Numer klasy Szereg rozdzielczy prosty analiza struktury wiekowej pacjentów Granice przedziałów klasowych dolna górna Środek przedziału Liczność klasy Częstość LP a b x i n i ni/n 1 3 9 6 3 0,03 2 9 15 12 12 0,11 3 15 21 18 16 0,15 4 21 27 24 18 0,17 5 27 33 30 26 0,25 6 33 39 36 17 0,16 7 39 45 42 8 0,08 8 45 51 48 4 0,04 9 51 57 54 1 0,01 Suma 105 1
Wykresy histogram 30 25 20 licz ebność 15 10 5 0 6 12 18 24 35 36 42 48 54 wiek
Histogram zmiennej płaca brutto zmiana liczby klas
Zmiana dolnej wartości pierwszej klasy Od zera Od minimum
Badania statystyczne - rodzaje Badania pełne obejmująwszystkie elementy populacji, np. na przeglądzie uzębienia danego pacjenta można określić dokładną liczbę zębów i ich stan Badania częściowe badania elementów próbki statystycznej, mają szerokie zastosowania i są: konieczne w przypadku populacji nieskończonej, stosowane w populacjach skończonych bardzo licznych stosowane w przypadkach badań niszczących
Populacja i próba statystyczna Populacjajest to zbiór wszystkich elementów reprezentujących analizowany problem (zjawisko). Może byćzbiorem skończonym, przeliczalnym lub nieprzeliczalnym. Próba statystyczna to podzbiór właściwy elementów z badanej populacji
Badania statystyczne próby losowe Losowy dobór próby polega na tym, że o fakcie znalezienia sięposzczególnych elementów populacji w próbie decyduje przypadek. Jest to taki sposób wyboru przy którym spełnione są następujące dwa warunki; każda jednostka populacji ma dodatnie, znane prawdopodobieństwo znalezienia sięw próbie istnieje możliwośćustalenia prawdopodobieństwa znalezienia sięw próbie dla każdego zespołu elementów populacji
O błędach w badaniach statystycznych Badania, zarówno pełne jak i częściowe, zawsze obciążone są błędami, związanymi z: organizacjąeksperymentu, niedokładnościąpomiarową, przetwarzaniem wyników, w badaniach częściowych z niedokładnością odwzorowania struktury populacji w strukturę próbki