Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań 6.11.1 1 Badanie współzależności atrybutów jakościowych w wielowymiarowych tabelach danych. 1.1 Analiza współzależności pomiędzy zmiennymi dyskretnymi. Dla zmiennych dyskretnych ze zbioru danych stress--full stworzono tablice dwudzielcze i poddano testowi zależności opartego na statystyce χ. Poniżej przedstawiono ranking par zmiennych, dla których odrzucono hipotezę zerową o niezależności zmiennych oraz pomiędzy którymi występują najsilniejsze zależności w oparciu o współczynnik -Cramera. Coffee, moking Chi^ Pearsona Chi^ NW 637,466 df=4 p=, 635,1481 df=4 p=, 1,1916,7486155,798416 Coffee gół moking moking moking 6 144 4 194 6 11 144 161 141 1 3 145 173 156 171 5 Pomiędzy tą parą zmiennych występuje najsilniejsza zależność, ponieważ współczynnik Cramera jest bliski 1. Na podstawie tabeli częstości obserwowanych można dojść do wniosku, że występuje współzależność pomiędzy częstością palenia a częstością picia kawy - osoby, które często piją kawę, często sięgają po papierosa, a osoby które piją kawę rzadko, równie rzadko palą. moking, Chi^ Pearsona Chi^ NW 336,117 df=4 p=, 371,79 df=4 p=,,8198911,6349,579755 moking gół N 151 15 7 173 11 5 3 156 7 158 6 171 59 198 43 5 Pomiędzy tymi zmiennymi również występuje dosyć silna zależność. Patrząc na częstości obserwowane można dostrzec, że osoby, które często palą, często sięgają po alkohol, a osoby, które palą rzadko, również rzadko piją. Inaczej ma się sytuacja z osobami, które palą bardzo dużo - takie osoby piją alkohol rzadko. Coffee, Chi^ Pearsona Chi^ NW 3,771 df=4 p=, 1,7839 df=4 p=,,637616,537669,45866 Coffee gół N 117 48 9 194 1 13 8 161 11 18 6 145 59 198 43 5 1
Tutaj również występuje pewna zależność, ale już nie tak silna jak poprzednio. Zależność jest jednak podobna do poprzedniej pary zmiennych (ponieważ występuje współzależność pomiędzy zmiennymi Coffee i moking) - osoby rzadko pijące kawę, rzadko piją alkohol, osoby często pijące kawę, często piją alkohol, a osoby pijące bardzo dużo kawy po alkohol sięgają rzadko. Internet, T Chi^ Pearsona Chi^ NW 83,69418 df=3 p=, 89,136 df=3 p=,,49131,3786648,49131 Internet n m s l gół T + T - 16 116 4 63 85 17 6 79 77 17 94 4 58 5 Pewna zależność występuje również pomiędzy korzystaniem z internetu a oglądaniem telewizji. Można tutaj dostrzec, że osoby, które dużo korzystają z internetu często nie oglądają telewizji, a osoby, które mało korzystają z internetu, lubią oglądać telewizję. Istenieje także pewna grupa osób, które równie rzadko oglądają telewizję co korzystają z internetu. W przypadku pozostałych par zmiennych albo nie można odrzucić hipotezy o ich niezależności, albo siła związku pomiędzy nimi jest bardzo mała. 1. Analiza zależności pomiędzy zmiennymi dyskretnymi a ciągłymi. W tej części ćwiczenia należało przeprowadzić dyskretyzację zmiennej ciągłej. Z histogramu tej zmiennej wynikało, że obserwacje są głównie skupione wokół dwóch punktów. Ponieważ poziom odczuwanego stresu trudno określić jako dwustopniowy (wysoki, niski), zakres zmiennej podzielono na cztery kategorie o równej liczności - przedziały dzielono w miejscach występowania kwartyli. Wynik dyskretyzacji wygląda następująco: 'tress '< -1,48 - niski; 'tress '<,15 - średni; 'tress '<,84 - wysoki; pozostałe - bardzo wysoki. Najsilniejsze zależności: moking, tress Chi^ Pearsona Chi^ NW 136,9846 df=6 p=, 161,876 df=6 p=,,5348,4637367,371144 moking gół tress wysoki tress średni tress bardzo wysoki tress niski 7 6 75 173 3 53 51 156 6 46 7 7 171 16 15 14 15 5 Istnieje tutaj pewna zależność, ale nie jest ona bardzo silna. Można jednak zauważyć, że osoby, które bardzo często palą, odczuwają najsilniejszy poziom stresu, a osoby, które palą rzadko, mniej się stresują. ą jednak także osoby, które palą często, ale nie odczuwają wielkiego stresu. Coffee, tress Chi^ Pearsona Chi^ NW 1,8613 df=6 p=, 16,863 df=6 p=,,4535665,413639,37 Coffee gół tress wysoki tress średni tress bardzo wysoki tress niski 39 55 37 63 194 8 47 5 61 161 59 3 6 1 145 16 15 14 15 5
Tutaj zależność jest jeszcze słabsza niż poprzednio, ale istnieje. Można zauważyć, że osoby, które piją bardzo dużo kawy, częściej odczuwają wysoki poziom stresu niż osoby, które piją mniej kawy. W przypadku pary zmiennych i tress istnieje pewna zależność, ale jest ona słaba (-Cramer =,). Nie można za to odrzucić hipotezy o niezależności zmiennych dotyczących intensywności zażywanych rozrywek (Internet, T) a poziomem odczuwalnego stresu. Metody predykcji konstruowanie modelu regresji z wielowymiarowych danych..1 Regresji liniowa dla rzeczywistych danych W ćwiczeniu tym badano zależność pomiędzy wartością odżywczą a zawartością cukrów w płatkach, o których informacje zawarte były w zbiorze cereals. Poniżej znajduje się wykres rozrzutu tych dwóch zmiennych. 1 Wykres rozrzutu RATING względem UGAR cereals 16v*77c RATING = 59,844-,48*x 9 8 7 RATING 6 5 4 3 1-4 6 8 1 1 14 16 UGAR Z wykresu można zauważyć, że poza kilkoma wartościami odstającymi, zależność pomiędzy wartością odżywczą a zawartością cukrów jest w przybliżeniu liniowa. Poniżej znajdują się wyniki analizy wnioskowania z linii funkcji regresji prostej. b* Bł. std. b Bł. std. t(75) p N=77 z b* z b W. wolny 59,8437 1,948487 3,459, UGAR -,759675,7591 -,48,37311-1,1168, statystyka R wielorakie Wielorakie R korygowane R F(1,75) p Błąd std. estymacji Wartość,759674658,57715587,571466994 1,34933 1,153476E-15 9,1956969 3
Jak widać, uzyskany model regresji jest statystycznie istotny, ponieważ oba parametry przechodzą lokalne testy istotności (p=), a wartość p dla całego modelu jest również bliska, co oznacza, że spełniony jest także globalny test istotności. Wartość R mówi nam o tym, że ok 57% zmienności badanej zmiennej zostało wyjaśnione przez zbudowany model. Po zbudowaniu modelu dokonano także analizy reszt. Poniżej znajdują się wykresy normalności reszt oraz rozkładu reszt względem wartości przewidywanych. 3 Wykres normalności reszt 1 Wartość normalna -1 - -3 - -1 1 3 4 Reszty 4 Przewidywane względem wartości resztowych Zmienna zależna: RATING 3 Reszty 1-1 - 5 3 35 4 45 5 55 6 65 Wart. przewidyw.,95 Prz.Ufn. 4
Z pierwszego wykresu wynika, że założenie o normalnym rozkładzie reszt nie jest spełnione. Na drugim wykresie widać, że istnieją obserwacje oddalone. Zostały one zidentyfikowane na podstawie analizy wartości standaryzowanych reszt: Reszta standaryzo: RATING (cereals) dstające Reszty s bserw. Przewidyw. Reszta tandard tandard Bł. std. Przyp. -5. -4. -3. ± Wartość Wartość Przewid. Reszta W.przew. 1... 68,497 44,87945 3,535,7447,55811 1,7549 4... 93,7491 59,8437 34,454 1,557313 3,743114 1,948487 Po usunięciu wartości oddalonych ponownie zbudowano model regresji liniowej. Nowy model charakteryzuje się większą wartością współczynnika determinacji (ok. 61%). Poprawie uległy także wykresy normalności reszt oraz wykres rozrzutu reszt wobec wartości przewidywanych: 3 Wykres normalności reszt 1 Wartość normalna -1 - -3 - -15-1 -5 5 1 15 Reszty Przewidywane względem wartości resztowych Zmienna zależna: RATING 15 1 5 Reszty -5-1 -15-5 3 35 4 45 5 55 6 65 Wart. przewidyw.,95 Prz.Ufn. 5
Model zbudowany po usunięciu wartości oddalonych pozwala na dosyć dobre przewidywanie zależności wartości odżywczej płatków od zawartości cukru.. Budowa i ocena statystycznej poprawności modelu regresji wielowymiarowej W tym ćwiczeniu poddano analizie 3 zestawy danych - z dwoma, trzema oraz czterema zmiennymi. Dla dwóch zmiennych należało znaleźć zależność pomiędzy zmiennymi i ocenić istotność zbudowanego modelu, a dla pozostałych zestawów należało znaleźć zmienną zależną oraz zbudować model liniowej regresji wielowymiarowej...1 Zestaw, Poniżej przedstawiono wykres rozrzutu obu zmiennych. Wykres rozrzutu względem, w zf-examples-md1.stw 4v*1c = 5,683+,496*x 18 16 14 1 1 8 6 4 - - 4 6 8 1 1 14 16 18 Wyniki regresji: N=1 W. wolny b* Bł. std. z b* b Bł. std. z b t(98) p 5,6893 1,7388 4,71961,8,473331,88983,49555,91 5,319356,1 statystyka R wielorakie Wielorakie R korygowane R F(1,98) p Błąd std. estymacji Wartość,473331115,44344,161449 8,955514,657968 5,369975 Zbudowany model jest statystycznie istotny, ponieważ oba wyznaczone współczynniki przechodzą lokalne testy istotności (p<,5), a model przechodzi globalny test istotności. Zbudowany model charakteryzuje się małą wartością współczynnika determinacji, co jest spowodowane dużym zaszumieniem danych wejściowych, które w dużej mierze układają się w sposób liniowy. 6
.. Zestaw,, Z Wyznaczono macierz współczynników korelacji pomiędzy wszystkimi parami zmiennych: Korelacje (,,Z w zf-examples-md1.stw) znaczone wsp. korelacji są istotne z p <,5 N=1 (Braki danych usuwano przypadkami) Zmienna Średnia dch.std Z 5,13 5,5365 1,,4667,868894 14,9335 3,831,4667 1, -,45954 Z -39,669 31,11587,868894 -,45954 1, Na tej podstawie można stwierdzić, że zmienne i są między sobą nieskorelowane, a każda z nich jest skorelowana ze zmienną Z. Prowadzi to do wniosku, że zmienne i są zmiennymi niezależnymi, a zmienna Z - zależną. Następnie zbudowano model regresji wielowymiarowej: N=1 W. wolny b* Bł. std. z b* b Bł. std. z b t(97) p 1,, 45458934,,8894, 5,, 6765919, -,49548, -5,, -349756414, statystyka R wielorakie Wielorakie R korygowane R F(,97) p Błąd std. estymacji Wartość 1,E- 1,E- 1,E-,49681E+17,E-1 4,381651E-7 Model jest statystycznie istotny - spełnia globalny oraz lokalne testy istotności. Ponadto w idealny sposób modeluje zależność zmiennej Z od zmiennych i - współczynnik determinacji jest równy 1...3 Zestaw W,,, Z Ponownie zbudowano macierz korelacji dla wszystkich zmiennych: Korelacje (W,,,Z w zf-examples-md1.stw) znaczone wsp. korelacji są istotne z p <,5 N=1 (Braki danych usuwano przypadkami) Zmienna Średnia dch.std W Z W,356 5,4891 1, -,74743,137489 -,134563 5,13 5,5365 -,74743 1,,4667,868894 14,9335 3,831,137489,4667 1, -,45954 Z -39,669 31,11587 -,134563,868894 -,45954 1, Analizując macierz można dojść do wniosku, że zmienna Z jest zmienną zależną - jest skorelowana ze zmiennymi oraz. Zmienna W natomiast jest słabo skorelowana ze wszystkimi pozostałymi zmiennymi. Zbudowano następujący model regresji wielowymiarowej: N=1 W. wolny W b* Bł. std. z b* b Bł. std. z b t(96) p 1,, 5946479, -,, -,, - 1,,8894, 5,, 8398119, -,49548, -5,, -45569, statystyka R wielorakie Wielorakie R korygowane R F(3,96) p Błąd std. estymacji Wartość 1,E- 1,E- 1,E-,8834E+17,E-1 3,3943E-7 W zbudowanym modelu jeden ze współczynników nie przechodzi lokalnego testu istotności i wynosi - jest to współczynnik przy zmiennej W. Podobnie jak w poprzednim zestawie, współczynnik determinacji wynosi 1 - zmienna Z jest całkowicie liniowo zależna od zmiennych i. 7
.3 Budowa modelu regresji nieliniowej W ćwiczeniu należało zbudować model regresji nieliniowej dla dwóch zmiennych: i. Na podstawie wykresu rozrzutu zamieszczonego poniżej można zauważyć, że zależność pomiędzy zmiennymi najlepiej oddawać będzie funkcja kwadratowa. 4 Wykres rozrzutu względem non-linear.sta v*5c =,4599-,77*x 3 1-1 - -3 - -1 1 3 Dzięki tej wiedzy, można zbudować odpowiedni model regresji nieliniowej, oparty na funkcji kwadratowej. tworzony w ten sposób model jest przedstawiony poniżej. Efekt Wyraz wolny ^ ceny parametrów (non-linear.sta) Parametryzacja z sigma-ograniczeniami -95,% +95,% -95,% +95,% Param. Bł. std. t p Gr.ufn. Gr.ufn. Beta (ß) Bł.td.ß Gr.ufn. Gr.ufn. -,77816,8839-4,5433, -,764478 -,651154 -,3588,1783-17,158, -,3485 -,7791 -,9845,17393 -,33597 -,6453,8917,1593 55,9713,,85886,9135,97348,17393,93939 1,765 Test dla pełnego modelu względem dla reszt (non-linear.sta) Zależna Zm. Wielokr. R Wielokr. R korygow R Model df Model M Model Reszta df Reszta M Reszta F p,994,86385,86534 67,3 33,616 96,3338 497,19381 1566,494, Jak widać, model jest statystycznie istotny (p<,5) i wszystkie współczynniki przechodzą lokalne testy istotności. Ponadto dobrze oddaje zależność pomiędzy zmiennymi, o czym świadczy wysoki współczynnik R. Poniżej zamieszczono wykres funkcji regresji nałożony na wykres rozrzutu zmiennych. 8
1 Model: =a** + b* + c y=(,8917)*x*x + (-,3581)*x + (-,778) 8 6 4 - -3 - -1 1 3 9