PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE Janusz Wątroba, StatSoft Polska Sp. z o.o. W nemal wszystkch dzedznach badań emprycznych mamy do czynena ze złożonoścą zjawsk procesów. W zwązku z tym występuje naturalne zanteresowane ze strony badaczy metodam analzy danych, które umożlwają loścową ocenę zwązków występujących pomędzy różnym aspektam badanych zjawsk procesów. Stosunkowo najczęścej do tego celu wykorzystywane są metody regresj lnowej prostej welorakej. W opracowanu przedstawono krótko deę metody regresj lnowej, sposób jej doboru oraz zagadnene nterpretacj oszacowanego modelu. W drugej częśc zaprezentowano przykłady analz przeprowadzonych z użycem narzędz dostępnych w środowsku programu STATISTICA. Wprowadzene Jednym z najczęstszych powodów stosowana metod statystycznej analzy danych jest poszukwane przyczyn mających wpływ na nteresujące badacza zjawska. Przykładowo dla ekonomsty może być nteresujące stwerdzene, jake czynnk kształtują sprzedaż wybranych produktów lub usług. Lekarz jest zanteresowany poszukwanem czynnków wpływających na stan klnczny pacjentów, u których zdagnozowano pewną jednostkę chorobową. W badanach pedagogcznych celem może być poszukwane czynnków, które wpływają na wynk egzamnu. Z kole socjologa może nteresować, jake czynnk są odpowedzalne za poparce kandydatów w wyborach. Praktyczne w każdej dzedzne badań emprycznych można bez trudu podać dalsze przykłady zagadneń stawanych w podobny sposób. Zazwyczaj mamy do czynena z sytuacją, w której nteresujące nas aspekty badanych zjawsk zależą od całego szeregu czynnków, traktowanych jako potencjalne przyczyny (wybór takch potencjalnych przyczyn jest oczywśce łatwejszy w tych dzedznach badań, w których stneje dobrze ugruntowana teora). Bardzo często trudno jest stwerdzć, w jak sposób określone przyczyny kształtują wybrane przez badacza lub analtyka skutk. Kolejnym problemem jest fakt, ż brane pod uwagę czynnk ne są od sebe nezależne, lecz są nawzajem w różny sposób od sebe uzależnone. W zwązku z tym badacz śwadome wybera podejśce polegające na uproszczenu badanych powązań. Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 31
Opsywaną sytuację można przedstawć ogólne za pomocą zapsu: Skutek Przyczyna(y) Bardzej formalny sposób podejśca do rozważanego problemu prowadz do sformułowana jednokerunkowej zależnośc w postac funkcj: S f (P) Najprostszą postacą takego równana jest funkcja lnowa, w przypadku której przyjmujemy, że S jest proporcjonalne do P. Przyjęce lnowej postac zależnośc pozwala w łatwy sposób przedstawć grafczne rozważany problem. Ponżej na dwuwymarowym wykrese rozrzutu zaprezentowano przykładowy obraz zależnośc mędzy welkoścam S P. Każdy punkt wykresu oznacza pojedynczy obekt (obserwację, pomar). Rys. 1. Wykres lustrujący powązane pomędzy welkoścam S P. Położene punktów na wykrese wskazuje na występowane wyraźnej prawdłowośc (tendencj). Jednocześne wdać, że prawdłowość ta ne może być opsana wyłączne za pomocą zwykłej funkcj lnowej. Model regresj lnowej prostej Jedno z możlwych rozwązań wskazanego powyżej problemu polega na wprowadzenu do determnstycznego równana S = f (P) zmennej losowej założenu, że rzeczywsta zależność S od P ma charakter stochastyczny [6]. Zmenna losowa to tzw. składnk losowy, którego zadanem jest odzwercedlene w modelu neprzewdywanego elementu losowośc (zwązanego np. z ludzkm zachowanam), wpływu welu pomnętych 32 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011
w modelu zmennych oraz błędów pomaru welkośc S. W ten sposób otrzymujemy równane (model), które możemy w ogólnej postac zapsać jako: Y f ( X, ) Jest to model regresj lnowej prostej. W modelu tym Y oznacza zmenną zależną 1 lub objaśnaną, X to zmenna nezależna lub objaśnająca. W klasycznej analze regresj wprowadza sę klka założeń [6]. Najważnejsze z nch to: model zakłada stablność relacj f mędzy badanym zjawskam, model jest lnowy względem parametrów Y 0 1 X, gdze 0 1 to tzw. parametry strukturalne modelu, 2 składnk losowy jest zmenną losową o rozkładze normalnym N (0, ). Założene stablnośc relacj jest bardzo naturalne. Uchylene tego założena prowadz do model o parametrach zmennych w czase lub model przełącznkowych. Lnowa postać badanej funkcj umożlwa wykorzystane stosunkowo prostych metod estymacj. Założene normalnośc rozkładu składnka losowego pozwala przeprowadzć wnoskowane statystyczne, poneważ odpowedne statystyk mają wówczas pożądane rozkłady (np. t-studenta, F). Innym słowy można powedzeć, że ze względu na złożoność badanych zjawsk pojawają sę trudnośc w odwzorowanu rzeczywstych mechanzmów odpowedzalnych za ch przebeg. Potrzebne jest zatem uproszczene. Uproszczone odwzorowane rzeczywstych współzależnośc pomędzy badanym zjawskam wymaga od badacza umejętnego wydobyca stoty mechanzmu generującego dane przekształcene go do postac umożlwającej zastosowane podejśca statystycznego. Sprowadza sę to do przyjęca określonej matematycznej formuły, ujmującej powązana pomędzy zmennym oraz założeń o losowych procesach, wpływających na wynk pojedynczych pomarów [3]. Warto jeszcze raz zwrócć uwagę na to, że przy próbe loścowego opsu powązań potrzebne jest rozróżnene dwóch typów zależnośc: determnstycznej (funkcyjnej), która każdej wartośc zmennej x przyporządkowuje jedną tylko jedną wartość zmennej y, oraz statystycznej (probablstycznej), która ne przyporządkowuje jednoznaczne wartośc y danym wartoścom x, ale może być precyzyjne opsana za pomocą metod probablstycznych [4]. Jak doberana jest lna regresj? Borąc pod uwagę rozmeszczenu punktów na wykrese pokazane na rys. 1, można zaproponować wele różnych sposobów doboru prostej, która opsywałaby obserwowaną prawdłowość. Najprostsza z tych metod mogłaby polegać na posłużenu sę zwykłą lnjką 1 W ksążce Maddal [4] na str 96 zameszczono zestawene nnych nazw używanych dla zmennych Y X. Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 33
dopasowanu prostej na oko w tak sposób, aby poszczególne obserwacje leżały blsko nej. Oczywśce potrzebne jest bardzej formalne kryterum, ale sama dea dopasowana jest właścwe bardzo podobna. Lna regresj będąca grafcznym odpowednkem modelu regresj jest tak doberana, aby welkość będąca sumą kwadratów odległośc wszystkch punktów emprycznych od odpowednch punktów na ln regresj była jak najmnejsza (rys. 2). Rys. 2. Wykres lustrujący kryterum doboru ln regresj. Opsane kryterum jest określane nazwą: metoda najmnejszych kwadratów (MNK). Kryterum to można formalne zapsać jako: n 1 ( y yˆ ) 2 mn Praktycznym efektem zastosowana tego kryterum jest możlwość oszacowana parametrów strukturalnych modelu regresj ( 0 1 ), które charakteryzują sę pożądanym własnoścam. Od czego zacząć nterpretację? Po oszacowanu parametrów strukturalnych otrzymuje sę ch oceny w próbe w zwązku z tym model regresj możemy zapsać w postac: yˆ b b x, 0 1 gdze ŷ oznacza wartość przewdywaną zmennej zależnej, a b0 b 1 to oceny parametrów strukturalnych modelu. 34 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011
Welkość b 0 oznacza współrzędną y-ową punktu przecęca dopasowanej ln regresj z osą OY, natomast b 1 jest współczynnkem nachylena ln regresj do os OX. Pokazano to na ponższym rysunku. Rys. 3. Interpretacja ocen parametrów strukturalnych modelu regresj lnowej. Przy wnoskowanu statystycznym o parametrach strukturalnych modelu sprawdza sę, czy parametry te stotne różną sę od zera. W tym celu korzysta sę z rozkładu statystyk t-studenta. W praktyce wększe znaczene ma ocena stotnośc parametru 1, którego ocena z próby mów o tym, jakego przecętnego przyrostu wartośc zmennej zależnej możemy sę spodzewać, przy założenu przyrostu wartośc zmennej nezależnej o 1 jednostkę. Jak sprawdzć, czy model dobrze pasuje do danych? Do oceny dopasowana modelu do danych emprycznych stosowanych jest wele różnych statystyk dagnostycznych. Jedną z najczęścej stosowanych jest współczynnk determnacj, oznaczany przez R 2. Oblcza sę go ze wzoru: R n 2 1 n 1 2 ( yˆ y) 2 ( y y) gdze ŷ oznacza wartość przewdywaną zmennej zależnej, a y średną wartość zmennej zależnej y. Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 35
Lcznk powyższego ułamka określa zmenność welkośc ŷ, a manownk merzy zmenność obserwowanych wartośc y. Współczynnk R 2 jest węc marą stopna, w jakm model wyjaśna kształtowane sę zmennej y. Przyjmuje on wartośc z przedzału [0; 1]. Im jego wartość jest blższa 1, tym dopasowane modelu do danych jest lepsze. Inna mara zgodnośc modelu z danym emprycznym opera sę na warancj składnka losowego. Punktem wyjśca są w tym przypadku tzw. reszty modelu. Reszta, która odpowada -tej obserwacj, wyraża sę wzorem: e y yˆ, gdze =1, 2,..., n Ocena warancj składnka losowego, tzw. warancja resztowa, jest oblczana według wzoru: S 2 e n 2 e 1 n k 1 gdze: n oznacza lczbę obserwacj, a k lczbę zmennych objaśnających w modelu. Perwastek z warancj resztowej, czyl odchylene standardowe reszt S e (zwany także błędem standardowym estymacj), jest powszechne stosowaną marą zgodnośc modelu z danym emprycznym. Welkość ta wskazuje na przecętną różncę mędzy zaobserwowanym wartoścam zmennej objaśnanej wartoścam teoretycznym. Jest to welkość manowana (mano tej welkośc jest take samo jak zmennej objaśnanej). Na jej podstawe można równeż oblczyć marę nemanowaną, a manowce tzw. współczynnk zmennośc losowej, który określa wzór: Se W y Współczynnk ten nformuje o tym, jaką część średnej wartośc zmennej objaśnanej stanow błąd standardowy estymacj, jest zazwyczaj wyrażany w procentach. A co z założenam? Poprawność wynków analzy regresj zależy od tego, w jakm stopnu są spełnone jej najważnejsze założena. Wyczerpujący ops oraz dyskusję założeń klasycznej analzy regresj, konsekwencje ch nespełnena oraz omówene zalecanych sposobów postępowana można znaleźć w podręcznku Welfego [6]. W nnejszym opracowanu zwrócmy uwagę na założena dotyczące składnka losowego ( ). Najważnejsze z nch dotyczy normalnośc rozkładu. Jak to zostało już wspomnane wcześnej, spełnene tego założena pozwala przeprowadzć wnoskowane statystyczne, poneważ odpowedne statystyk mają wówczas pożądane rozkłady (np. t-studenta, F). W częśc zawerającej ops przykładów analzy regresj zostane przedstawony sposób sprawdzana normalnośc rozkładu składnka losowego. 36 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011
Przykład analzy regresj lnowej prostej w STATISTICA Dla zlustrowana kolejnych etapów budowy modelu regresj lnowej prostej w środowsku programu STATISTICA wykorzystano wynk oceny 25 marek paperosów różnych producentów, przeprowadzanej coroczne przez Federalną Komsję Handlu w USA [5]. Ocene podlegały m.n. take nformacje, jak lość tlenku węgla zawartego w dyme paperosowym oraz zawartość nkotyny substancj smolstych. Znana jest powszechne szkodlwość tych substancj dla zdrowa palaczy. Ponadto wynk badań wskazują na to, że zwększene zawartośc nkotyny substancj smolstych wąże sę ze zwększenem lośc tlenku węgla w dyme paperosowym. Dane te posłużyły do wstępnej oceny powązań występujących pomędzy branym pod uwagę zmennym oraz budowy modelu regresj lnowej prostej. Ilość tlenku węgla w dyme paperosowym została potraktowana jako zmenna zależna (objaśnana), natomast zawartość nkotyny substancj smolstych jako potencjalne zmenne nezależne (objaśnające). Przy okazj został pokazany wpływ jednej netypowej obserwacj oraz zjawsko współlnowośc zmennych nezależnych. Przy wstępnej ocene charakteru sły badanych powązań warto posłużyć sę dwuwymarowym wykresam rozrzutu. Zgodne z powszechne przyjmowaną konwencją na wykrese takm na os OY umeszczane są wartośc zmennej zależnej, a na os OX wartośc zmennej nezależnej. Wykresy zostały przedstawone ponżej. Rys. 4. Powązane zawartośc tlenku węgla z zawartoścą nkotyny substancj smolstych. Położene punktów na wykresach wskazuje na występowane wyraźnego powązana zawartośc nkotyny substancj smolstych z zawartoścą tlenku węgla w dyme paperosowym. Ponadto charakter powązana wskazuje na możlwość dopasowana do danych funkcj lnowej. Jednocześne na obu wykresach łatwo zauważyć jedną obserwację netypową (odstającą, skrajną, ang. outler) wyraźne odbegającą od pozostałych (powrócmy do tej sprawy w dalszej częśc opracowana). W kolejnym kroku analzy zostaną zbudowane dwa odrębne modele dla każdej ze zmennych nezależnych. Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 37
W trakce budowy modelu regresj program STATISTICA udostępna równeż analtyczne narzędza oceny badanych powązań. Zameszczona ponżej tabela zawera współczynnk korelacj pomędzy branym pod uwagę zmennym. Rys. 5. Korelacje pomędzy zmennym. Otrzymane wartośc współczynnków korelacj lnowej Pearsona potwerdzają występowane slnych dodatnch korelacj pomędzy zawartoścą tlenku węgla a zawartoścą nkotyny (r = 0,926) substancj smolstych (r = 0,957). Na tej podstawe możemy stwerdzć, że obydwe analzowane zmenne nezależne mogą być brane pod uwagę jako potencjalne predyktory przy modelowanu badanych powązań. Wynk w tabel wskazują ponadto na występowane współlnowośc zmennych nezależnych. Na ogół jest ono spowodowane tym, że zmenne charakteryzujące badane zjawska są ze sobą mocno powązane lub też jest to zwązane ze specyfką zboru danych, wykorzystywanego do estymacj parametrów modelu regresj. Welfe [2009] rozróżna dwa rodzaje współlnowośc: dokładną przyblżoną. Jednym z prostych sposobów postępowana z takm zmennym jest usunęce jednej ze skorelowanych zmennych. Omówene różnych podejść stosowanych w przypadku stwerdzena slnej współlnowośc można znaleźć u Welfego [2009] Maddal [2006]. W opsywanym przykładze zbudowano porównano dwa odrębne modele dla każdej ze zmennych nezależnych. Rys. 6. Wynk analzy regresj. Wynk analzy pozwalają stwerdzć, że model regresj uwzględnający zmenną nezależną Nkotyna [mg] pozwala wyjaśnć ponad 85% warancj zmennej Tlenek węgla [mg]. Przecętna różnca pomędzy rzeczywstym wartoścam zmennej zależnej wartoścam przewdywanym przez model wynosła 1,83 mg (stanow to 14,6% średnej dla zmennej zależnej). Wysoka wartość statystyk F (138,27) odpowadający jej pozom prawdopodobeństwa p (p<0,001) potwerdzają statystyczną stotność modelu lnowego. Wartość statystyk t, wykorzystywana do oceny stotnośc współczynnka regresj ( 1 ), oraz 38 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011
odpowadający jej pozom prawdopodobeństwa p potwerdzają, że parametr ten stotne różn sę od zera. Interpretując oszacowaną wartość oceny tego parametru (12,4), możemy stwerdzć, że zwększene zawartośc nkotyny o 1 mg powoduje zwększene zawartośc tlenku węgla w dyme paperosowym o 12,4 mg. Z kole wyraz wolny w modelu ( 0 ) nestotne różn sę od zera (oznacza to, że lna regresj przechodz bardzo blsko środka układu współrzędnych). Drug z otrzymanych model, uwzględnający zmenną nezależną Subst smolste [mg], wyjaśna ponad 91% warancj zmennej Tlenek węgla [mg]. Tym razem przecętna różnca pomędzy rzeczywstym wartoścam zmennej zależnej wartoścam przewdywanym była neco nższa wynosła 1,4 mg (stanow to 11,2% średnej dla zmennej zależnej). Wysoka wartość statystyk F (253,37) odpowadający jej pozom prawdopodobeństwa p (p<0,001) równeż potwerdzają statystyczną stotność modelu lnowego. Wartośc statystyk t, wykorzystywane do oceny stotnośc współczynnka regresj wyrazu wolnego, oraz odpowadające m pozomy prawdopodobeństwa p potwerdzają, że parametry te stotne różną sę od zera. Ponadto otrzymana wartość oceny współczynnka regresj (0,8) pozwala na stwerdzene, że zwększene zawartośc substancj smolstych o 1 mg powoduje zwększene zawartośc tlenku węgla w dyme paperosowym o 0,8 mg. Ponżej zameszczono równeż wykresy lustrujące zbudowane modele. Rys. 7. Wykresy rozrzutu z dopasowanym lnam regresj. Obydwa wykresy potwerdzają bardzo dobre dopasowane ln regresj (oznaczonych lną cągłą) do rzeczywstych danych. Ponadto na wykresach zostały równeż przedstawone krzywe (oznaczone lną przerywaną), wyznaczające 95% przedzały ufnośc dla wartośc oczekwanych modelowanej zmennej zależnej. W trakce wstępnej analzy danych zauważono wystąpene jednej obserwacj netypowej. Zazwyczaj obserwacje take mają wpływ na wynk analzy. Ponżej dla porównana zameszczono tabele z wynkam analzy regresj przeprowadzonej po wykluczenu netypowej obserwacj. Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 39
Rys. 8. Wynk analzy regresj po usunęcu jednej netypowej obserwacj. Otrzymane modele wyjaśnają dodatkowo ponad 1% warancj modelowanej zmennej zależnej. Dość znacznym zmanom uległy natomast oceny wyrazów wolnych współczynnków regresj. Ponadto wyraźne spadły wartośc błędów standardowych estymacj, co oznacza, że modele mają lepsze własnośc prognostyczne. Należy jednak wyraźne podkreślć, że usunęce każdej obserwacj netypowej mus zawsze być odpowedno uzasadnone względam merytorycznym [1]. W ostatnej częśc przykładu sprawdzmy spełnene założena dotyczącego normalnośc rozkładu składnka losowego. W tym celu utworzono wykres normalnośc reszt oraz przeprowadzono test Shapro-Wlka (rys. 9). Wynk dotyczą modelu uwzględnającego zmenną nezależną Nkotyna. Rys. 9. Wykres normalnośc reszt wynk testu Shapro-Wlka. Położene punktów na wykrese oraz wynk testu analtycznego wskazują na brak podstaw do kwestonowana normalnośc rozkładu składnka losowego. 40 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011
Przykład analzy regresj lnowej welorakej W drugm z prezentowanych przykładów do lustracj budowy modelu regresj welorakej zostane wykorzystany zbór danych zawerający wynk pomarów procentowej zawartośc tkank tłuszczowej (uzyskane z zastosowanem technk ważena pod wodą) oraz pomary wybranych cech somatycznych (główne wymary obwodów określonych częśc cała) zebrane dla 252 dorosłych mężczyzn [2]. Znaczene zawartośc tkank tłuszczowej w składze cała wynka z faktu, ż zbyt wysoka lość tkank tłuszczowej może być przyczyną problemów zdrowotnych zwązanych z układem krążena, cukrzycą typu II, znaczne podnos pozom cholesterolu (w konsekwencj prowadz do mażdżycy) nnych poważnych schorzeń. Natomast jeżel pozom tkank tłuszczowej utrzymywany jest w norme, to człowek pozostaje w dobrym zdrowu, ma lepsze samopoczuce, czuje sę lekk szczuplejszy. Ze względu na trudnośc z bezpośrednm pomarem lośc tkank tłuszczowej opracowano wele pośrednch metod oceny stanu otłuszczena. Wszystke te metody wykorzystują różnego rodzaju pomary cech budowy cała lub tworzone na ch podstawe wskaźnk. Merytorycznym celem opsywanego przykładu jest budowa modelu służącego do szacowana procentowej zawartośc tkank tłuszczowej, wykorzystującego pomary cech budowy cała otrzymywane z wykorzystanem prostych narzędz pomarowych: wag taśmy mernczej. Przy budowe modelu regresj pomar zawartośc tkank tłuszczowej przeprowadzony technką ważena pod wodą zostane potraktowany jako zmenna zależna (objaśnana), a wek, pomary wag wzrostu oraz obwody jako potencjalne zmenne nezależne (objaśnające). W przypadku budowana modelu regresj welorakej pojawa sę problem sposobu doboru lczby zmennych objaśnających (nezależnych), które mają zostać uwzględnone w modelu. Lczba zmennych objaśnających wynka ze znajomośc badanej problematyk. Badacz ne pownen tłumaczyć sę, że powodem neuwzględnena określonej zmennej objaśnającej była neznajomość jej wpływu na zmenną objaśnaną (zależną) lub neodpowedna welkość próby czy też newłaścwy pomar wartośc tej zmennej. Ważną rzeczą jest skuteczność, a model regresyjny bez zmennych, które powodują systematyczne zmany zmennej zależnej Y, jest neprawdzwy, a ponadto prowadz do obcążonych estymatorów parametrów modelu. Istotność nektórych zmennych ustala sę metodam statystycznym, jednak ne można tym zastąpć analzy merytorycznej. Statystyczna analza zboru zmennych objaśnających dotyczy zmnejszana lczby tych zmennych. Model uwzględnający zbyteczne zmenne charakteryzuje sę gorszym własnoścam numerycznym jakość estymatorów jest zwykle gorsza z powodu wększych błędów występowana ntensywnejszych wzajemnych zależnośc wśród zmennych objaśnających. Wśród metod doboru zmennych do modelu wyróżnamy: standardową, krokowe, wprowadzana lub usuwana zmennych oraz wszystkch możlwych regresj. W nnejszym opracowanu przedstawono wynk budowana modelu metodą regresj krokowej wstecznej oraz wszystkch możlwych regresj. W perwszej z tych metod w perwszym etape budowany jest model zawerający wszystke dostępne zmenne nezależne. Następne Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 41
w kolejnych etapach usuwane są kolejne najmnej stotne zmenne nezależne, aż do uzyskana modelu uwzględnającego tylko zmenne nezależne stotne. Na samym początku warto przyjrzeć sę korelacjom wszystkch zmennych nezależnych z modelowaną zmenną zależną. Rys. 10. Współczynnk korelacj zmennej zależnej ze zmennym nezależnym oraz w obrębe zmennych nezależnych. Jak wdać, stosunkowo najmocnejsze powązane z otłuszczenem cała wykazuje obwód brzucha (r=0,825), BMI (r=0,748) oraz obwód klatk persowej (r=0,701). Jednocześne wdać wyraźne, że nektóre ze zmennych nezależnych są równeż mocno powązane ze sobą (np. współczynnk korelacj pomędzy obwodem boder wagą wynos 0,929). W zwązku z tym zmenne te będą sę nawzajem elmnować w kolejnych etapach budowy modelu. Ponżej przedstawono końcowe wynk ostatecznego modelu, do którego weszły zmenne: Wek, Obwód brzucha oraz Obwód nadgarstka. Rys. 11. Współczynnk korelacj zmennej zależnej ze zmennym nezależnym oraz w obrębe zmennych nezależnych. Na podstawe otrzymanych wynków stwerdzamy, że zbudowany model pozwala wyjaśnć około 73% zmennośc modelowanej zmennej zależnej. Wartość statystyk F odpowadający jej pozom prawdopodobeństwa testowego p potwerdzają stotny statystyczne zwązek lnowy. Ponadto wartośc statystyk t wskazują, że wyraz wolny współczynnk regresj stotne różną sę od zera. Interpretując oszacowaną wartość ocen poszczególnych parametrów, możemy stwerdzć, że z każdym rokem otłuszczene cała rośne przecętne o 0,07% (przy nezmenonych wartoścach pozostałych zmennych nezależnych, zasada ceters parbus [1, 4, 6]). Z kole 42 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011
zwększene obwodu brzucha o jedną jednostkę powoduje zwększene otłuszczena cała o 0,72% (równeż przy ustalonych wartoścach pozostałych zmennych). Dość zaskakująco wypada nterpretacja oceny współczynnka regresj przy zmennej Obwód nadgarstka. Zwększene jej wartośc o jedną jednostkę powoduje zmnejszene otłuszczena cała o 2,2% (równeż przy ustalonych wartoścach pozostałych zmennych). Przy wykorzystanu modelu do szacowana rzeczywstego otłuszczena cała na podstawe weku prostych cech budowy cała (obwód brzucha obwód nadgarstka) przecętny błąd wynos 4 %. Pewne ogranczene podejśca wykorzystującego poszukwane metodą regresj krokowej polega na przyjęcu, że stneje jeden najlepszy podzbór zmennych nezależnych poszukwanu metody jego dentyfkacj. Często zachodz sytuacja, gdy ne ma jednego najlepszego podzboru. W zwązku z tym nektórzy statystycy sugerują, że można następne spróbować dopasować modele metodą wszystkch możlwych regresj, zawerające podobną lczbę zmennych nezależnych jak w przypadku rozwązana metodą regresj krokowej, aby zbadać, czy przypadkem nektóre nne podzbory zmennych ne są lepsze. Rozumowane to sugeruje, że po znalezenu rozwązana metodą krokową, pownen zostać zbadany najlepszy ze wszystkch możlwych podzborów o tej samej lczbe efektów, w celu sprawdzena, czy rozwązane uzyskane metodą krokową jest rzeczywśce najlepsze. Ponżej przedstawono zborcze wynk budowy model o lczbe zmennych nezależnych od 1 do 6. Dla każdej lczby zmennych nezależnych przedstawono wynk trzech najlepszych model, przy przyjęcu jako kryterum wartośc współczynnka determnacj R 2. Zameszczona ponżej tabela zawera nformację o wartośc współczynnka determnacj dla danego modelu, lczbe uwzględnonych zmennych nezależnych oraz standaryzowane współczynnk regresj dla zmennych, które weszły do modelu. Rys. 12. Zborcze podsumowane wynków analzy regresj metodą wszystkch możlwych regresj. Zawarte w tabel wynk pozwalają na porównane różnych model o różnej lczbe uwzględnanych zmennych nezależnych. W ten sposób badacz może na przykład Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 43
w stosunkowo łatwy sposób uwzględnć koszty uzyskana danych o poszczególnych zmennych nezależnych. Jak wdać, model zbudowany poprzedno przy pomocy metody krokowej wstecznej znalazł sę w tym zestawenu pod pozycją 12. Podsumowane W rzeczywstych badanach często podejmowane jest zagadnene oceny loścowych zwązków mędzy różnym aspektam zjawsk. Celem takch analz jest zazwyczaj chęć lepszego ch poznana (potwerdzene lub obalene formułowanych w teor hpotez), możlwość przewdywana rozwoju badanych zjawsk lub procesów, czy wreszce wykorzystane znajomośc loścowych zależnośc do symulacj [1]. Dla zrealzowana tak postawonych celów nezbędne jest odwołane sę do teor badanego zjawska, dostęp do wyróżnonych w opse zjawska danych, znajomość metody umożlwającej odwzorowane hpotez teoretycznych za pomocą zgromadzonych danych statystycznych oraz wedza potrzebna do tego, aby stwerdzć, w jakm stopnu to odwzorowane sę udało. Lteratura 1. Ekonometra badana operacyjne. Podręcznk dla studów lcencjackch, pod red. naukową M. Gruszczyńskego, T. Kuszewskego M. Podgórskej (2009), PWN. 2. Johnson R. W. (1996), Fttng Percentage of Body Fat to Smple Body Measurements, Journal of Statstcs Educaton v. 4, n. 1 (www.amstat.org/publcatons/jse/v4n1/datasets.johnson.html). 3. Krzanowsk W. J. (1998), An Introducton to Statstcal Modellng, Arnold. 4. Maddala G. S. (2006), Ekonometra, PWN. 5. McIntyre L. (1994), Usng Cgarette Data for An Introducton to Multple Regresson, Journal of Statstcs Educaton v. 2, n. 1 (www.amstat.org/publcatons/jse/v2n1/datasets.mcntyre.html). 6. Welfe A. (2009), Ekonometra. Metody ch zastosowane, PWE. 44 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011