PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE



Podobne dokumenty
KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Natalia Nehrebecka. Wykład 2

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Natalia Nehrebecka. Zajęcia 3

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada. Zajęcia 3

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Metody predykcji analiza regresji

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Analiza regresji modele ekonometryczne

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Weryfikacja hipotez dla wielu populacji


Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY

Natalia Nehrebecka. Dariusz Szymański

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

WPROWADZENIE DO ANALIZY KORELACJI I REGRESJI

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

METODY PLANOWANIA EKSPERYMENTÓW. dr hab. inż. Mariusz B. Bogacki

Sprawozdanie powinno zawierać:

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

Analiza korelacji i regresji

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Rachunek prawdopodobieństwa i statystyka W 11: Analizy zależnościpomiędzy zmiennymi losowymi Model regresji wielokrotnej

Hipotezy o istotności oszacowao parametrów zmiennych objaśniających ˆ ) ˆ

Natalia Nehrebecka. Zajęcia 4

Rozkład dwupunktowy. Rozkład dwupunktowy. Rozkład dwupunktowy x i p i 0 1-p 1 p suma 1

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

PROGNOZOWANIE SPRZEDAŻY Z ZASTOSOWANIEM ROZKŁADU GAMMA Z KOREKCJĄ ZE WZGLĘDU NA WAHANIA SEZONOWE

Za: Stanisław Latoś, Niwelacja trygonometryczna, [w:] Ćwiczenia z geodezji II [red.] J. Beluch

Statystyka. Zmienne losowe

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru

Portfele zawierające walor pozbawiony ryzyka. Elementy teorii rynku kapitałowego

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Wykłady Jacka Osiewalskiego. z Ekonometrii. CZĘŚĆ PIERWSZA: Modele Regresji. zebrane ku pouczeniu i przestrodze

MIĘDZYNARODOWE UNORMOWANIA WYRAśANIA ANIA NIEPEWNOŚCI POMIAROWYCH

BADANIE STABILNOŚCI WSPÓŁCZYNNIKA BETA AKCJI INDEKSU WIG20

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

WSKAŹNIK OCENY HIC SAMOCHODU OSOBOWEGO W ASPEKCIE BEZPIECZEŃSTWA RUCHU DROGOWEGO

± Δ. Podstawowe pojęcia procesu pomiarowego. x rzeczywiste. Określenie jakości poznania rzeczywistości

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 2(88)/2012

NAFTA-GAZ marzec 2011 ROK LXVII. Wprowadzenie. Tadeusz Kwilosz

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

EKONOMETRIA I Spotkanie 1, dn

Badanie współzaleŝności dwóch cech ilościowych X i Y. Analiza korelacji prostej. Badanie zaleŝności dwóch cech ilościowych. Analiza regresji prostej

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

STATYSTYKA MATEMATYCZNA

Wprowadzenie do analizy korelacji i regresji

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

I. Elementy analizy matematycznej

3. ŁUK ELEKTRYCZNY PRĄDU STAŁEGO I PRZEMIENNEGO

Procedura normalizacji

MODELOWANIE LICZBY SZKÓD W UBEZPIECZENIACH KOMUNIKACYJNYCH W PRZYPADKU WYSTĘPOWANIA DUŻEJ LICZBY ZER, Z WYKORZYSTANIEM PROCEDURY KROSWALIDACJI

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Dobór zmiennych objaśniających

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

MATEMATYKA POZIOM ROZSZERZONY Kryteria oceniania odpowiedzi. Arkusz A II. Strona 1 z 5

Analiza zależności zmiennych ilościowych korelacja i regresja

65120/ / / /200

Planowanie eksperymentu pomiarowego I

Statystyka Inżynierska

STATECZNOŚĆ SKARP. α - kąt nachylenia skarpy [ o ], φ - kąt tarcia wewnętrznego gruntu [ o ],

MATERIAŁY I STUDIA. Zeszyt nr 286. Analiza dyskryminacyjna i regresja logistyczna w procesie oceny zdolności kredytowej przedsiębiorstw

Egzamin ze statystyki/ Studia Licencjackie Stacjonarne/ Termin I /czerwiec 2010

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

ZAJĘCIA X. Zasada największej wiarygodności

DIAGNOSTYKA WYMIENNIKÓW CIEPŁA Z UWIARYGODNIENIEM WYNIKÓW POMIARÓW EKPLOATACYJNYCH

Rachunek niepewności pomiaru opracowanie danych pomiarowych

Nieparametryczne Testy Istotności

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Model ASAD. ceny i płace mogą ulegać zmianom (w odróżnieniu od poprzednio omawianych modeli)

Propozycja modyfikacji klasycznego podejścia do analizy gospodarności

Systemy Ochrony Powietrza Ćwiczenia Laboratoryjne

Evaluation of estimation accuracy of correlation functions with use of virtual correlator model

MINISTER EDUKACJI NARODOWEJ

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru

APROKSYMACJA QUASIJEDNOSTAJNA

ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ

OBLICZANIE NIEPEWNOŚCI METODĄ TYPU B

Proste modele ze złożonym zachowaniem czyli o chaosie

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

A C T A U N I V E R S I T A T I S N I C O L A I C O P E R N I C I EKONOMIA XXXIX NAUKI HUMANISTYCZNO-SPOŁECZNE ZESZTYT 389 TORUŃ 2009.

Opracowanie metody predykcji czasu życia baterii na obiekcie i oceny jej aktualnego stanu na podstawie analizy bieżących parametrów jej eksploatacji.

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

WYBRANE METODY TWORZENIA STRATEGII ZRÓWNOWAŻONEGO TRANSPORTU MIEJSKIEGO SELECTED METHODS FOR DEVELOPING SUSTAINABLE URBAN TRANS- PORT STRATEGIES

PODSTAWA WYMIARU ORAZ WYSOKOŚĆ EMERYTURY USTALANEJ NA DOTYCHCZASOWYCH ZASADACH

O PEWNYM MODELU POZWALAJĄCYM IDENTYFIKOWAĆ K NAJBARDZIEJ PODEJRZANYCH REKORDÓW W ZBIORZE DANYCH KSIĘGOWYCH W PROCESIE WYKRYWANIA OSZUSTW FINANSOWYCH

ZASTOSOWANIA METOD MATEMATYCZNYCH W EKONOMII I ZARZĄDZANIU

= σ σ. 5. CML Capital Market Line, Rynkowa Linia Kapitału

Kształtowanie się firm informatycznych jako nowych elementów struktury przestrzennej przemysłu

STATYSTYCZNA ANALIZA WYNIKÓW POMIARÓW

Transkrypt:

PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE Janusz Wątroba, StatSoft Polska Sp. z o.o. W nemal wszystkch dzedznach badań emprycznych mamy do czynena ze złożonoścą zjawsk procesów. W zwązku z tym występuje naturalne zanteresowane ze strony badaczy metodam analzy danych, które umożlwają loścową ocenę zwązków występujących pomędzy różnym aspektam badanych zjawsk procesów. Stosunkowo najczęścej do tego celu wykorzystywane są metody regresj lnowej prostej welorakej. W opracowanu przedstawono krótko deę metody regresj lnowej, sposób jej doboru oraz zagadnene nterpretacj oszacowanego modelu. W drugej częśc zaprezentowano przykłady analz przeprowadzonych z użycem narzędz dostępnych w środowsku programu STATISTICA. Wprowadzene Jednym z najczęstszych powodów stosowana metod statystycznej analzy danych jest poszukwane przyczyn mających wpływ na nteresujące badacza zjawska. Przykładowo dla ekonomsty może być nteresujące stwerdzene, jake czynnk kształtują sprzedaż wybranych produktów lub usług. Lekarz jest zanteresowany poszukwanem czynnków wpływających na stan klnczny pacjentów, u których zdagnozowano pewną jednostkę chorobową. W badanach pedagogcznych celem może być poszukwane czynnków, które wpływają na wynk egzamnu. Z kole socjologa może nteresować, jake czynnk są odpowedzalne za poparce kandydatów w wyborach. Praktyczne w każdej dzedzne badań emprycznych można bez trudu podać dalsze przykłady zagadneń stawanych w podobny sposób. Zazwyczaj mamy do czynena z sytuacją, w której nteresujące nas aspekty badanych zjawsk zależą od całego szeregu czynnków, traktowanych jako potencjalne przyczyny (wybór takch potencjalnych przyczyn jest oczywśce łatwejszy w tych dzedznach badań, w których stneje dobrze ugruntowana teora). Bardzo często trudno jest stwerdzć, w jak sposób określone przyczyny kształtują wybrane przez badacza lub analtyka skutk. Kolejnym problemem jest fakt, ż brane pod uwagę czynnk ne są od sebe nezależne, lecz są nawzajem w różny sposób od sebe uzależnone. W zwązku z tym badacz śwadome wybera podejśce polegające na uproszczenu badanych powązań. Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 31

Opsywaną sytuację można przedstawć ogólne za pomocą zapsu: Skutek Przyczyna(y) Bardzej formalny sposób podejśca do rozważanego problemu prowadz do sformułowana jednokerunkowej zależnośc w postac funkcj: S f (P) Najprostszą postacą takego równana jest funkcja lnowa, w przypadku której przyjmujemy, że S jest proporcjonalne do P. Przyjęce lnowej postac zależnośc pozwala w łatwy sposób przedstawć grafczne rozważany problem. Ponżej na dwuwymarowym wykrese rozrzutu zaprezentowano przykładowy obraz zależnośc mędzy welkoścam S P. Każdy punkt wykresu oznacza pojedynczy obekt (obserwację, pomar). Rys. 1. Wykres lustrujący powązane pomędzy welkoścam S P. Położene punktów na wykrese wskazuje na występowane wyraźnej prawdłowośc (tendencj). Jednocześne wdać, że prawdłowość ta ne może być opsana wyłączne za pomocą zwykłej funkcj lnowej. Model regresj lnowej prostej Jedno z możlwych rozwązań wskazanego powyżej problemu polega na wprowadzenu do determnstycznego równana S = f (P) zmennej losowej założenu, że rzeczywsta zależność S od P ma charakter stochastyczny [6]. Zmenna losowa to tzw. składnk losowy, którego zadanem jest odzwercedlene w modelu neprzewdywanego elementu losowośc (zwązanego np. z ludzkm zachowanam), wpływu welu pomnętych 32 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011

w modelu zmennych oraz błędów pomaru welkośc S. W ten sposób otrzymujemy równane (model), które możemy w ogólnej postac zapsać jako: Y f ( X, ) Jest to model regresj lnowej prostej. W modelu tym Y oznacza zmenną zależną 1 lub objaśnaną, X to zmenna nezależna lub objaśnająca. W klasycznej analze regresj wprowadza sę klka założeń [6]. Najważnejsze z nch to: model zakłada stablność relacj f mędzy badanym zjawskam, model jest lnowy względem parametrów Y 0 1 X, gdze 0 1 to tzw. parametry strukturalne modelu, 2 składnk losowy jest zmenną losową o rozkładze normalnym N (0, ). Założene stablnośc relacj jest bardzo naturalne. Uchylene tego założena prowadz do model o parametrach zmennych w czase lub model przełącznkowych. Lnowa postać badanej funkcj umożlwa wykorzystane stosunkowo prostych metod estymacj. Założene normalnośc rozkładu składnka losowego pozwala przeprowadzć wnoskowane statystyczne, poneważ odpowedne statystyk mają wówczas pożądane rozkłady (np. t-studenta, F). Innym słowy można powedzeć, że ze względu na złożoność badanych zjawsk pojawają sę trudnośc w odwzorowanu rzeczywstych mechanzmów odpowedzalnych za ch przebeg. Potrzebne jest zatem uproszczene. Uproszczone odwzorowane rzeczywstych współzależnośc pomędzy badanym zjawskam wymaga od badacza umejętnego wydobyca stoty mechanzmu generującego dane przekształcene go do postac umożlwającej zastosowane podejśca statystycznego. Sprowadza sę to do przyjęca określonej matematycznej formuły, ujmującej powązana pomędzy zmennym oraz założeń o losowych procesach, wpływających na wynk pojedynczych pomarów [3]. Warto jeszcze raz zwrócć uwagę na to, że przy próbe loścowego opsu powązań potrzebne jest rozróżnene dwóch typów zależnośc: determnstycznej (funkcyjnej), która każdej wartośc zmennej x przyporządkowuje jedną tylko jedną wartość zmennej y, oraz statystycznej (probablstycznej), która ne przyporządkowuje jednoznaczne wartośc y danym wartoścom x, ale może być precyzyjne opsana za pomocą metod probablstycznych [4]. Jak doberana jest lna regresj? Borąc pod uwagę rozmeszczenu punktów na wykrese pokazane na rys. 1, można zaproponować wele różnych sposobów doboru prostej, która opsywałaby obserwowaną prawdłowość. Najprostsza z tych metod mogłaby polegać na posłużenu sę zwykłą lnjką 1 W ksążce Maddal [4] na str 96 zameszczono zestawene nnych nazw używanych dla zmennych Y X. Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 33

dopasowanu prostej na oko w tak sposób, aby poszczególne obserwacje leżały blsko nej. Oczywśce potrzebne jest bardzej formalne kryterum, ale sama dea dopasowana jest właścwe bardzo podobna. Lna regresj będąca grafcznym odpowednkem modelu regresj jest tak doberana, aby welkość będąca sumą kwadratów odległośc wszystkch punktów emprycznych od odpowednch punktów na ln regresj była jak najmnejsza (rys. 2). Rys. 2. Wykres lustrujący kryterum doboru ln regresj. Opsane kryterum jest określane nazwą: metoda najmnejszych kwadratów (MNK). Kryterum to można formalne zapsać jako: n 1 ( y yˆ ) 2 mn Praktycznym efektem zastosowana tego kryterum jest możlwość oszacowana parametrów strukturalnych modelu regresj ( 0 1 ), które charakteryzują sę pożądanym własnoścam. Od czego zacząć nterpretację? Po oszacowanu parametrów strukturalnych otrzymuje sę ch oceny w próbe w zwązku z tym model regresj możemy zapsać w postac: yˆ b b x, 0 1 gdze ŷ oznacza wartość przewdywaną zmennej zależnej, a b0 b 1 to oceny parametrów strukturalnych modelu. 34 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011

Welkość b 0 oznacza współrzędną y-ową punktu przecęca dopasowanej ln regresj z osą OY, natomast b 1 jest współczynnkem nachylena ln regresj do os OX. Pokazano to na ponższym rysunku. Rys. 3. Interpretacja ocen parametrów strukturalnych modelu regresj lnowej. Przy wnoskowanu statystycznym o parametrach strukturalnych modelu sprawdza sę, czy parametry te stotne różną sę od zera. W tym celu korzysta sę z rozkładu statystyk t-studenta. W praktyce wększe znaczene ma ocena stotnośc parametru 1, którego ocena z próby mów o tym, jakego przecętnego przyrostu wartośc zmennej zależnej możemy sę spodzewać, przy założenu przyrostu wartośc zmennej nezależnej o 1 jednostkę. Jak sprawdzć, czy model dobrze pasuje do danych? Do oceny dopasowana modelu do danych emprycznych stosowanych jest wele różnych statystyk dagnostycznych. Jedną z najczęścej stosowanych jest współczynnk determnacj, oznaczany przez R 2. Oblcza sę go ze wzoru: R n 2 1 n 1 2 ( yˆ y) 2 ( y y) gdze ŷ oznacza wartość przewdywaną zmennej zależnej, a y średną wartość zmennej zależnej y. Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 35

Lcznk powyższego ułamka określa zmenność welkośc ŷ, a manownk merzy zmenność obserwowanych wartośc y. Współczynnk R 2 jest węc marą stopna, w jakm model wyjaśna kształtowane sę zmennej y. Przyjmuje on wartośc z przedzału [0; 1]. Im jego wartość jest blższa 1, tym dopasowane modelu do danych jest lepsze. Inna mara zgodnośc modelu z danym emprycznym opera sę na warancj składnka losowego. Punktem wyjśca są w tym przypadku tzw. reszty modelu. Reszta, która odpowada -tej obserwacj, wyraża sę wzorem: e y yˆ, gdze =1, 2,..., n Ocena warancj składnka losowego, tzw. warancja resztowa, jest oblczana według wzoru: S 2 e n 2 e 1 n k 1 gdze: n oznacza lczbę obserwacj, a k lczbę zmennych objaśnających w modelu. Perwastek z warancj resztowej, czyl odchylene standardowe reszt S e (zwany także błędem standardowym estymacj), jest powszechne stosowaną marą zgodnośc modelu z danym emprycznym. Welkość ta wskazuje na przecętną różncę mędzy zaobserwowanym wartoścam zmennej objaśnanej wartoścam teoretycznym. Jest to welkość manowana (mano tej welkośc jest take samo jak zmennej objaśnanej). Na jej podstawe można równeż oblczyć marę nemanowaną, a manowce tzw. współczynnk zmennośc losowej, który określa wzór: Se W y Współczynnk ten nformuje o tym, jaką część średnej wartośc zmennej objaśnanej stanow błąd standardowy estymacj, jest zazwyczaj wyrażany w procentach. A co z założenam? Poprawność wynków analzy regresj zależy od tego, w jakm stopnu są spełnone jej najważnejsze założena. Wyczerpujący ops oraz dyskusję założeń klasycznej analzy regresj, konsekwencje ch nespełnena oraz omówene zalecanych sposobów postępowana można znaleźć w podręcznku Welfego [6]. W nnejszym opracowanu zwrócmy uwagę na założena dotyczące składnka losowego ( ). Najważnejsze z nch dotyczy normalnośc rozkładu. Jak to zostało już wspomnane wcześnej, spełnene tego założena pozwala przeprowadzć wnoskowane statystyczne, poneważ odpowedne statystyk mają wówczas pożądane rozkłady (np. t-studenta, F). W częśc zawerającej ops przykładów analzy regresj zostane przedstawony sposób sprawdzana normalnośc rozkładu składnka losowego. 36 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011

Przykład analzy regresj lnowej prostej w STATISTICA Dla zlustrowana kolejnych etapów budowy modelu regresj lnowej prostej w środowsku programu STATISTICA wykorzystano wynk oceny 25 marek paperosów różnych producentów, przeprowadzanej coroczne przez Federalną Komsję Handlu w USA [5]. Ocene podlegały m.n. take nformacje, jak lość tlenku węgla zawartego w dyme paperosowym oraz zawartość nkotyny substancj smolstych. Znana jest powszechne szkodlwość tych substancj dla zdrowa palaczy. Ponadto wynk badań wskazują na to, że zwększene zawartośc nkotyny substancj smolstych wąże sę ze zwększenem lośc tlenku węgla w dyme paperosowym. Dane te posłużyły do wstępnej oceny powązań występujących pomędzy branym pod uwagę zmennym oraz budowy modelu regresj lnowej prostej. Ilość tlenku węgla w dyme paperosowym została potraktowana jako zmenna zależna (objaśnana), natomast zawartość nkotyny substancj smolstych jako potencjalne zmenne nezależne (objaśnające). Przy okazj został pokazany wpływ jednej netypowej obserwacj oraz zjawsko współlnowośc zmennych nezależnych. Przy wstępnej ocene charakteru sły badanych powązań warto posłużyć sę dwuwymarowym wykresam rozrzutu. Zgodne z powszechne przyjmowaną konwencją na wykrese takm na os OY umeszczane są wartośc zmennej zależnej, a na os OX wartośc zmennej nezależnej. Wykresy zostały przedstawone ponżej. Rys. 4. Powązane zawartośc tlenku węgla z zawartoścą nkotyny substancj smolstych. Położene punktów na wykresach wskazuje na występowane wyraźnego powązana zawartośc nkotyny substancj smolstych z zawartoścą tlenku węgla w dyme paperosowym. Ponadto charakter powązana wskazuje na możlwość dopasowana do danych funkcj lnowej. Jednocześne na obu wykresach łatwo zauważyć jedną obserwację netypową (odstającą, skrajną, ang. outler) wyraźne odbegającą od pozostałych (powrócmy do tej sprawy w dalszej częśc opracowana). W kolejnym kroku analzy zostaną zbudowane dwa odrębne modele dla każdej ze zmennych nezależnych. Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 37

W trakce budowy modelu regresj program STATISTICA udostępna równeż analtyczne narzędza oceny badanych powązań. Zameszczona ponżej tabela zawera współczynnk korelacj pomędzy branym pod uwagę zmennym. Rys. 5. Korelacje pomędzy zmennym. Otrzymane wartośc współczynnków korelacj lnowej Pearsona potwerdzają występowane slnych dodatnch korelacj pomędzy zawartoścą tlenku węgla a zawartoścą nkotyny (r = 0,926) substancj smolstych (r = 0,957). Na tej podstawe możemy stwerdzć, że obydwe analzowane zmenne nezależne mogą być brane pod uwagę jako potencjalne predyktory przy modelowanu badanych powązań. Wynk w tabel wskazują ponadto na występowane współlnowośc zmennych nezależnych. Na ogół jest ono spowodowane tym, że zmenne charakteryzujące badane zjawska są ze sobą mocno powązane lub też jest to zwązane ze specyfką zboru danych, wykorzystywanego do estymacj parametrów modelu regresj. Welfe [2009] rozróżna dwa rodzaje współlnowośc: dokładną przyblżoną. Jednym z prostych sposobów postępowana z takm zmennym jest usunęce jednej ze skorelowanych zmennych. Omówene różnych podejść stosowanych w przypadku stwerdzena slnej współlnowośc można znaleźć u Welfego [2009] Maddal [2006]. W opsywanym przykładze zbudowano porównano dwa odrębne modele dla każdej ze zmennych nezależnych. Rys. 6. Wynk analzy regresj. Wynk analzy pozwalają stwerdzć, że model regresj uwzględnający zmenną nezależną Nkotyna [mg] pozwala wyjaśnć ponad 85% warancj zmennej Tlenek węgla [mg]. Przecętna różnca pomędzy rzeczywstym wartoścam zmennej zależnej wartoścam przewdywanym przez model wynosła 1,83 mg (stanow to 14,6% średnej dla zmennej zależnej). Wysoka wartość statystyk F (138,27) odpowadający jej pozom prawdopodobeństwa p (p<0,001) potwerdzają statystyczną stotność modelu lnowego. Wartość statystyk t, wykorzystywana do oceny stotnośc współczynnka regresj ( 1 ), oraz 38 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011

odpowadający jej pozom prawdopodobeństwa p potwerdzają, że parametr ten stotne różn sę od zera. Interpretując oszacowaną wartość oceny tego parametru (12,4), możemy stwerdzć, że zwększene zawartośc nkotyny o 1 mg powoduje zwększene zawartośc tlenku węgla w dyme paperosowym o 12,4 mg. Z kole wyraz wolny w modelu ( 0 ) nestotne różn sę od zera (oznacza to, że lna regresj przechodz bardzo blsko środka układu współrzędnych). Drug z otrzymanych model, uwzględnający zmenną nezależną Subst smolste [mg], wyjaśna ponad 91% warancj zmennej Tlenek węgla [mg]. Tym razem przecętna różnca pomędzy rzeczywstym wartoścam zmennej zależnej wartoścam przewdywanym była neco nższa wynosła 1,4 mg (stanow to 11,2% średnej dla zmennej zależnej). Wysoka wartość statystyk F (253,37) odpowadający jej pozom prawdopodobeństwa p (p<0,001) równeż potwerdzają statystyczną stotność modelu lnowego. Wartośc statystyk t, wykorzystywane do oceny stotnośc współczynnka regresj wyrazu wolnego, oraz odpowadające m pozomy prawdopodobeństwa p potwerdzają, że parametry te stotne różną sę od zera. Ponadto otrzymana wartość oceny współczynnka regresj (0,8) pozwala na stwerdzene, że zwększene zawartośc substancj smolstych o 1 mg powoduje zwększene zawartośc tlenku węgla w dyme paperosowym o 0,8 mg. Ponżej zameszczono równeż wykresy lustrujące zbudowane modele. Rys. 7. Wykresy rozrzutu z dopasowanym lnam regresj. Obydwa wykresy potwerdzają bardzo dobre dopasowane ln regresj (oznaczonych lną cągłą) do rzeczywstych danych. Ponadto na wykresach zostały równeż przedstawone krzywe (oznaczone lną przerywaną), wyznaczające 95% przedzały ufnośc dla wartośc oczekwanych modelowanej zmennej zależnej. W trakce wstępnej analzy danych zauważono wystąpene jednej obserwacj netypowej. Zazwyczaj obserwacje take mają wpływ na wynk analzy. Ponżej dla porównana zameszczono tabele z wynkam analzy regresj przeprowadzonej po wykluczenu netypowej obserwacj. Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 39

Rys. 8. Wynk analzy regresj po usunęcu jednej netypowej obserwacj. Otrzymane modele wyjaśnają dodatkowo ponad 1% warancj modelowanej zmennej zależnej. Dość znacznym zmanom uległy natomast oceny wyrazów wolnych współczynnków regresj. Ponadto wyraźne spadły wartośc błędów standardowych estymacj, co oznacza, że modele mają lepsze własnośc prognostyczne. Należy jednak wyraźne podkreślć, że usunęce każdej obserwacj netypowej mus zawsze być odpowedno uzasadnone względam merytorycznym [1]. W ostatnej częśc przykładu sprawdzmy spełnene założena dotyczącego normalnośc rozkładu składnka losowego. W tym celu utworzono wykres normalnośc reszt oraz przeprowadzono test Shapro-Wlka (rys. 9). Wynk dotyczą modelu uwzględnającego zmenną nezależną Nkotyna. Rys. 9. Wykres normalnośc reszt wynk testu Shapro-Wlka. Położene punktów na wykrese oraz wynk testu analtycznego wskazują na brak podstaw do kwestonowana normalnośc rozkładu składnka losowego. 40 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011

Przykład analzy regresj lnowej welorakej W drugm z prezentowanych przykładów do lustracj budowy modelu regresj welorakej zostane wykorzystany zbór danych zawerający wynk pomarów procentowej zawartośc tkank tłuszczowej (uzyskane z zastosowanem technk ważena pod wodą) oraz pomary wybranych cech somatycznych (główne wymary obwodów określonych częśc cała) zebrane dla 252 dorosłych mężczyzn [2]. Znaczene zawartośc tkank tłuszczowej w składze cała wynka z faktu, ż zbyt wysoka lość tkank tłuszczowej może być przyczyną problemów zdrowotnych zwązanych z układem krążena, cukrzycą typu II, znaczne podnos pozom cholesterolu (w konsekwencj prowadz do mażdżycy) nnych poważnych schorzeń. Natomast jeżel pozom tkank tłuszczowej utrzymywany jest w norme, to człowek pozostaje w dobrym zdrowu, ma lepsze samopoczuce, czuje sę lekk szczuplejszy. Ze względu na trudnośc z bezpośrednm pomarem lośc tkank tłuszczowej opracowano wele pośrednch metod oceny stanu otłuszczena. Wszystke te metody wykorzystują różnego rodzaju pomary cech budowy cała lub tworzone na ch podstawe wskaźnk. Merytorycznym celem opsywanego przykładu jest budowa modelu służącego do szacowana procentowej zawartośc tkank tłuszczowej, wykorzystującego pomary cech budowy cała otrzymywane z wykorzystanem prostych narzędz pomarowych: wag taśmy mernczej. Przy budowe modelu regresj pomar zawartośc tkank tłuszczowej przeprowadzony technką ważena pod wodą zostane potraktowany jako zmenna zależna (objaśnana), a wek, pomary wag wzrostu oraz obwody jako potencjalne zmenne nezależne (objaśnające). W przypadku budowana modelu regresj welorakej pojawa sę problem sposobu doboru lczby zmennych objaśnających (nezależnych), które mają zostać uwzględnone w modelu. Lczba zmennych objaśnających wynka ze znajomośc badanej problematyk. Badacz ne pownen tłumaczyć sę, że powodem neuwzględnena określonej zmennej objaśnającej była neznajomość jej wpływu na zmenną objaśnaną (zależną) lub neodpowedna welkość próby czy też newłaścwy pomar wartośc tej zmennej. Ważną rzeczą jest skuteczność, a model regresyjny bez zmennych, które powodują systematyczne zmany zmennej zależnej Y, jest neprawdzwy, a ponadto prowadz do obcążonych estymatorów parametrów modelu. Istotność nektórych zmennych ustala sę metodam statystycznym, jednak ne można tym zastąpć analzy merytorycznej. Statystyczna analza zboru zmennych objaśnających dotyczy zmnejszana lczby tych zmennych. Model uwzględnający zbyteczne zmenne charakteryzuje sę gorszym własnoścam numerycznym jakość estymatorów jest zwykle gorsza z powodu wększych błędów występowana ntensywnejszych wzajemnych zależnośc wśród zmennych objaśnających. Wśród metod doboru zmennych do modelu wyróżnamy: standardową, krokowe, wprowadzana lub usuwana zmennych oraz wszystkch możlwych regresj. W nnejszym opracowanu przedstawono wynk budowana modelu metodą regresj krokowej wstecznej oraz wszystkch możlwych regresj. W perwszej z tych metod w perwszym etape budowany jest model zawerający wszystke dostępne zmenne nezależne. Następne Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 41

w kolejnych etapach usuwane są kolejne najmnej stotne zmenne nezależne, aż do uzyskana modelu uwzględnającego tylko zmenne nezależne stotne. Na samym początku warto przyjrzeć sę korelacjom wszystkch zmennych nezależnych z modelowaną zmenną zależną. Rys. 10. Współczynnk korelacj zmennej zależnej ze zmennym nezależnym oraz w obrębe zmennych nezależnych. Jak wdać, stosunkowo najmocnejsze powązane z otłuszczenem cała wykazuje obwód brzucha (r=0,825), BMI (r=0,748) oraz obwód klatk persowej (r=0,701). Jednocześne wdać wyraźne, że nektóre ze zmennych nezależnych są równeż mocno powązane ze sobą (np. współczynnk korelacj pomędzy obwodem boder wagą wynos 0,929). W zwązku z tym zmenne te będą sę nawzajem elmnować w kolejnych etapach budowy modelu. Ponżej przedstawono końcowe wynk ostatecznego modelu, do którego weszły zmenne: Wek, Obwód brzucha oraz Obwód nadgarstka. Rys. 11. Współczynnk korelacj zmennej zależnej ze zmennym nezależnym oraz w obrębe zmennych nezależnych. Na podstawe otrzymanych wynków stwerdzamy, że zbudowany model pozwala wyjaśnć około 73% zmennośc modelowanej zmennej zależnej. Wartość statystyk F odpowadający jej pozom prawdopodobeństwa testowego p potwerdzają stotny statystyczne zwązek lnowy. Ponadto wartośc statystyk t wskazują, że wyraz wolny współczynnk regresj stotne różną sę od zera. Interpretując oszacowaną wartość ocen poszczególnych parametrów, możemy stwerdzć, że z każdym rokem otłuszczene cała rośne przecętne o 0,07% (przy nezmenonych wartoścach pozostałych zmennych nezależnych, zasada ceters parbus [1, 4, 6]). Z kole 42 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011

zwększene obwodu brzucha o jedną jednostkę powoduje zwększene otłuszczena cała o 0,72% (równeż przy ustalonych wartoścach pozostałych zmennych). Dość zaskakująco wypada nterpretacja oceny współczynnka regresj przy zmennej Obwód nadgarstka. Zwększene jej wartośc o jedną jednostkę powoduje zmnejszene otłuszczena cała o 2,2% (równeż przy ustalonych wartoścach pozostałych zmennych). Przy wykorzystanu modelu do szacowana rzeczywstego otłuszczena cała na podstawe weku prostych cech budowy cała (obwód brzucha obwód nadgarstka) przecętny błąd wynos 4 %. Pewne ogranczene podejśca wykorzystującego poszukwane metodą regresj krokowej polega na przyjęcu, że stneje jeden najlepszy podzbór zmennych nezależnych poszukwanu metody jego dentyfkacj. Często zachodz sytuacja, gdy ne ma jednego najlepszego podzboru. W zwązku z tym nektórzy statystycy sugerują, że można następne spróbować dopasować modele metodą wszystkch możlwych regresj, zawerające podobną lczbę zmennych nezależnych jak w przypadku rozwązana metodą regresj krokowej, aby zbadać, czy przypadkem nektóre nne podzbory zmennych ne są lepsze. Rozumowane to sugeruje, że po znalezenu rozwązana metodą krokową, pownen zostać zbadany najlepszy ze wszystkch możlwych podzborów o tej samej lczbe efektów, w celu sprawdzena, czy rozwązane uzyskane metodą krokową jest rzeczywśce najlepsze. Ponżej przedstawono zborcze wynk budowy model o lczbe zmennych nezależnych od 1 do 6. Dla każdej lczby zmennych nezależnych przedstawono wynk trzech najlepszych model, przy przyjęcu jako kryterum wartośc współczynnka determnacj R 2. Zameszczona ponżej tabela zawera nformację o wartośc współczynnka determnacj dla danego modelu, lczbe uwzględnonych zmennych nezależnych oraz standaryzowane współczynnk regresj dla zmennych, które weszły do modelu. Rys. 12. Zborcze podsumowane wynków analzy regresj metodą wszystkch możlwych regresj. Zawarte w tabel wynk pozwalają na porównane różnych model o różnej lczbe uwzględnanych zmennych nezależnych. W ten sposób badacz może na przykład Copyrght StatSoft Polska 2011 www.statsoft.pl/czytelna.html 43

w stosunkowo łatwy sposób uwzględnć koszty uzyskana danych o poszczególnych zmennych nezależnych. Jak wdać, model zbudowany poprzedno przy pomocy metody krokowej wstecznej znalazł sę w tym zestawenu pod pozycją 12. Podsumowane W rzeczywstych badanach często podejmowane jest zagadnene oceny loścowych zwązków mędzy różnym aspektam zjawsk. Celem takch analz jest zazwyczaj chęć lepszego ch poznana (potwerdzene lub obalene formułowanych w teor hpotez), możlwość przewdywana rozwoju badanych zjawsk lub procesów, czy wreszce wykorzystane znajomośc loścowych zależnośc do symulacj [1]. Dla zrealzowana tak postawonych celów nezbędne jest odwołane sę do teor badanego zjawska, dostęp do wyróżnonych w opse zjawska danych, znajomość metody umożlwającej odwzorowane hpotez teoretycznych za pomocą zgromadzonych danych statystycznych oraz wedza potrzebna do tego, aby stwerdzć, w jakm stopnu to odwzorowane sę udało. Lteratura 1. Ekonometra badana operacyjne. Podręcznk dla studów lcencjackch, pod red. naukową M. Gruszczyńskego, T. Kuszewskego M. Podgórskej (2009), PWN. 2. Johnson R. W. (1996), Fttng Percentage of Body Fat to Smple Body Measurements, Journal of Statstcs Educaton v. 4, n. 1 (www.amstat.org/publcatons/jse/v4n1/datasets.johnson.html). 3. Krzanowsk W. J. (1998), An Introducton to Statstcal Modellng, Arnold. 4. Maddala G. S. (2006), Ekonometra, PWN. 5. McIntyre L. (1994), Usng Cgarette Data for An Introducton to Multple Regresson, Journal of Statstcs Educaton v. 2, n. 1 (www.amstat.org/publcatons/jse/v2n1/datasets.mcntyre.html). 6. Welfe A. (2009), Ekonometra. Metody ch zastosowane, PWE. 44 www.statsoft.pl/czytelna.html Copyrght StatSoft Polska 2011