MODELOWNIE WSPÓŁZALEŻNOŚCI ZJAWISK W STATISTICA I STATISTICA DATA MINER Janusz Wątroba, StatSoft Polska Sp. z o.o. Zjawiska i procesy obserwowane w otaczającej nas rzeczywistości mają zazwyczaj dość złożony charakter. Bardzo często jedynym sposobem rozwiązania problemu jest uproszczone odwzorowanie rzeczywistości. Zespół technik wykorzystywanych do tego celu jest określany wspólnym terminem modelowanie statystyczne. Odpowiedni statystyczny model zjawiska wymaga z jednej strony umiejętnego wydobycia istoty mechanizmu generującego dane, a z drugiej strony przekształcenie go do postaci umożliwiającej zastosowanie podejścia statystycznego. Najczęściej sprowadza się to do przyjęcia określonej matematycznej formuły, ujmującej powiązania pomiędzy zmiennymi, oraz założeń o losowych procesach, wpływających na wyniki pojedynczych pomiarów. Z dydaktycznego punktu widzenia dopasowanie modelu do danych empirycznych pozwala zilustrować podejście badacza, które zazwyczaj zmierza do coraz lepszego poznania interesującego go zjawiska. Model jest pojęciem abstrakcyjnym, swoistym pomostem między abstrakcyjnymi sposobami myślenia a realnie istniejącą rzeczywistością. Przedstawia on pewne wyodrębnione, obiektywnie istniejące relacje, które odwzorowuje za pomocą użytecznych reguł, pozwalających symulować zachowanie i własności przedstawionego fragmentu rzeczywistości. Dobrze skonstruowany model w adekwatny sposób odtwarza badane obiekty, zjawiska lub procesy i powinien stanowić kompromis między nadmiernym uproszczeniem rzeczywistości a zbytnim nagromadzeniem szczegółów. Dla badacza ważną korzyścią ze zbudowanego modelu może być otrzymanie wygodnego narzędzia do przewidywania przebiegu zjawiska w przyszłości lub przy przyjęciu innego układu warunków, które go kształtują. Praktyczne aspekty podejścia do modelowania zostaną zilustrowane w środowisku programu STATISTICA i STATISTICA Data Miner [8] na przykładach analizy danych z zakresu medycyny i ekonomii. Najpierw zostanie omówiony sposób uwzględnienia w modelu regresji liniowej zmiennych objaśniających o charakterze jakościowym. W drugiej części opracowania przedstawiono przykłady budowy kilku różnych modeli nieliniowych do opisu zmian liczby abonentów telefonii komórkowej w Polsce. Końcową część poświęcono przykładom budowy modeli dla jakościowej zmiennej zależnej. Przedstawiono zarówno podejście klasyczne, jak i podejście wykorzystujące metody data mining. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 61
Problematyka modelowania statystycznego Termin model pojawia się bardzo często w różnych dziedzinach badań naukowych i działaniach praktycznych. Jako przykład można podać projekt nowego budynku wystawiony na pokaz w urzędzie miejskim czy model mózgu wykorzystywany na uczelniach medycznych przy nauczaniu anatomii lub zagadnień neurologicznych. Innym przykładem może być model samolotu umieszczony w tunelu aerodynamicznym w celu oceny jego odporności na działanie sił zewnętrznych [7]. Przytoczone w powyższych przykładach modele są budowane w celu odzwierciedlenia w mniejszej skali wielkości fizycznych charakteryzujących rzeczywiste obiekty. Modele te różnią się między sobą pod względem stopnia dokładności odwzorowania, który zależy z kolei od tego, do jakich celów model został utworzony. Tego typu modele są zaliczane do kategorii modeli fizycznych. Nieco inny charakter mają modele matematyczne, w których badacz skupia się na pewnym szczegółowym aspekcie badanego systemu i stara się znaleźć równanie lub układ równań w adekwatny sposób opisujące wybrany aspekt. Przykładowo badacz obserwuje trajektorie ruchu planet, a następnie próbuje znaleźć równanie lub równania opisujące ten ruch. Dokładność reprezentacji jest determinowana przez cel, dla którego podjęto modelowanie. Celem tym może być opis określonego obiektu lub prognozowanie jego zachowania. Ważnym problemem jest uwzględnienie w języku matematyki wpływu czynników zewnętrznych. Brane pod uwagę równania powinny być zazwyczaj traktowane jako przybliżenia rzeczywistych obiektów lub systemów. W przypadku modeli matematycznych trzeba uwzględnić pewną ich własność, która ma wyjątkowo duże znaczenie praktyczne. Chodzi o sposób traktowania występujących ograniczeń oraz wpływów czynników zewnętrznych. Jedno z podejść polega na przyjęciu założenia, że czynniki mogą zostać wyspecyfikowane matematycznie, co oznacza, że mogą być całkowicie zdeterminowane i w żaden sposób nie zależą od wahań przypadkowych. Jednakże jest to podejście, które sprawdza się tylko w pewnych szczególnych sytuacjach. Natomiast w przypadku, gdy wymagana jest większa dokładność dla pojedynczych jednostek opisywane podejście zwykle nie może zostać zaakceptowane, ponieważ przypadek odgrywa dużą rolę w większości zjawisk obserwowanych w rzeczywistości i zazwyczaj pomiary liczbowe gromadzone w badaniach są narażone na działanie wielu czynników o charakterze losowym. Jako przykład można podać sytuację, w której znajduje się firma farmaceutyczna produkująca nowy lek przeciwko bólowi głowy. Dla ustalenia, czy oferowany lek jest skuteczniejszy od produktu konkurencyjnej firmy, przeprowadza się badania kliniczne. Jednakże porównywane leki mogą niejednakowo działać w przypadku różnego nasilenia bólu, a osoby uwzględnione w badaniach będą różnić się pomiędzy sobą w zakresie tolerancji, podatności lub reakcjach na podawany lek. Jeżeli wyniki badań mają doprowadzić do poprawnych wniosków, to wszelkie tego typu wahania losowe muszą być brane pod uwagę. Poprawna analiza danych musi być zatem oparta na technikach, które uwzględniają możliwe wahania typu losowego. Wprowadzenie do modelu matematycznego czynnika losowego prowadzi do przekształcenia modelu w model statystyczny. Problematyka modelowania statystycznego odgrywa ważną rolę w praktycznych zastosowaniach statystyki i pojawia się w wielu formach i na różnym poziomie złożoności. 62 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl
Już na etapie gromadzenia empirycznych danych badacz ma zazwyczaj na uwadze określone cele badawcze. Najczęściej opierają się one na pewnej teorii lub hipotezach, dotyczących ogólnego zachowania systemu, będącego przedmiotem badania. Przykładowo teoria może dotyczyć relacji występujących pomiędzy obserwowanymi zmiennymi, różnicy w przeciętnym poziomie reakcji ocenianej w dwóch populacjach obiektów lub (bardziej szczegółowo) wpływu różnych kombinacji nawozów i rodzajów gleby na wielkość plonu zboża. Pierwszy wymagany krok w analizie danych polega na wyspecyfikowaniu matematycznego wyrażenia opisującego ogólne zachowanie badanego systemu, które oddaje w odpowiedni sposób przekonanie badacza. Wyrażenie to jest nazywane składnikiem systematycznym w modelu [7]. Jednakże wszystkie badane jednostki zazwyczaj wykazują pewien zakres specyficznego zachowania i w związku z tym obserwacje rejestrowane dla poszczególnych jednostek będą cechować się pewną zmiennością, która w mniejszym lub większym stopniu jest specyficzna dla badanej zmiennej. Przykładowo częstość skurczów serca różni się wyraźnie międzyosobniczo, podczas gdy temperatura ciała mierzona u zdrowych osób wykazuje bardzo zbliżony poziom. Część systematyczna modelu jest przeznaczona do opisu idealnej odpowiedzi badanego obiektu, dlatego dla wbudowania zmienności w reakcji pojedynczych jednostek musimy uwzględnić w modelu składnik losowy oraz określić sposób powiązania obydwu składników. Można zatem powiedzieć, że określenie składnika systematycznego, przyjęcie założeń dotyczących składnika losowego oraz sposobu ich powiązania tworzy trzy zasadnicze własności modelu statystycznego. Kryteria wyboru właściwego modelu Wybór odpowiedniego modelu sprowadza się do podjęcia kilku decyzji. Pierwsza z nich dotyczy składnika systematycznego. Składnik ten wyraża zazwyczaj pewne populacyjne własności zmiennej objaśnianej zależnej w modelu (np. wartość oczekiwaną) za pomocą równania parametrycznego zawierającego zmienne objaśniające. Może to być na przykład funkcja liniowa lub wielomian określonego stopnia. W równaniu takim występują parametry, które odzwierciedlają wpływ każdej ze zmiennych objaśniających. Głównym celem modelowania jest wyznaczenie najlepszych wartości tych parametrów dla danego zbioru danych, przy czym kluczowym kryterium jest przyjęcie określonego typu powiązania: liniowego lub nieliniowego. Kolejna sprawa to przyjęcie odpowiedniego probabilistycznego wyrażenia opisującego nieprzewidywalne reakcje pojedynczych jednostek. Naturalnym sposobem opisu danych z próby jest przyjęcie określonego rozkładu prawdopodobieństwa dla zmiennej objaśnianej. Na przykład rozkład normalny jest naturalnym wyborem w przypadku danych pochodzących z pomiarów, model Poissona dla danych dotyczących liczby zdarzeń, a rozkład dwumianowy w przypadku danych określających proporcje. Ostatnia decyzja dotyczy przyjęcia sposobu powiązania obu składników. Składniki mogą być połączone addytywnie lub multiplikatywnie. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 63
Uwzględnienie jakościowych zmiennych objaśniających w modelu regresji Przy modelowaniu powiązań pomiędzy zmiennymi w wielu sytuacjach może okazać się potrzebne wprowadzenie do modelu jednej lub wielu zmiennych objaśniających o charakterze jakościowym. Przykładowo firma zajmująca się wyceną nieruchomości może być zainteresowana ustaleniem zależności ich wartości od tego, czy nieruchomość jest w posiadaniu właściciela czy też została wydzierżawiona, niezależnie od chęci ustalenia, jak wartość nieruchomości jest powiązana z takimi zmiennymi ilościowymi jak: jej powierzchnia czy czas użytkowania [1]. Najprostszy przypadek to sytuacja, w której zmienna jakościowa przyjmuje tylko dwie wartości (jest wtedy nazywana zmienną dychotomiczną, binarną lub zero-jedynkową). Zmienna taka odzwierciedla zachodzenie bądź niezachodzenie określonego warunku. Stosowanie takich zmiennych w analizie regresji jest stosunkowo proste i nie wymaga żadnych specjalnych procedur rachunkowych. W zaprezentowanych poniżej przykładach zostanie pokazany sposób ich wykorzystania do ujęcia różnic pomiędzy wartościami wyrazów wolnych oraz/lub współczynników kierunkowych w modelu regresji. Warto zaznaczyć, że zmienne tego typu mogą być także wykorzystane do innych celów, np. estymacji modeli z ograniczeniami dotyczącymi parametrów w różnych równaniach czy też testowania stabilności parametrów regresji [5]. Dla potrzeb praktycznego zilustrowania omawianych zagadnień w środowisku programu STATISTICA wykorzystano dane zebrane do oceny wpływu wieku, płci i statusu palenia na poziom skurczowego ciśnienia krwi u pacjentów ze zdiagnozowaną chorobą nadciśnieniową. Analizę rozpoczęto od sprawdzenia, czy zebrane dane potwierdzają powiązanie ciśnienia skurczowego z wiekiem oraz czy badany związek można opisać za pomocą modelu liniowego. W tym celu utworzono odpowiedni wykres rozrzutu dwóch zmiennych. Rys. 1. Wykres rozrzutu ilustrujący powiązanie skurczowego ciśnienia krwi z wiekiem. 64 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl
Ocena wzajemnego położenia punktów na wykresie pozwala na stwierdzenie, że w badanej grupie pacjentów wyższym wartościom wieku towarzyszy wzrost skurczowego ciśnienia krwi. Ponadto charakter powiązania potwierdza możliwość wykorzystania modelu liniowego. W zamieszczonej poniżej tabeli zawarte są najważniejsze wyniki analizy regresji. Rys. 2. Wyniki analizy regresji. Na podstawie powyższych wyników stwierdzamy, że zbudowany model pozwala wyjaśnić blisko 59% zmienności oryginalnej zmiennej zależnej. Przeciętna różnica między zaobserwowanymi wartościami zmiennej objaśnianej i wartościami teoretycznymi wynosi 11,64 mm Hg (co stanowi około 6,7 % średniej dla zmiennej zależnej). Wartość statystyki F i odpowiadający jej poziom prawdopodobieństwa testowego p potwierdzają istotny statystycznie związek liniowy. Ponadto wartość statystyki t i odpowiadający jej poziom prawdopodobieństwa testowego p wskazują, że ocena współczynnika regresji również istotnie różni się od zera. Z kolei ocena istotności wyrazu wolnego pokazuje, że model przechodzi daleko od środka układu współrzędnych. Poniżej zamieszczono wykres ilustrujący dopasowany model. Rys. 3. Wykres rozrzutu z dopasowaną linią regresji. Otrzymane oceny parametrów modelu pozwalają na stwierdzenie, że u badanych pacjentów wraz z wiekiem następuje wzrost skurczowego ciśnienia krwi przeciętnie o około 0,96 mm Hg rocznie. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 65
Zmienna jakościowa a zmiana wyrazu wolnego W kolejnym kroku rozbudujemy model poprzez dodanie jakościowej zmiennej płeć. Sposób uwzględnienia zmiennej jakościowej w modelu zależy od tego, czy zmienna taka wchodzi w interakcję ze zmienną objaśniającą ilościową. Aby to ocenić, utworzymy odpowiedni skategoryzowany wykres rozrzutu dla branych pod uwagę zmiennych, który pozwoli w nieformalny sposób ocenić występowanie interakcji. Rys. 4. Skategoryzowany wykres rozrzutu badanych zmiennych. Wykres pokazuje, że linie regresji dla różnych grup płci różnią się jedynie poziomami wyrazu wolnego, natomiast mają w przybliżeniu podobne wartości współczynników kierunkowych. Występowanie interakcji można też sprawdzić analitycznie. W tym celu oszacowano model, do którego dodatkowo (oprócz zmiennej Wiek i Płeć) wprowadzono wyrażenie Płeć*Wiek, które oznacza interakcję zmiennych. Wyniki modelowania przedstawia tabela poniżej. Rys. 5. Wyniki analizy regresji z uwzględnieniem interakcji pomiędzy zmiennymi objaśniającymi. Wyniki analizy pokazują, że współczynnik regresji przy wyrażeniu opisującym interakcję zmiennych nieistotnie różni się od zera. W związku z tym zbudowano model z pominięciem interakcji. Wyniki przedstawiono w kolejnej tabeli. 66 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl
Rys. 6. Wyniki analizy regresji z pominięciem interakcji pomiędzy zmiennymi objaśniającymi. Na podstawie powyższych wyników stwierdzamy, że zbudowany model pozwala wyjaśnić blisko 80% zmienności oryginalnej zmiennej zależnej. Przeciętna różnica między zaobserwowanymi wartościami zmiennej objaśnianej i wartościami teoretycznymi wynosi 8,22 mm Hg (co stanowi około 4,7 % średniej dla zmiennej zależnej). Wartość statystyki F i odpowiadający jej poziom prawdopodobieństwa testowego p potwierdzają istotny statystycznie związek liniowy. Ponadto wartość statystyki t i odpowiadające jej poziomy prawdopodobieństwa testowego p wskazują, że obydwa współczynniki regresji również istotnie różnią się od zera. Ocena istotności wyrazu wolnego pokazuje, że model przechodzi daleko od środka układu współrzędnych. Otrzymany model można zapisać w poniższej postaci: CSK 124,114 0,965 Wiek 16, 295 Pleć gdzie CSK oznacza ciśnienie skurczowe krwi, a zmienna Płeć przyjmuje dwie wartości: 0 dla kategorii: Kobieta i 1 dla kategorii: Mężczyzna. Na podstawie modelu można zatem stwierdzić, że podwyższenie wieku pacjenta o 1 rok powoduje zmianę skurczowego ciśnienia krwi o około 0,97 mm Hg, przy ustalonej kategorii zmiennej Płeć. Z kolei przy ustaleniu zmiennej wiek u mężczyzn (kod 1) przewidujemy wyższe skurczowe ciśnienie krwi o około 16,3 mm Hg. Równoważnym rozwiązaniem byłoby zapisanie modelu w postaci dwóch równań: 124,114 0,965 Wiek CSK 140,409 0,965 Wiek dla dla kategorii : 0 kategorii :1 Poniżej zostanie omówiona sytuacja, w której wpływ zmiennej jakościowej powoduje nie tylko zmianę wyrazu wolnego w modelu, ale także zmianę współczynników kierunkowych występujących przy zmiennych objaśniających, które zostały uwzględnione w budowanym modelu. Zmienna jakościowa a zmiany wartości współczynników kierunkowych Wpływ zmiennej Płeć na przebieg linii regresji określającej wpływ wieku na skurczowe ciśnienie krwi polega na przesunięciu modelu względem osi OY. Model dla mężczyzn jest w stosunku do modelu dla kobiet przesunięty ku górze. W dalszej kolejności sprawdzono wpływ zmiennej Palenie na badaną zależność. Podobnie jak poprzednio dla wizualnej oceny wpływu palenia utworzono skategoryzowany wykres rozrzutu. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 67
Rys. 7. Skategoryzowany wykres rozrzutu badanych zmiennych. Wykres pokazuje, że linie regresji dla grup pacjentów różniących się statusem palenia różnią się nie tylko wartościami wyrazów wolnych, ale także wartościami współczynników kierunkowych. Występowanie interakcji potwierdzono też analitycznie. W tym celu oszacowano model, do którego dodatkowo (oprócz zmiennej Wiek i Palenie) wprowadzono wyrażenie Palenie*Wiek, które oznacza interakcję zmiennych. Wyniki modelowania przedstawia tabela poniżej. Rys. 8. Wyniki analizy regresji z uwzględnieniem interakcji pomiędzy zmiennymi objaśniającymi. Wyniki analizy pokazują, że współczynnik regresji przy wyrażeniu opisującym interakcję zmiennych istotnie różni się od zera. Pozostałe parametry modelu również istotnie różnią się od zera. Zbudowany model pozwala wyjaśnić około 63% zmienności oryginalnej zmiennej zależnej. Przeciętna różnica między zaobserwowanymi wartościami zmiennej objaśnianej i wartościami teoretycznymi wynosi 10,99 mm Hg (co stanowi około 6,3 % średniej dla zmiennej zależnej). Wartość statystyki F i odpowiadający jej poziom prawdopodobieństwa testowego p potwierdzają istotny statystycznie związek liniowy. Ponadto wartość statystyki t i odpowiadające jej poziomy prawdopodobieństwa testowego p wskazują, że wszystkie współczynniki regresji również istotnie różnią się od zera. Ocena istotności wyrazu wolnego pokazuje, że model przechodzi daleko od środka układu współrzędnych. 68 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl
Otrzymany model można zapisać w postaci: CSK 146,917 0,507 Wiek 30,596 Palenie 0, 762 Palenie Wiek gdzie CSK oznacza ciśnienie skurczowe krwi, a zmienna Palenie przyjmuje dwie wartości: 0 dla kategorii: Nie pali i 1 dla kategorii: Pali. Na podstawie modelu można zatem stwierdzić, że podwyższenie wieku pacjenta o 1 rok powoduje przyrost skurczowego ciśnienia krwi o około 0,507 mm Hg w grupie osób niepalących oraz przyrost skurczowego ciśnienia krwi o około 1,269 mm Hg w grupie osób palących. Podobnie jak poprzednio równoważnym rozwiązaniem byłoby zapisanie modelu w postaci dwóch równań: 146,917 0,507 Wiek CSK 116,321 1,269 Wiek dla dla kategorii : 0 kategorii :1 Modelowanie zależności nieliniowych W zaprezentowanych w poprzedniej części opracowania przykładach zakładaliśmy, że związek pomiędzy badanymi zmiennymi daje się opisać za pomocą modelu liniowego. O częstym wykorzystywaniu modeli liniowych przesądza stosunkowo łatwy sposób szacowania parametrów modeli i prosta merytoryczna interpretacja ich wartości. Jednak w odniesieniu do wielu zagadnień praktycznych przyjęcie założenia o liniowości funkcji regresji badanych zmiennych może nie być słuszne. W przypadku wielu zjawisk istnieją odpowiednie teorie, które wyjaśniają występujące relacje, odwołując się do związków nieliniowych. Czasami empiryczne dane mogą sugerować odpowiednią, nieliniową postać modelu. Na przykład zgodnie z odpowiednimi teoriami ekonomicznymi zależność popytu względem dochodu oraz zależność poziomu kosztu jednostkowego względem wielkości produkcji są nieliniowe. W takich sytuacjach konieczne jest rozważanie nieliniowych modeli regresji. Oznacza to, że badacz musi sam zdecydować o określeniu natury tego związku; na przykład może przyjąć, że zmienna objaśniana ma być funkcją logarytmiczną zmiennej objaśniającej (zmiennych objaśniających), funkcją potęgową, wykładniczą, czy też jakąś inną. Jeśli dopuszczamy dowolny typ zależności między zmiennymi objaśniającymi a zmienną objaśnianą, pojawiają się dwa pytania. Po pierwsze, jakie rodzaje zależności mają sens, to znaczy, jak można je w znaczący sposób zinterpretować? Zauważmy, że prosta zależność liniowa jest bardzo wygodna w tym sensie, że pozwala nam na takie bezpośrednie interpretacje jak: im większe x (np. im wyższa cena domu), tym większe y (dłuższy czas sprzedaży). Zależności nieliniowe nie dają się zwykle tak łatwo zinterpretować i zwerbalizować. Ma to znaczenie szczególnie w przypadku, gdy badacz chce wykorzystać zbudowany model do przewidywania przebiegu interesującego go zjawiska w przyszłych okresach czasu lub przy założeniu wartości zmiennych objaśniających, które wychodzą poza zakres, który był w rzeczywistości obserwowany. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 69
W kolejnym przykładzie wykorzystamy dane o liczbie abonentów telefonii komórkowej w Polsce w latach 1992-2005 [5]. Dla ułatwienia doboru postaci modelu opisującego charakter zmian utworzono zwykły wykres rozrzutu. Rys. 9. Zmiany liczby abonentów telefonii komórkowej w Polsce w latach 1992-2005. Zbudujemy dwa modele trendu: wykładniczy i potęgowy. Do skonstruowania modeli niezbędny jest jeden szereg czasowy z wartościami zmiennej objaśnianej. Jedyną zmienną objaśniającą jest czas. W pierwszej kolejności do danych dopasowano model wykładniczy: x y 0 1 gdzie y oznacza liczbę abonentów telefonii komórkowej, a x oznacza czas. Po zastosowaniu odpowiedniej procedury estymacji parametrów modelu otrzymano następującą tabelę z wynikami (ze względu na trudności numeryczne wartości zmiennej objaśniającej były opóźniane o 1992): Rys. 10. Wyniki estymacji parametrów modelu wykładniczego. Otrzymane wyniki pozwalają na stwierdzenie, że wszystkie parametry strukturalne modelu istotnie różnią się od zera. Dopasowany do danych model pozwala wyjaśnić około 98,4 % wariancji modelowanej zmiennej objaśnianej. Poniższy wykres pokazuje dopasowany model. 70 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl
Rys. 11. Wykres przedstawiający dane i dopasowany model wykładniczy. Dopasowany model wydaje się dość dobrze odzwierciedlać zmiany liczby abonentów w badanym okresie czasu, jednak po dokładniejszej analizie okazuje się nieodpowiedni, gdyż zakłada stałe względne zmiany wartości modelowanej zmiennej [5]. W rzeczywistości zmiany te różnią się w czasie. W związku z tym odpowiedniejszym modelem może być funkcja potęgowa o postaci: y x gdzie y oznacza liczbę abonentów telefonii komórkowej, a x oznacza czas. 0 W przypadku takiej funkcji względne zmiany wartości zmiennej objaśnianej zmieniają się w czasie. Po estymacji parametrów modelu otrzymano następującą tabelę z wynikami (podobnie jak poprzednio ze względu na trudności numeryczne wartości zmiennej objaśniającej były opóźniane o 1992): 1 Rys. 12. Wyniki estymacji parametrów modelu potęgowego. Otrzymane wyniki pozwalają na stwierdzenie, że wszystkie parametry strukturalne modelu istotnie różnią się od zera. Model dopasowany do danych pozwala wyjaśnić około 99,8 % wariancji modelowanej zmiennej objaśnianej. Poniższy wykres pokazuje dopasowany model. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 71
Rys. 13. Wykres przedstawiający dane i dopasowany model potęgowy. Dla ułatwienia porównania zbudowanych modeli umieszczono je na jednym wykresie. Rys. 14. Wykres przedstawiający obydwa dopasowane modele. Przy merytorycznej ocenie dopasowania modeli trzeba pamiętać o tym, że ich parametry zostały oszacowane na podstawie danych, które dotyczą zakresu wartości, jakie przyjmowała modelowana zmienna objaśniana. Dlatego też w przypadku próby zastosowania modeli do prognozowania dla przyszłych okresów należy przede wszystkim ocenić, czy ogólny kierunek i intensywność zmian zostaną utrzymane. Nieuwzględnienie tego faktu może prowadzić do dużych błędów. Dla ilustracji tego zagadnienia do danych dotyczących 72 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl
kształtowania się liczby abonentów telefonicznych w Polsce dodano obserwacje zarejestrowane w kolejnych 3 latach (2006-2008). Po uwzględnieniu tych danych sytuacja uległa zasadniczej zmianie. Rys. 15. Zmiany liczby abonentów telefonii komórkowej w Polsce w latach 1992-2008. Zamieszczony powyżej wykres pokazuje, że charakter zmian opisywanego zjawiska uległ zmianie. Tempo wzrostu liczby abonentów od pewnego momentu zaczyna spadać w bardziej zdecydowany sposób. Można zatem przypuszczać, że bardziej adekwatnym modelem powinien być model, który zakłada spadek tempa zmian oraz asymptotyczne zbliżanie się do określonego poziomu nasycenia. W takiej sytuacji do opisu rozważanych zmian zastosowano model regresji logistycznej o postaci: y 1 e x gdzie y oznacza liczbę abonentów telefonii komórkowej, a x oznacza czas. Po estymacji parametrów modelu otrzymano następującą tabelę z wynikami (podobnie jak poprzednio ze względu na trudności numeryczne wartości zmiennej objaśniającej były opóźniane o 1992, a ponadto dla ułatwienia estymacji wprowadzono przybliżone wartości początkowe ocen parametrów): Rys. 16. Wyniki estymacji parametrów modelu logistycznego. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 73
Otrzymane wyniki pozwalają na stwierdzenie, że wszystkie parametry strukturalne modelu istotnie różnią się od zera. Model dopasowany do danych pozwala wyjaśnić około 99,8 % wariancji modelowanej zmiennej objaśnianej. Poniższy wykres przedstawia dopasowany model. Rys. 17. Wykres przedstawiający dane i dopasowany model logistyczny. Wykorzystując znajomość własności funkcji logistycznej oraz oszacowane wartości ocen parametrów modelu, można sugerować, że liczba abonentów telefonii komórkowej w Polsce zbliża się do poziomu nasycenia, który wynosi około 53,3 mln. Poziom ten zostanie osiągnięty około 2013-2015 roku. Przedstawiona prognoza może się zrealizować pod warunkiem, że nie zajdą jakieś nowe, nieznane w momencie tworzenia prognozy okoliczności. Modele dla zmiennych jakościowych W prezentowanych do tej pory przykładach zmienna zależna (objaśniana) była zmienną typu ilościowego. Tymczasem bardzo często w rzeczywistych badaniach można spotkać się z potrzebą budowania modeli w przypadku, gdy wartości zmiennej zależnej oznaczają niemierzalne kategorie, np.: spłacił kredyt i nie spłacił kredytu przy modelowaniu ryzyka kredytowego, zawał i brak zawału przy modelowaniu ryzyka zawału serca, czy też szkoda i brak szkody przy modelowaniu ryzyka ubezpieczeniowego. W takich sytuacjach klasyczny model regresji nie jest użyteczny. Przy budowie modeli dla zmiennych zależnych jakościowych mogą być stosowane metody, które można zaliczyć do klasycznych (np. analiza dyskryminacyjna lub model logitowy), jak i metody eksploracji danych [6], określane też terminem data mining. 74 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl
W prezentowanym dalej przykładzie w pierwszej kolejności użyjemy modelu logitowego. Następnie zostaną wykorzystane drzewa klasyfikacyjne. Użyte w przykładzie dane pochodzą z badań przeprowadzonych na terenie trzech przemysłowych rejonów RPA, w których obserwowano wysokie natężenie występowania choroby wieńcowej [3]. Jednym z celów badań było określenie wpływu czynników ryzyka wystąpienia choroby niedokrwiennej serca. Badaniami objęto 462 białych mężczyzn w wieku od 15 do 64 lat. Zmienną zależną było wystąpienie lub niewystąpienie zawału serca. U 163 badanych stwierdzono wystąpienie zawału serca, natomiast pozostałych 299 mężczyzn stanowiło grupę porównawczą. Dla każdego z badanych zebrano ponadto informacje o czynnikach, które mogą mieć wpływ na wystąpienie zawału serca: występowanie chorób serca w rodzinie badanego, wiek, poziom skurczowego ciśnienia krwi, poziom cholesterolu (LDL), stopień otyłości, zachowanie typu A oraz palenie papierosów. Do budowy modelu opisującego wpływ branych pod uwagę czynników ryzyka na wystąpienie zawału serca wykorzystano technikę regresji logistycznej. Zdefiniowanie tej analizy w programie STATISTICA wymaga od użytkownika określenia typu rozkładu dla modelowanej zmiennej zależnej (w prezentowanym przykładzie należy wskazać rozkład dwumianowy) oraz rodzaj nieliniowego przekształcenia dla wartości przez nią przyjmowanych (tzw. funkcja wiążąca). Wybrane przekształcenie powoduje, że wartości przewidywane zmiennej zależnej będą podlegać wybranemu wcześniej typowi rozkładu. W przypadku modelu logitowego najczęściej stosowanym przekształceniem jest tzw. przekształcenie logitowe o postaci: pi ln 1 pi, gdzie p i to prawdopodobieństwo tego, że Y i przyjmie wartość 1. Po zdefiniowaniu zmiennych do budowy modelu przeprowadzana jest estymacja parametrów modelu. Do tego celu wykorzystywana jest metoda największej wiarygodności. Rys. 18. Wyniki estymacji parametrów modelu logitowego oraz ilorazy szans. Powyżej przedstawiono tabelę zawierającą oceny parametrów modelu oraz ocenę ich istotności. Po usunięciu zmiennej Otyłość oraz Skurczowe ciśnienie krwi wpływ pozostałych zmiennych okazał się istotny. Dla łatwiejszej interpretacji wpływu uwzględnionych w modelu zmiennych objaśniających na ryzyko wystąpienia zawału serca dokonano Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 75
odwrotnego przekształcenia oszacowanych ocen parametrów, które pozwala na otrzymanie wielkości określanych terminem ilorazów szans. Dzięki temu można ocenić stopień, w jakim dany czynnik wpływa na szacowane ryzyko. Przy interpretacji wartością odniesienia jest 1. Interpretacja dla zmiennej jakościowej: w przypadku niewystępowania chorób serca w rodzinie ryzyko zawału maleje o około 38,5 % (tyle, ile brakuje do 1). Interpretacja dla zmiennych ilościowych: wzrost poziomu cholesterolu (frakcja HDL) o jedną jednostkę powoduje wzrost ryzyka wystąpienia zawału o około 18 %, wzrost intensywności palenia o jedną jednostkę powoduje wzrost ryzyka wystąpienia zawału o blisko 8 %, podniesienie wieku o jedną jednostkę powoduje wzrost ryzyka wystąpienia zawału o około 5,5 % i wreszcie wzrost wskaźnika zachowania typu A o jedną jednostkę powoduje wzrost ryzyka wystąpienia zawału o około 4 %. Do oceny jakości zbudowanego modelu oceniono odsetek przypadków poprawnie sklasyfikowanych. Rys. 19. Klasyfikacja przypadków. Na podstawie wyników podanych w tabeli można stwierdzić, że model poprawnie klasyfikuje ponad 84 % badanych, u których nie wystąpił zawał, oraz nieco ponad 57 % tych, u których zawał wystąpił. Tak jak to zostało już wcześniej wspomniane, do rozwiązania problemów klasyfikacyjnych można wykorzystywać wiele różnych metod analizy. Jedną z najbardziej popularnych jest metoda drzew klasyfikacyjnych [2, 3]. Z drzewami klasyfikacyjnymi mamy do czynienia wtedy, gdy zmienna zależna jest zmienną wyrażoną na skali nominalnej lub porządkowej. Drzewo jest graficznym modelem powstałym w wyniku rekurencyjnego podziału zbioru obserwacji A na n rozłącznych podzbiorów A 1, A 2, A 3, A n. Celem budowy modelu jest uzyskanie podzbiorów maksymalnie jednorodnych z punktu widzenia wartości zmiennej zależnej. Jest to proces wieloetapowy, który w każdym kolejnym kroku może wykorzystywać inną zmienną niezależną. Na każdym etapie analizuje się bowiem wszystkie predyktory (zmienne objaśniające) i wybiera ten, który zapewnia najlepszy podział węzła, czyli wydziela najbardziej jednorodne podzbiory. Dla zbioru danych zawierającego informacje o czynnikach ryzyka zawału serca przeprowadzono analizę przy użyciu drzew klasyfikacyjnych. Poniżej zamieszczono fragment otrzymanego drzewa. 76 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl
Rys. 20. Fragment zbudowanego drzewa klasyfikacyjnego. Z punktu widzenia badacza ważną zaletą metody drzew klasyfikacyjnych jest możliwość podania czytelnych reguł klasyfikacyjnych. Przykładowa reguła mogłaby wyglądać następująco: zawał serca wystąpił u 92 % mężczyzn w wieku powyżej 50,5 lat, u których obserwowano wcześniej choroby serca w rodzinie, poziom cholesterolu przekraczał 5 mmol/l, a ciśnienie skurczowe krwi przekraczało 121,5 mm Hg. Przy ocenie zbudowanego modelu możemy posłużyć się odsetkami poprawnych klasyfikacji. Przedstawia je poniższa tabela. Rys. 21. Macierz klasyfikacji przypadków. Wyniki sugerują, że model pozwala poprawnie sklasyfikować ponad 83 % przypadków, u których zawał nie wystąpił, oraz ponad 72 %, u których zawał wystąpił. Zbudowany model może być wykorzystany w praktyce przy ustalaniu profilaktyki chorób serca oraz przy kwalifikacji osób do szczegółowych badań w badaniach przesiewowych. Jak to zostało już wcześniej wspomniane, do rozwiązywania zagadnień klasyfikacyjnych można stosować różne techniki analizy danych zaliczane do metod data mining. Budowa takich modeli jest szczególnie wygodna w środowisku programu STATISTICA Data Miner, który stanowi niezwykle bogaty zestaw metod i narzędzi do analiz typu data mining. Jest Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 77
jedyną w swoim rodzaju aplikacją pod względem zakresu dostępnych metod i procedur, wydajności, zaawansowania technologicznego oraz elastyczności środowiska użytkownika, które pozwala w łatwy sposób definiować i realizować nawet bardzo złożone projekty analiz. Korzystając z danych dotyczących czynników ryzyka zawału serca, zbudowano kilka modeli klasyfikacyjnych przy użyciu: uogólnionej analizy dyskryminacyjnej, standardowych drzew klasyfikacyjnych typu CART oraz techniki wzmacnianych drzew klasyfikacyjnych (boosted trees). Poniżej przedstawiono wygląd projektu w środowisku programu STATISTICA Data Miner. Rys. 22. Projekt do budowy modeli klasyfikacyjnych. Po wykonaniu analizy otrzymujemy obszerny zestaw wyników, który pozwala przyjrzeć się bardziej szczegółowo zbudowanym modelom. W przypadku opisywanego problemu klasyfikacyjnego warto przyjrzeć się zestawieniu, które pokazuje jakość prognozowania uzyskaną dla poszczególnych modeli oraz wyniki zastosowania techniki głosowania modeli (voting). Rys. 23. Tabela wyników jakości prognozowania. W przypadku, gdy badacz uzna, że modele są odpowiednie dla rozwiązywanego problemu, wówczas zbudowany projekt może być w łatwy sposób wykorzystywany do nowych danych. 78 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl
Podsumowanie i wnioski W opracowaniu przedstawiono wybrane zagadnienia statystycznego modelowania współzależności zjawisk. W pierwszej części omówiono możliwość wprowadzenia do modelu regresji liniowej zmiennych objaśniających o charakterze jakościowym. Zwrócono uwagę na konieczność uwzględnienia w modelu ewentualnych interakcji pomiędzy poziomami takiej zmiennej. W drugim fragmencie opracowania przedstawiono zagadnienie modelowania w przypadku występowania związków nieliniowych. W końcowej części przedstawiono wybrane modele dla jakościowej zmiennej zależnej (modele klasyfikacyjne). Dla praktycznej ilustracji omawianej tematyki w programie STATISTICA i STATISTICA Data Miner wykorzystano przykładowe dane z zakresu medycyny i ekonomii. Poniżej podsumowano przedstawione kwestie w postaci kilku wniosków: Wprowadzenie do modelu regresji liniowej objaśniającej zmiennej jakościowej pozwala na ujęcie różnic pomiędzy wartościami wyrazów wolnych i/lub różnic między wartościami współczynników kierunkowych. Przy modelowaniu nieliniowych związków pomiędzy zmiennymi potrzebna jest dobra znajomość własności branych pod uwagę funkcji (i to zarówno na etapie estymacji parametrów modelu, jak i przy interpretacji wyników modelowania). W przypadku wykorzystywania zbudowanego modelu do prognozowania zjawisk w przyszłości należy sprawdzić, czy charakter modelowanego zjawiska nie może ulec nieoczekiwanej zmianie. Przy rozwiązywaniu problemu klasyfikacyjnego warto stosować zarówno klasyczne, jak i eksploracyjne (z zastosowaniem metod data mining) techniki modelowania zmiennych jakościowych. Literatura 1. Aczel A.D. (2000). Statystyka w zarządzaniu. Pełny wykład, PWN. 2. Gatnar E. (2001). Nieparametryczna metoda dyskryminacji i regresji. PWN. 3. Hastie T., Tibshirani R., Friedman J. (2001). The Elements of Statistical Learning: Data Mining, Inference and Prediction, Springer-Verlag, New York. 4. Maddala G.S. (2006). Ekonometria, PWN. 5. Ekonometria i badania operacyjne. Podręcznik dla studiów licencjackich, pod red. naukową M. Gruszczyńskiego, T. Kuszewskiego i M. Podgórskiej. (2009). PWN. 6. Koronacki J., Ćwik J. (2005). Statystyczne systemy uczące się, Wydawnictwo Naukowo-Techniczne. 7. Krzanowski W.J. (1998). An Introduction to Statistical Modelling, Arnold. 8. StatSoft, Inc. (2009). STATISTICA (data analysis software system), version 9. www.statsoft.com. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 79