EKONOMETRIA ECONOMETRICS 2(48) 2015

Podobne dokumenty
Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Natalia Nehrebecka. Wykład 2

Natalia Nehrebecka. Zajęcia 4

Natalia Nehrebecka. Zajęcia 3

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Dobór zmiennych objaśniających

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Procedura normalizacji

MODELOWANIE LICZBY SZKÓD W UBEZPIECZENIACH KOMUNIKACYJNYCH W PRZYPADKU WYSTĘPOWANIA DUŻEJ LICZBY ZER, Z WYKORZYSTANIEM PROCEDURY KROSWALIDACJI

Evaluation of estimation accuracy of correlation functions with use of virtual correlator model

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 2(88)/2012

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Weryfikacja hipotez dla wielu populacji

Pattern Classification

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

Natalia Nehrebecka. Dariusz Szymański

EKONOMETRIA Wykład 4: Model ekonometryczny - dodatkowe zagadnienia

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY

A C T A U N I V E R S I T A T I S N I C O L A I C O P E R N I C I EKONOMIA XXXIX NAUKI HUMANISTYCZNO-SPOŁECZNE ZESZTYT 389 TORUŃ 2009.

Analiza i diagnoza sytuacji finansowej wybranych branż notowanych na Warszawskiej Giełdzie Papierów Wartościowych w latach

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Badanie optymalnego poziomu kapitału i zatrudnienia w polskich przedsiębiorstwach - ocena i klasyfikacja

WPROWADZENIE DO ANALIZY KORELACJI I REGRESJI

PROGNOZOWANIE SPRZEDAŻY Z ZASTOSOWANIEM ROZKŁADU GAMMA Z KOREKCJĄ ZE WZGLĘDU NA WAHANIA SEZONOWE

Zaawansowane metody numeryczne

Statystyka. Zmienne losowe

FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS Folia Pomer. Univ. Technol. Stetin. 2010, Oeconomica 280 (59), 13 20

Regresja liniowa i nieliniowa

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Metody predykcji analiza regresji

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

STATYSTYKA MATEMATYCZNA

Badanie współzaleŝności dwóch cech ilościowych X i Y. Analiza korelacji prostej. Badanie zaleŝności dwóch cech ilościowych. Analiza regresji prostej

Zastosowanie wielowymiarowej analizy porównawczej w doborze spó³ek do portfela inwestycyjnego Zastosowanie wielowymiarowej analizy porównawczej...

MIARY ZALEŻNOŚCI ANALIZA STATYSTYCZNA NA PRZYKŁADZIE WYBRANYCH WALORÓW RYNKU METALI NIEŻELAZNYCH

MATERIAŁY I STUDIA. Zeszyt nr 286. Analiza dyskryminacyjna i regresja logistyczna w procesie oceny zdolności kredytowej przedsiębiorstw

SZTUCZNA INTELIGENCJA


KONSTRUKCJA OPTYMALNYCH PORTFELI Z ZASTOSOWANIEM METOD ANALIZY FUNDAMENTALNEJ UJĘCIE DYNAMICZNE

ANALIZA PREFERENCJI SŁUCHACZY UNIWERSYTETU TRZECIEGO WIEKU Z WYKORZYSTANIEM WYBRANYCH METOD NIESYMETRYCZNEGO SKALOWANIA WIELOWYMIAROWEGO

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

SZTUCZNA INTELIGENCJA

Finanse, Rynki Finansowe, Ubezpieczenia nr 5/2016 (83), cz. 2. DOI: /frfu /2-11 s

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

OPTYMALNE STRATEGIE INWESTYCYJNE PODEJŚCIE FUNDAMENTALNE OPTIMAL INVESTMENT STRATEGY FUNDAMENTAL ANALYSIS

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

O PEWNYM MODELU POZWALAJĄCYM IDENTYFIKOWAĆ K NAJBARDZIEJ PODEJRZANYCH REKORDÓW W ZBIORZE DANYCH KSIĘGOWYCH W PROCESIE WYKRYWANIA OSZUSTW FINANSOWYCH

WERYFIKACJA EKONOMETRYCZNA MODELU CAPM II RODZAJU DLA RÓŻNYCH HORYZONTÓW STÓP ZWROTU I PORTFELI RYNKOWYCH

ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ

EKONOMETRIA I Spotkanie 1, dn

PORÓWNANIE METOD OKREŚLANIA FUNKCJI CELU PRZY DOBORZE ROZSIEWACZY NAWOZÓW MINERALNYCH

Rachunek prawdopodobieństwa i statystyka W 11: Analizy zależnościpomiędzy zmiennymi losowymi Model regresji wielokrotnej

Prognozowanie w zarządzaniu firmą

WPŁYW PARAMETRÓW DYSKRETYZACJI NA NIEPEWNOŚĆ WYNIKÓW POMIARU OBIEKTÓW OBRAZU CYFROWEGO

Mikroekonometria 10. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Propozycja modyfikacji klasycznego podejścia do analizy gospodarności

65120/ / / /200

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

KRZYWA BÉZIERA TWORZENIE I WIZUALIZACJA KRZYWYCH PARAMETRYCZNYCH NA PRZYKŁADZIE KRZYWEJ BÉZIERA

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

O Odporności Estymatorów Parametrów. Modelu Logistycznego. i Koncepcji Głębi Regresyjnej

ZASTOSOWANIE WYBRANYCH ELEMENTÓW ANALIZY FUNDAMENTALNEJ DO WYZNACZANIA PORTFELI OPTYMALNYCH

Analiza porównawcza rozwoju wybranych banków komercyjnych w latach

DZIAŁALNOŚĆ INWESTYCYJNA GOSPODARSTW ROLNYCH

Modelowanie procesów i wspomaganie decyzji finansowych

Identyfikacja determinant bogactwa dochodowego z zastosowaniem modelu logitowego

Regulacje i sądownictwo przeszkody w konkurencji między firmami w Europie Środkowej i Wschodniej

Proste modele ze złożonym zachowaniem czyli o chaosie

Rozkład dwupunktowy. Rozkład dwupunktowy. Rozkład dwupunktowy x i p i 0 1-p 1 p suma 1

ZASTOSOWANIE ANALIZY HARMONICZNEJ DO OKREŚLENIA SIŁY I DŁUGOŚCI CYKLI GIEŁDOWYCH

KRÓTKIE WPROWADZENIE DO WIZUALIZACJI I ANALIZY FUNKCJONALNEJ DANYCH EKONOMICZNYCH

Analiza regresji modele ekonometryczne

Statystyka Inżynierska

Zmodyfikowana technika programowania dynamicznego

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Proces narodzin i śmierci

ANALIZA PRZESTRZENNA PROCESU STARZENIA SIĘ POLSKIEGO SPOŁECZEŃSTWA

PROBLEMATYKA DOBORU MIARY ODLEGŁOŚCI W KLASYFIKACJI SPEKTRALNEJ DANYCH SYMBOLICZNYCH

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

Analiza zależności zmiennych ilościowych korelacja i regresja

OeconomiA copernicana 2013 Nr 3. Modele ekonometryczne w opisie wartości rezydualnej inwestycji

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Praca podkładu kolejowego jako konstrukcji o zmiennym przekroju poprzecznym zagadnienie ekwiwalentnego przekroju

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru

Mikroekonometria 10. Mikołaj Czajkowski Wiktor Budziński

Transkrypt:

EKONOMETRIA ECONOMETRICS 2(48) 2015 Wydawnctwo Unwersytetu Ekonomcznego we Wrocławu Wrocław 2015

Redakcja wydawncza: Anna Grzybowska Redakcja technczna: Barbara Łopusewcz Korekta: Barbara Cbs Łamane: Małgorzata Czupryńska Projekt okładk: Beata Dębska Informacje o naborze artykułów zasadach recenzowana znajdują sę na strone nternetowej Wydawnctwa www.econometrcs.ue.wroc.pl www.wydawnctwo.ue.wroc.pl Publkacja udostępnona na lcencj Creatve Commons Uznane autorstwa-użyce nekomercyjne-bez utworów zależnych 3.0 Polska (CC BY-NC-ND 3.0 PL) Copyrght by Unwersytet Ekonomczny we Wrocławu Wrocław 2015 ISSN 1507-3866 e-issn 2449-9994 Wersja perwotna: publkacja drukowana Zamówena na opublkowane prace należy składać na adres: Wydawnctwo Unwersytetu Ekonomcznego we Wrocławu ul. Komandorska 118/120 53-345 Wrocław tel./fax 71 36 80 602; e-mal:econbook@ue.wroc.pl www.ksegarna.ue.wroc.pl Druk oprawa: TOTEM

Sps treśc Wstęp... 7 Macej Beręsewcz, Marcn Szymkowak: Bg data w statystyce publcznej nadzeje, osągnęca, wyzwana zagrożena... 9 Łukasz Skowron: Wpływ szerokośc skal na mary dopasowana modelu śceżkowego... 23 Tomasz Bartłomowcz: Wpływ układu czynnkowego na pomar preferencj konsumentów metodą Maxmum Dfference Scalng... 33 Marcn Pełka: Regresja logstyczna dla danych symbolcznych nterwałowych... 44 Alcja Grześkowak: Badane opn polskch pracodawców o umejętnoścach absolwentów szkół wyższych z wykorzystanem technk wzualzacyjnych... 53 Artur Wołkowcz: Modele ekonometryczne jako narzędze sterowana procesam technologcznym... 67 Macej Oesterrech: Symulacyjna analza wpływu lczby rozmeszczena luk nesystematycznych na dokładność prognoz... 78 Marusz Kubus: Identyfkacja potencjalnych nabywców pols ubezpeczenowych w warunkach mocno nezblansowanej próby uczącej... 89 Anna Czapkewcz, Paweł Jamer: Dynamka współzależnośc warszawskej Gełdy Paperów Wartoścowych z nnym rynkam fnansowym... 100 Paweł Kowalk: Ocena pozomu rozwoju gospodarczego powązań z zagrancą krajów na przykładze członków NAFTA... 114 Józef Dzechcarz: Recenzja ksążek Statystyka opsowa. Przykłady zadana oraz Wzory tablce. Metody statystyczne ekonometryczne... 126 Agneszka Stanmr: XIX Warsztaty Metodologczne m. Profesora Stefana Mynarskego pt. Welowymarowość złożoność danych marketngowych. Wyzwana analtyczne, 11 maja 2015, Wrocław... 131 Summares Macej Beręsewcz, Marcn Szymkowak: Bg data n offcal statstcs hopes, achevements, challenges and rsks... 9 Łukasz Skowron: Impact of the choce of scale on the goodness of ft of the Structural Equaton Model... 23

6 Sps treśc Tomasz Bartłomowcz: Impact of factoral desgn on the measurement of consumers preferences usng Maxmum Dfference Scalng... 33 Marcn Pełka: Logstc regresson for nterval-valued symbolc data... 44 Alcja Grześkowak: Evaluaton of Polsh employers opnons about the competences of hgher educaton graduates wth the use of vsualzaton technques... 53 Artur Wołkowcz: Econometrc models as a tool for technologcal process control... 67 Macej Oesterrech: Smulaton analyss of nfluence of number and dstrbuton of unsystematc gaps on the accuracy of forecasts... 78 Marusz Kubus: Identfcaton of potental purchasers of the nsurance polces under hard unbalanced tranng set... 89 Anna Czapkewcz, Paweł Jamer: Dynamcs of nterdependence between Warsaw Stock Exchange and other fnancal markets... 100 Paweł Kowalk: Assessment of economc development and foregn relatons as llustrated by the case of NAFTA member states... 114

EKONOMETRIA ECONOMETRICS 2(48) 2015 ISSN 1507-3866 e-issn 2449-9994 Marcn Pełka Unwersytet Ekonomczny we Wrocławu e-mal: marcn.pelka@ue.wroc.pl REGRESJA LOGISTYCZNA DLA DANYCH SYMBOLICZNYCH INTERWAŁOWYCH LOGISTIC REGRESSION FOR INTERVAL-VALUED SYMBOLIC DATA DOI: 10.15611/ekt.2015.2.04 Streszczene: W praktyce badawczej często mamy do czynena z sytuacją, gdy zmenna zależna ma postać zmennej dwumanowej (bnarnej, dychotomcznej). Poneważ model regresj lnowej ne znajduje tutaj zastosowana, koneczne jest zastosowane model nelnowych. Modelem regresj stosowanym dla zmennych dwumanowych jest model regresj logstycznej. Artykuł prezentuje adaptację modelu regresj logstycznej dla zmennych symbolcznych nterwałowych. W tym celu wskazano cztery różne rozwązana, które zaproponowano w lteraturze przedmotu. W częśc emprycznej zaprezentowano wynk badań z zastosowanem sztucznych rzeczywstych zborów danych. Otrzymane wynk wskazują, że model regresj logstycznej, po odpowednej modyfkacj, może znaleźć zastosowane dla zmennych symbolcznych nterwałowych. Najlepsze dopasowane uzyskują modele budowane na podstawe środków bądź metody krańców o estymacj łącznej. Słowa kluczowe: regresja logstyczna, zmenne symbolczne nterwałowe, analza danych symbolcznych. Summary: When dealng wth real data stuaton we often have a bnary (bomal, dchotomous) dependent varable. As the lnear probablty model s not such a good soluton n such a stuaton there s a need to use nonlnear models. A qute good soluton for such a stuaton s the logstc regresson model. The paper presents an adaptaton of lnear regresson model when dealng wth symbolc nterval-valued varables. Four approaches poposed by de Souza et. al [2011] how to apply such varables are presented. In the emprcal part results obtaned wth the applcaton of artfcal and real data sets are shown. The best results are obtaned for mdpont and bounds (jont estmaton) methods. Keywords: logstc regresson, nterval-valued symbolc varables, symbolc data analyss. 1. Wstęp W regresj logstycznej przedmotem modelowana jest zmenna dwumanowa (bnarna, dychotomczna). Przykładam takch zmennych mogą być na przykład (por. [Gruszczyńsk 2010, s. 17, 53-55; Gatnar, Walesak 2011, s. 99]):

Regresja logstyczna dla danych symbolcznych nterwałowych 45 y stan aktywnośc zawodowej: 1 pracuje, 0 w pozostałych przypadkach, y zmana dotychczasowego operatora sec komórkowej: 1 zmana nastąpła, 0 zmana ne nastąpła, y polecene produktu lub usług nnej osobe: 1 produkt (usługa) został polecony, 0 w pozostałych przypadkach. Do typowych celów modelowana zmennej dwumanowej zalcza sę przede wszystkm prognozowane wartośc zmennej y (w tym prognoza tego, że zmenna y = 1), czyl prognoza zmany prawdopodobeństwa wywołanej zmaną wartośc jednej ze zmennych. Drugm celem jest ustalane zmennych, które są stotne dla określena prawdopodobeństwa dla zmennej y. Innym celam są także weryfkacja hpotezy na temat mechanzmu generującego wartośc y oraz konstrukcja funkcj zmennych objaśnających, która pozwol rozróżnć dwe grupy zborowośc jednej odpowadającej y = 1 oraz drugej, która odpowada y 0 (zob. [Gruszczyńsk 2010, s. 54]). Celem artykułu jest prezentacja adaptacj klasycznego modelu regresj logstycznej dla zmennych symbolcznych nterwałowych. Dodatkowo w artykule porównano dokładność oszacowań otrzymanych z zastosowanem każdej z metod na przykładze sztucznych rzeczywstych zborów danych. W artykule przedstawono zagadnene danych symbolcznych oraz cztery różne rozwązana, które zaproponowano w lteraturze przedmotu dla regresj logstycznej danych nterwałowych (zob. [de Souza, Queroz, Cysneros 2011]): metodę środków, metodę krańców w dwóch różnych warantach tej metody. W częśc emprycznej zaprezentowano wynk badań z zastosowanem sztucznych rzeczywstych zborów danych. Artykuł stanow perwsze polske opracowane opsujące regresję logstyczną danych symbolcznych nterwałowych, a dodatkowo porównuje różne podejśca estymacyjne dokonuje ch ewaluacj. 2. Regresja logstyczna danych nterwałowych Obekty symbolczne, w przecweństwe do obektów w ujęcu klasycznym, mogą być opsywane przez następujące rodzaje zmennych ([Bock, Dday (red.) 2000, s. 2-3; Bllard, Dday 2006, s. 7-30; Dudek 2013, s. 35-36]): zmenne nomnalne, porządkowe, przedzałowe, lorazowe, zmenne nterwałowe czyl przedzały lczbowe, zmenne welowarantowe czyl lsty kategor lub wartośc, zmenne welowarantowe z wagam czyl lsty kategor z wagam, zmenne hstogramowe czyl lsty wartośc z wagam. Szerzej o obektach zmennych symbolcznych, sposobach otrzymywana zmennych symbolcznych z baz danych, różncach podobeństwach mędzy obektam symbolcznym a klasycznym znaleźć można m.n. w pracach: [Bock, Dday

46 Marcn Pełka (red.) (2000), s. 2-8; Dudek 2013, s. 42-43; 2004; Bllard, Dday 2006, s. 7-66; Norhomme-Frature, Brto 2011; Dday, Norhomme-Frature 2008, s. 3-30]. W ogólnej postac lnowy model regresj welu zmennych przedstawa sę za pomocą następującego równana: m 0 0t 1 1t m mt t j= 0 Y = b X + b X + + b X + e = b X + e, (1) t gdze: Y zmenna objaśnana (regresant), X, X, 0 1, X m zmenne objaśnające (regresyjne), b 0, b1,, bm parametry strukturalne modelu, e składnk losowy, t = 1, T numer obserwacj, j = 0, 1,, m numer zmennej objaśnającej. W przypadku, gdy model przedstawony równanem 1 stosowany jest dla zmennych dwumanowych, przedmotem modelowana jest prawdopodobeństwo P, że zmenna objaśnana przyjme wartość zero lub 1. Nemnej jednak zastosowane lnowego modelu regresj nese za sobą ryzyko, że oblczone na jego podstawe prawdopodobeństwa będą wększe od 1 lub mnejsze od zera (prezentuje to np. [Gatnar, Walesak 2011, s. 100]). W zwązku z tym znaczne lepszym rozwązanem jest zastosowane modelu logtowego. * W modelu logtowym zakłada sę, że mamy do czynena ze zmenną ukrytą y, która ne jest obserwowana bezpośredno. Obserwujemy natomast: j jt t > y = 0, dla y 0 1, dla * y 0. * (2) * Zmenna ukryta y reprezentuje skłonność -tego obektu do przyjmowana wartośc y = 1. Model logtowy ma zatem postać: m * t = 0 0t + 1 1t + + m mt + t = j jt + t j= 0 Y bx bx b X e bx e. (3) Prawdopodobeństwo, że zmenna nezależna y przyjme wartość zero lub 1, jest zatem funkcją zmennych objaśnających parametrów: exp T 1 P = F( xb ) = = 1+ exp 1+ exp T ( xb ) gdze: F dystrybuanta rozkładu logstycznego. T ( xb ) T ( xb ) Powstaje pytane, w jak sposób oblczyć prawdopodobeństwa z wykorzystanem wzoru 4, jeżel mamy do czynena ze zmennym symbolcznym nterwało-, (4)

Regresja logstyczna dla danych symbolcznych nterwałowych 47 wym. Zmenne te mają postać przedzału lczbowego: x, x, gdze x to dolny kranec przedzału -tej zmennej, a x to górny kranec przedzału -tej zmennej. W artykule de Souzy n. (por. [de Souza, Queroz, Cysneros 2011]) zaproponowano cztery modyfkacje pozwalające na szacowane prawdopodobeństwa z wykorzystanem wzoru 4, jeżel mamy do czynena ze zmennym symbolcznym nterwałowym [de Souza, Queroz, Cysneros 2011, s. 275-278]): 1. Metoda środków (centers), która jest stosowana m.n. w odnesenu do regresj lnowej czy w analze głównych składowych dla danych symbolcznych nterwałowych (por. np. [Bllard, Dday 2006; Dudek 2013]). W tym rozwązanu zamast całego przedzału zmennej symbolcznej we wzox x rze 4 wykorzystuje sę jedyne środek jej przedzału. Prawdopodobeństwo, 2 że zmenna y przyjme wartość zero lub 1, oblczane jest dla środków przedzałów wszystkch zmennych. 2. Metoda krańców (bounds). W tym przypadku zamast całego przedzału zmennej symbolcznej wykorzystywane są jedyne krańce tej zmennej x oraz x. Prawdopodobeństwo wyrażone wzorem 4 może być szacowane łączne z wykorzystanem obydwu krańców jednocześne estymacja łączna (jont estmaton). W odnesenu do estymacj łącznej (jont estmaton) prawdopodobeństwo wyznacza sę ze wzoru 4, wykorzystując zarówno krańce dolne, jak krańce górne przedzałów wszystkch zmennych jednocześne (mamy tu do czynena z 2m zmennym, gdze: m lczba zmennych symbolcznych nterwałowych). Prawdopodobeństwo to może być równeż średną oblczoną z dwóch model (por. [Alexandre, Camplho, Kamel 2001]) jednego dla krańców dolnych drugego dla krańców górnych estymacja rozdzelona (separated estmaton). Dokonuje sę węc oszacowana dwóch prawdopodobeństw jednego dla krańców górnych oraz drugego dla krańców dolnych zmennych symbolcznych nterwałowych. 3. Metoda werzchołków (vertces), która jest stosowana m.n. w analze dyskrymnacyjnej czy analze głównych składowych dla danych symbolcznych nterwałowych (por. np. [Slva, Brto 2006]). W metodze tej zamast m zmennych symbolcznych nterwałowych x 1, x 1,, x t, xt stosowana jest macerz M, która jest kombnacją wszystkch werzchołków we wszystkch zmennych: x1 xt x1 xt M. (5) x1 xt x 1 xt

48 Marcn Pełka Na przykład jeżel mamy jeden obekt dwe zmenne symbolczne nterwałowe, x, x x, to macerz M ma postać: x 11 11 21, 21 x11 x 21 x11 x21 M. (6) x 11 x 21 x11 x21 W metodze werzchołków ostateczne prawdopodobeństwo to (por. [de Souza, Queroz, Cysneros 2011, s. 277]): a) średna z prawdopodobeństw oblczonych dla wszystkch kombnacj werzchołków danego obektu, b) wartość maksymalna wśród prawdopodobeństw oblczonych dla wszystkch kombnacj werzchołków danego obektu, c) wartość mnmalna wśród prawdopodobeństw oblczonych dla wszystkch kombnacj werzchołków danego obektu. Wśród mar dopasowana dla model dwumanowych w lteraturze przedmotu zaproponowano (zob. np. [Gatnar, Walesak 2011, s. 102-103; Gruszczyńsk n. 2010, s. 71-72; Smth, McKenna 2013, s. 17-26; Hosmer, Lemeshow, Sturdvant 2013; Menard 2002]): 1. R 2 współczynnka korelacj mędzy wartoścam teoretycznym emprycznym zmennej objaśnanej. 2. Mara R 2 Efrona: 2 n 2 2 n 1 R 1 y ˆ / 1 y n, (7) 1 n gdze: gdze: y wartośc empryczne zmennej objaśnanej, ŷ wartośc teoretyczne zmennej objaśnanej, n 1 lczba jedynek dla zmennej y, n lczba obserwacj. 1. Mara R 2 Nagelkerke: R 2 / n n 1 exp D Dnull, (8) 1 exp D / D ln LUR maksmum funkcj warygodnośc, przy maksymalzacj względem wszystkch parametrów (dla pełnego modelu), Dnull ln LR, L R maksmum funkcj warygodnośc przy maksymalzacj pod warunkem m j 1b j 0 (dla modelu tylko z wyrazem wolnym). null

Regresja logstyczna dla danych symbolcznych nterwałowych 49 2. Mara R 2 McFaddena: R 2 D 1. (9) Mary dopasowana R 2 dla model dwumanowych należą do przedzału 0;1 m są wększe, tym lepsze dopasowane modelu. Prognozę dla prawdopodobeństwa P można wyznaczyć na podstawe wektora zmennych objaśnających. Dla próby zblansowanej yˆ 0, jeżel Pˆ 0,5 oraz yˆ 1dla P ˆ >0,5. W próbe nezblansowanej y ˆ 0, jeżel Pˆ oraz yˆ 1dla P > ( odsetek jedynek w próbe). ˆ 3. Wynk badań emprycznych Celem badana jest porównane czterech proponowanych w lteraturze rozwązań pod względem jakośc dopasowana model do danych (w sense współczynnka R 2 ). Dotychczasowe badana z zastosowanem sztucznych zborów danych (zob. [de Souza, Queroz, Cysneros 2011, s. 278-280]) wskazują, że zwykle to metoda krańców o estymacj rozdzelonej otrzymuje wynk najlepsze dla różnych model, a najgorsze metoda środków. Na potrzeby badań emprycznych przygotowano w programe R z wykorzystanem paketu clustersm dwa sztuczne zbory danych (rys. 1): 1. Zbór 100 obektów symbolcznych, podzelony na trzy klasy o wydłużonym kształce, które są opsywane przez dwe zmenne symbolczne nterwałowe. Obserwacje są losowane nezależne z rozkładu normalnego o średnch (0, 0), (1,5, 7), 1, 0,9. D null (3, 14) oraz macerzy kowarancj jj jl 2. Zbór 100 obektów symbolcznych, podzelony na dwe klasy o wydłużonym kształce, które są opsywane przez dwe zmenne symbolczne nterwałowe. Obserwacje są losowane z rozkładu normalnego o średnch (0, 0), (1, 5) macerzach kowarancj 1 0,9 1 0,5, 1 2 0,9 1 0,5 1. W badanach emprycznych wykorzystano także zbór danych opsujący oleje (zbór danych przygotowal M. Ichno H. Yaguch). Zbór opsuje 8 różnych tłuszczów roślnnych zwerzęcych, które są opsywane przez cztery zmenne symbolczne nterwałowe (zob. [Ichno, Yaguch 1994]) oraz zbór cars (pochodzący z programu SODAS 2.50 1 ). Zbór cars zawera 33 model samochodów różnych marek, które są opsywane przez 11 zmennych (w tym 8 nterwałowych). Do analz wykorzystano jedyne zmenne nterwałowe, a zbór danych podzelono na dwe grupy samochodów: użytkowe (10 obektów) oraz pozostałe (23 obekty). 1 Program jest dostępny pod adresem www.nfo.fundp.ac.be/asso/.

50 Marcn Pełka Rys. 1. Zbory danych wygenerowane na potrzeby badań emprycznych Źródło: opracowane własne z wykorzystanem programu R. Tabela 1. Wynk badań emprycznych Zbór danych I Zbór danych II Zbór Ichnno Yaguchego Zbór cars Środków Krańców (estymacja łączna) Krańców (estymacja rozdzelona) a Werzchołków (wynk uśrednone) b dokładność prognozy 1 1 1 1 R 2 Efrona 1 1 1 1 R 2 Nagelkerke 1 1 1 1 R 2 McFaddena 1 1 1 1 dokładność prognozy 1 1 1 1 R 2 Efrona 1 1 1 1 R 2 Nagelkerke 1 1 1 1 R 2 McFaddena 1 1 1 1 dokładność prognozy 1 1 1 1 R 2 Efrona 1 1 1 1 R 2 Nagelkerke 1 1 1 1 R 2 McFaddena 1 1 1 1 dokładność prognozy 1 1 0,94 0,95 R 2 Efrona 1 1 0,87 0,89 R 2 Nagelkerke 1 0,99 0,91 0,95 R 2 McFaddena 1 0,99 0,86 0,89 Metoda szacowana a Wynk uśrednono na podstawe wynków otrzymanych dla krańca górnego dolnego; b w tabel zaprezentowano wynk dla rozwązana, które polega na uśrednanu wynków; pozostałe rozwązana (wartość mnmalna maksymalna) uzyskały neco gorsze wynk. Źródło: opracowane własne z zastosowanem autorskch procedur programu R.

Regresja logstyczna dla danych symbolcznych nterwałowych 51 Wynk otrzymane z zastosowanem każdej z proponowanych metod dla poszczególnych zborów danych zawarto w tab. 1. Z danych zawartych w tab. 1 wynka, że w odnesenu do zborów danych o typowych (wydłużonych) kształtach wszystke metody zaproponowane w pracy de Souzy, Queroza Cysnerosa [2011] uzyskują stuprocentową dokładność prognozy oraz wszystke mernk R 2 są równe jednośc. Jeśl mamy do czynena z neco bardzej skomplkowanym zborem danych które tworzą skupena o klasach trudno separowalnych czy nerozłącznych które dodatkowo mają netypowe kształty skupeń (jak np. zbór cars), to najlepsze wynk uzyskuje metoda środków, następne metoda krańców o estymacj łącznej. Najsłabej wypadają tu metoda werzchołków oraz metoda krańców o estymacj rozdzelonej. 4. Zakończene Regresja logstyczna może znaleźć zastosowane do analzowana zjawsk opsywanych przez zmenne symbolczne nterwałowe oraz zmenne metryczne, które opsują obekty symbolczne. Przeprowadzone badana empryczne wskazują, że w odnesenu do zborów danych o klasycznym wydłużonym kształce wszystke rozwązana zaproponowane w lteraturze przedmotu osągają take same wynk, jeżel chodz o dokładność prognozy oraz dopasowane modelu do danych (w sense mary R 2 ). Gdy mamy do czynena ze zboram danych o neco bardzej skomplkowanej strukturze danych (tj. zborów danych tworzących skupena trudno separowalne lub nerozłączne o kształtach nesferycznych), wtedy najlepsze wynk uzyskała metoda środków oraz metoda krańców o estymacj łącznej. Najgorsze wynk uzyskały metoda werzchołków, która uśredna wynk, oraz metoda krańców o estymacj rozdzelonej. Celem dalszych badań będze analza porównawcza proponowanych w lteraturze przedmotu rozwązań w zakrese regresj nterwałowych z zastosowanem sztucznych rzeczywstych zborów danych różnego typu (w tym zborów danych zawerających obserwacje odstające zmenne zakłócające). Lteratura Alexandre L.A., Camplho A.C., Kamel M., 2001, On combnng classfers usng product and sum rules, Pattern Recognton Letters, vol. 22, ssue 12, s. 1283-1289. Bock H.-H., Dday E. (red.), 2000, Analyss of Symbolc Data. Explanatory Methods for Extractng Statstcal Informaton from Complex Data, Sprnger Verlag, Berln-Hedelberg. Bllard L., Dday E., 2006, Symbolc Data Analyss. Conceptual Statstcs and Data Mnng, John Wley & Sons, Chchester. de Souza R.M.C.R., Queroz D.C.F, Cysneros F.J.A., 2011, Logstc regresson-based pattern classfers for symbolc nterval data. Pattern Analyss and Applcatons, vol. 14, ssue 3, s. 273-282.

52 Marcn Pełka Dday E., Norhomme-Frature M., 2008, Symbolc Data Analyss. Conceptual Statstcs and Data Mnng, Wley, Chchester. Dudek A., 2004, Tworzene obektów symbolcznych z baz danych, Prace Naukowe Akadem Ekonomcznej we Wrocławu nr 1021, s. 107-114. Dudek A., 2013, Metody analzy danych symbolcznych w badanach ekonomcznych, Wyd. Unwersytetu Ekonomcznego we Wrocławu, Wrocław. Gatnar E., Walesak M. (red.), 2011, Analza danych jakoścowych symbolcznych z wykorzystanem programu R, C.H. Beck, Warszawa. Gruszczyńsk M. (red.), 2010, Mkroekonometra. Modele metody analzy danych ndywdualnych, Wolters Kulwer Polska, Warszawa. Hosmer D.W., Lemeshow S., Sturdvant R.X., 2013, Appled logstc regresson, John Wley & Sons, Chchester. Ichno M., Yaguch H., 1994, Generalzed Mnkowsk metrcs for mxed feature-type data analyss, IEEE Transactons on Systems, Man and Cybernetcs, vol. 24, no. 4, s. 698-708. Menard S., 2002, Appled logstc regresson, second edton, Sage Publshng, Thousand Oaks, Calforna. Norhomme-Frature M., Brto P., 2011, Far beyond the classcal data models: Symbolc data analyss, Statstcal Analyss and Data Mnng, vol. 4, ssue 2, s. 157-170. Slva A.P.D., Brto P., 2006, Lnear dscrmnant analyss for nterval data, Computatonal Statstcs, vol. 21, ssue 2, s. 289-308. Smth T.J., McKenna C.M, 2013, A comparson of logstc regresson pseudo R 2 ndces, Multple Lnear Regresson Vewponts, vol. 39(2), s. 17-26. Walesak M., Dudek A., 2014, The clustersm package, www.r-project.org.