ROGALSKA Magdalena 1 WOLSKI Piotr 2 Prognozowanie ceny 1m 2 mieszkania na rynku pierwotnym w Warszawie metodą uogólnionych modeli addytywnych WSTĘP Duża ilość mieszkań na rynku pierwotnym w Warszawie powoduje konkurencję wśród sprzedających mieszkania, co skutkuje zwiększonymi wymaganiami wśród inwestorów [2,7,11]. Podczas dokonywania wyboru kierują się oni wieloma indywidualnie określonymi kryteriami, z których każde może wpłynąć na ich późniejszą decyzję. Nie mniej jednak kryteria te mogą być zmienne w czasie, czego przykładem jest zmienny popyt na różną wielkość powierzchni mieszkań. Na rysunku 1 przedstawiono udział poszczególnych kategorii wielkościowych mieszkań w wolumenie obrotu w Warszawie w latach 2012 2013. Zaobserwowano znaczny wzrost popytu na mieszkania od 55 do 65 m 2 oraz spadek wśród mieszkań do 35 m 2 pracy prognozowano cenę 1m 2 mieszkania na rynku pierwotnym w Warszawie stosując różne metody predykcyjne: Celem pracy jest opracowanie metodologii obliczeń, na podstawie której będzie można oszacować cenę zakupu powierzchni 1m 2 mieszkania na terenie Warszawy z uwzględnieniem preferencji inwestora takich jak: piętro, dzielnica, liczbę m 2 i innych. Stosowano różne metody predykcyjne: regresji wielorakiej, uogólnionych modeli addytywnych, wieloimiennych regresji adaptacyjnych z użyciem funkcji sklejanych, automatycznych sieci neuronowych [1,8,12,13]. Najlepsze rezultaty osiągnięto stosując metodę uogólnionych modeli addytywnych (GAM). Analizę wykonano na podstawie 161 transakcjisprzedaży mieszkań o powierzchni od 26 m 2 do 99 m 2 w programie STATISTICA. Rys.1. Udział poszczególnych kategorii wielkościowych mieszkań w wolumenie obrotu w Warszawie w okresie III kw. 2012 III kw. 2013 r. (m 2 ). 1 ANALIZA DANYCH Proces doboru zmiennych zależnych, czyli potencjalnych predyktorów, wykonuje się w kilku krokach: Ustalanie listy potencjalnych zmiennych objaśniających. Na tym etapie lepiej jest zgromadzić więcej zmiennych, aby można było je eliminować w toku dalszej analizy. Opis zmiennych 1 Politechnika Lubelska, Wydział Budownictwa i Architektury; 20-618 Lublin ul. Nadbystrzycka 40. Tel; : + 48 53 84 440, m.rogalska@o2.pl 2 Politechnika Lubelska, Wydział Budownictwa i Architektury; 20-618 Lublin ul. Nadbystrzycka 40. Tel; : + 48 53 84 440, vonzky@gmail.com 9101
Liczba pięter w budynku Wielkość kuchni Osobna kuchnia Rodzaj dodatkowej powierzchni Dodatkowa powierzchnia [m 2 ] Piętro Liczba pokoi Liczba m 2 Cena za m 2 Cena Dzielnica Adres Nazwa osiedla powinien być jednoznaczny, formułowany numerycznie lub lingwistycznie. Należy brać pod uwagę, że jeśli w zmiennej lingwistycznej wystąpi zróżnicowanie mniejsze niż 5, zmienna taka nie będzie mogła być predyktorem w wielu metodach obliczeniowych. Zbieranie danych statystycznych, będących realizacjami zmiennych objaśniających. Eliminowanie zmiennych objaśniających o zbyt niskim poziomie zmienności. Obliczanie współczynników korelacji pomiędzy zmiennymi. Zmienne skorelowane liniowo w wielu metodach obliczeniowych nie będą mogły występować jednocześnie. Przeprowadzanie redukcji zbioru zmiennych W toku zestawiania danych wybrano 18 zmiennych niezależnych. Zestawiono je w tabeli 1. Tab.1. Zestawienie zmiennych zaleznych do obliczeń w programie STATISTICA Zmienna Opis zmiennej Uwagi v1 nazwa osiedla v2 adres v3 dzielnica v4 cena v5 cena za m 2 Zmienna zależna v6 liczba m 2 v7 liczba pokoi v8 piętro v9 dodatkowa powierzchnia v10 rodzaj dodatkowej powierzchni v11 osobna kuchnia Nadane kody: 1 osobna kuchnia 0 kuchnia połączona z pokojem v12 wielkość kuchni v13 liczba pięter w budynku v14 cena parkingu podziemnego v15 cena parkingu naziemnego v16 plac zabaw Nadane kody: 1 osiedle posiada plac zabaw dla dzieci; 0 osiedle nie posiada placu zabaw dla dzieci v17 osiedle ogrodzone Nadane kody: 1 osiedle posiada ogrodzenie; 0 osiedle nie posiada ogrodzenia v18 odległość od centrum [km] v19 czas dojazdu do centrum komunikacją miejską [min] Zestawiono 161 przypadków wraz z przynależnymi zmiennymi. Fragment arkusza kalkulacyjnego w tabeli 2. Tab.2. Fragment arkusza kalkulacyjnego programu STATISTICA. Margerytka Płochocińska 101 Białołęka 309000 5073 61 3 0 20 ogródek tak 10 3 / loggia Margerytka Płochocińska 101 Białołęka 214920 5400 40 2 2 3,45 loggia nie 17,8 3 Aluzyjna Park Aluzyjna 13 Białołęka 347760 5400 64,4 3 3 4,8 loggia nie 22 4 9102
Aluzyjna Park Aluzyjna 13 Białołęka 264000 5500 48 2 2 4,8 loggia nie 21 4 Cztery Pory Roku Leona Berensona Białołęka 348000 6000 58 3 2 6 loggia nie 22 5 53 Cztery Pory Roku Leona Berensona Białołęka 246320 5900 44,8 2 1 6 loggia nie 19 5 53 Ostródzka Ostródzka 150 Białołęka 199000 5621 35,4 1 1 3 loggia nie 23,7 3 Ostródzka Ostródzka 150 Białołęka 399900 4479 89,1 4 2 4,5 loggia tak 14,4 3 Ostródzka Ostródzka 150 Białołęka 309000 5150 60 3 0 30 ogródek nie 22,8 3 / loggia Marina Krzyżówki 28 Białołęka 319599 6375 50 2 2 7,6 taras nie 20 4 Apartamenty Marina Krzyżówki 28 Białołęka 409982 6689 61 3 2 47,7 taras nie 23 4 Apartamenty Ceramiczna Ceramiczna 20 Białołęka 346434 5790 60 2 6 9,9 taras tak 10,5 6 Wilno Bukowiecka 31 Targówek 333395 6550 51 2 1 7,5 loggia tak 7 3 Wilno Bukowiecka 31 Targówek 535920 6400 55 3 3 6,7 loggia nie 19,5 3 Kondratowicza Kondratowicza 11 Targówek 231759 6912 34 1 2 2,8 balkon nie 27,2 15 Kondratowicza Kondratowicza 11 Targówek 336706 6210 54 2 1 16,5 balkon nie 29,5 15 + taras Kondratowicza Kondratowicza 11 Targówek 418654 6426 65 3 2 8,1 balkon nie 29,5 15 Kondratowicza Kondratowicza 11 Targówek 563819 6534 86 4 2 11 balkon nie 34,3 15 Wartościom poszczególnych zmiennych lingwistycznych nadano kody zestawione w tabeli 3, 4 oraz 5. Tab.3. Kody zmiennej v3 (dzielnica). Kod Dzielnica Kod Dzielnica Kod Dzielnica 101 Białołęka 107 Wesoła 113 Ochota 102 Targówek 108 Bielany 114 Mokotów 103 Praga płn 109 Żoliborz 115 Wilanów 104 Praga płd 110 Śródmieście 116 Ursynów 105 Wawer 111 Bemowo 117 Włochy 106 Rembertów 112 Wola 118 Ursus Tab. 4. Kody zmiennej v2 (adres). Kod Adres Kod Adres Kod Adres 101 Płochocińska 101 119 Płatnerska 37 137 Harfowa 1 102 Aluzyjna 13 120 Kuglarska 6 138 Włodarzewska 83 103 Leona Berensona 53 121 Jodłowa 23 139 Racławicka 148 104 Ostródzka 150 122 Szkolna 13 140 Santocka 10 105 Krzyżówki 28 123 Conrada 5 141 Bluszczańska 68 106 Ceramiczna 20 124 Arkuszowa 65 142 Bluszczańska 72 107 Bukowiecka 31 125 Heroldów 10 143 Zapłocie 12 108 Kondratowicza 11 126 Krasińskiego 29 144 Aleja Rzeczypospolitej 18 109 Krasiczyńska 8 127 Powązkowska 7 145 Aleja Rzeczypospolitej 17 110 Złotopolska 4 128 Krasińskiego 41 146 Cybisa 7 111 Zachariasza 2 129 Nowolipie 7 147 Pustałeczki 5 112 Kamienna 1 130 Stawki 2 148 Roentgena 43 113 Sulejowska 50 131 Batalionów Chłopskich 88 149 Aleje Jerozolimskie 200 114 Murmańska 7 132 Górczewska 222 150 Chrościckiego 20 115 Patriotów 96 133 Strąkowa 23 151 Instalatorów 7 116 Naddnieprzańska 30 134 Jana Ostroroga 35 152 Zagłoby 27 117 Korkowa 132 135 Św. Stanisława 12 153 Skoroszewska 3 118 Chruściela 23 136 Sowińskiego 51 154 Bony 55 9103
Tab. 5. Kody zmiennej v10 (rodzaj dodatkowej powierzchni). Kod Rodzaj dodatkowej powierzchni Kod Rodzaj dodatkowej powierzchni 201 ogródek/loggia 204 balkon 202 loggia 205 balkon + taras 203 taras 206 ogródek 2 ANALIZA ISTOTNOŚCI WPŁYWU ZMIENNYCH NIEZALEŻNYCH NA CENĘ 1 M 2 MIESZKANIA Analizę istotności wpływu wykonano przy wykorzystaniu metody drzew klasyfikacyjnych CART [3,9,10]. Ranking ważności zmiennych niezależnych. Rysunek 2 przedstawia zmienne niezależne, które wyszczególniono na skali od 0,0 do 1,0, gdzie wartości najwyższe oznaczają największy wpływ danej zmiennej na zmienną zależną. W tym przypadku o cenie 1 m 2 mieszkania decydują przede wszystkim: osiedle, umiejscowienie na osiedlu (adres), dzielnica, ilość m 2 powierzchni mieszkalnej. Najmniejszy wpływ ma natomiast rodzaj dodatkowej powierzchni, jej wielkość, piętro, na którym znajduje się mieszkanie oraz ilość pięter w budynku.z przeprowadzonej analizy wynika, że istnieją czynniki wpływu o niskiej istotności, zatem nie warto zwiększać kosztów inwestycji kierując się tymi czynnikami. Rys.2. Ranking ważności zmiennych niezależnych 3 PROGNOZOWANIE METODĄ UOGÓLNIONYCH MODELI ADDYTYWNYCH (GENERALIZED ADDITIVE MODELS GAM) Uogólnione modele addytywne, w skrócie GAM (GeneralizedAdditiveModels) zostały opracowane w 1990r.przez Hastie i Tibshirani [4,5,6]. Zaproponowali oni estymację dla wielowymiarowych zmiennych przy pomocy addytywnej aproksymacji funkcji regresji, zastępując liniową funkcję zmiennych objaśniających addytywnymi funkcjami nieparametrycznymi, które mogą być estymowane np. przez wygładzone kubiczne funkcje sklejane. Tym problem zajął się także w swojej pracy Schimek. Przedstawił on szczegółowy opis tych i pokrewnych metod, algorytmy użyte do dopasowania tych modeli, oraz dyskusję o najnowszych badaniach w tej dziedzinie modelowania statystycznego. W przypadku uogólnionych modeli addytywnych zamiast kombinacji liniowej predyktorów, stosujemy nieparametryczną funkcję uzyskaną przez zastosowanie wygładzania do wykresu rozrzutu reszt cząstkowych (dla przekształconych wartości zmiennej zależnej). Uogólniony model liniowy różni się od ogólnego modelu liniowego (którego szczególnym przypadkiem jest np. regresja wieloraka) w dwóch głównych aspektach. Po pierwsze rozkład zmiennej zależnej (odpowiedzi) może 9104
być rozkładem innym niż normalny, a ponadto zmienna ta nie musi być zmienną o charakterze ciągłym, tzn. może być zmienną o rozkładzie dwumianowym, wielomianowym lub wielomianowym porządkowym (tzn. zawierającą informację tylko w postaci rang). Po drugie, wartości zmiennej zależnej są prognozowane na podstawie liniowej kombinacji predyktorów, która jest "powiązana" ze zmienną zależną za pomocą funkcji wiążącej. Ogólny model liniowy dla pojedynczej zmiennej zależnej może być rozpatrywany jako szczególny przypadek uogólnionego modelu liniowego. W przypadku ogólnego modelu liniowego oczekuje się, że wartości zmiennej zależnej podlegają rozkładowi normalnemu a funkcja wiążąca jest prostą funkcją identycznościową (tzn. kombinacja liniowa predyktorów nie jest przekształcana). Relacje w uogólnionego modelu liniowym są opisane równaniem (1): Y g( b b X b X ) 0 1 1 m m (1) gdzie: g (... ) - jest funkcją Y - przewidziane wartości zmiennej zależnej X 1 X m - reprezentują m wartości zmiennych predykcyjnych b 0, b 1 b m - współczynniki regresji oszacowanej regresją wielokrotną. Funkcja odwrotną g(... ) ustalmy funkcję g i (... ),która jest nazywana funkcja wiążącą (2): gdzie: m i Y- oznacza spodziewaną wartość Y. g ( my) b b X b X i i 0 1 1 m m (2) W modelach GAM zmienna Y należy do rodziny rozkładów wykładniczych. Popularnymi funkcjami wiążącymi są funkcje: g(μ) = μ jest tożsamościową funkcją wiążącą wykorzystywana w liniowych i addytywnych modelach dla zmiennej wynikowej o rozkładzie Gaussa, g(μ) = log(μ) dla log-liniowych lub log-addytywnych modeli, gdzie zmienna Y ma rozkład Poissona, 1 g(μ) = jest odwrotną funkcją wiążącą. Głównym celem uogólnionego modelu addytywnego jest maksymalizacja jakości przewidywań o zmiennej zależnej Y z różnych dystrybucji, poprzez ogólnikowe (nieparametryczne) funkcje zmiennych objaśniających, które są połączone do zmiennej zależnej przez połączenie funkcji. Do obliczeń regresyjnych zmiennej zależnej ceny brutto 1 m 2 mieszkania w Warszawie zastosowano metodę uogólnionych modeli addytywnych GAM, przyjęto model z rozkładem gamma i funkcję wiążącą logarytmiczną. Podsumowanie algorytmu obliczeniowego dla zmiennej zależnej przedstawiono w tabeli 5. Wzór regresyjny 3 przedstawiono poniżej. We wzorze występują kody, które zestawiono w tabeli 3, 4 oraz 5. Wybór danego kodu decyduje o występowaniu składnika wzoru we wzorze regresyjnym, np. wybór dzielnicy o kodzie 107 (Wesoła) decyduje o pominięciu wszystkich pozostałych członów przyporządkowanych zmiennej v3. Tab.5. Podsumowanie algorytmu obliczeniowego dla zmiennej zależnej cena brutto 1m 2 Podsumowanie algorytmu Obserwowana: cena za 1 m 2 Rozkład: Gamma; Funkcja wiążąca: Log Końcowe odchylenie Reszta Df Liczba obserwacji Zewnętrznych Iteracji Liczba dop. gładkich Ocena Skali R kwadrat *100 % 9105
Wartość Podsumowanie algorytmu Obserwowana: cena za 1 m 2 Rozkład: Gamma; Funkcja wiążąca: Log Końcowe odchylenie Reszta Df Liczba obserwacji Zewnętrznych Iteracji Liczba dop. gładkich Ocena Skali R kwadrat *100 % 5,867035 99,98317 161 20 252 0,058680 61,18559 v5 e^ (9,409310-0,005601 v6-0,004200 v8 0,004045 v9-0,004396 v12-0,005603 v13-0,000002 v14-0,000004 v15 0,029475 v18-0,016539 v19 0,208941 v3(101) 0,044696 v3(102) 0,160972 v3(103) 0,070851 v3(104) 0,077227 v3(105) 0,067838 v3(106) 0,300639 v3(107) 0,343141 v3(108) 0,961417 v3(109) 0,229468 v3(110) 0,336308 v3(111) 0,333039 v3(112) 0,396143 v3(113) 0,298337 v3(114) 0,358518 v3(115) 0,167869 v3(116) 0,421804 v3(117) 0,089863 v10(201) 0,019096 v10(202) 0,109137 v10(203) 0,091649 v10(204) 0,077430 v10(205) 0,318421 v10(206) 0,025822 v10(207) (3) Na rysunku 3 przedstawiono wyniki empiryczne i prognozowane metodą GAM ceny za 1 m2 mieszkania w Warszawie. Widoczne jest bardzo dobre dopasowanie obu wykresów. Rys.3. Cena za 1m 2 - wyniki empiryczne i prognozowane metodą GAM (v5; v6, v8, v9, v10, v12, v13, v14, v15, v18, v19) W celu sprawdzenia prawidłowości modelu wykonano wykresy autokorelacji reszt i autokorelacji cząstkowej reszt (rysunki 4 i 5). 9106
Funkcja autokorelacji NOWAZM3 (Błędy standardowe to oceny białego szumu) Opóźn Kor. S.E Q p 1 -,038,0781,24,6267 2 +,013,0778,26,8760 3 -,051,0776,70,8739 4 -,125,0773 3,30,5082 5 -,077,0771 4,31,5062 6 -,045,0769 4,64,5904 7 -,056,0766 5,18,6383 8 -,018,0764 5,23,7323 9 -,035,0761 5,45,7933 10 -,105,0759 7,38,6889 11 +,001,0756 7,38,7672 12 +,008,0754 7,39,8306 13 -,003,0751 7,39,8807 14 +,035,0748 7,61,9086 15 +,018,0746 7,67,9363 0 0-1,0-0,5 0,0 0,5 1,0 Rys.4. Wykres autokorelacji reszt równania regresji GAM P. ufności Opóźn Kor. S.E 1 -,038,0788 2 +,012,0788 3 -,050,0788 4 -,129,0788 5 -,088,0788 6 -,054,0788 7 -,076,0788 8 -,053,0788 9 -,070,0788 10 -,148,0788 11 -,053,0788 12 -,035,0788 13 -,059,0788 14 -,034,0788 15 -,032,0788 Funkcja autokorelacji cząstkowej NOWAZM3 (Błędy std. przy założeniu AR rzędu k-1) 0-1,0-0,5 0,0 0,5 1,0 Rys.5. Wykres autokorelacji cząstkowej reszt równania regresji GAM P. ufności Szereg resztowy jest białym szumem, zatem można przyjąć, że równanie 3 jest równaniem regresji. Obliczono błąd MAPE (zdefiniowany wzorem 4), wynosi on 2,19% i jest to bardzo dobry wynik. Obliczano go dla wszystkich przypadków. T 1 Yi Yip MAPE (4) T n Y i T n gdzie: T numer bieżącego momentu/okresu, dla którego była sprawdzana prognoza, n numer bieżącej wiadomej obserwacji zmiennej prognozowanej, Y i wartość rzeczywista zmiennej w okresie i, Y ip wartość prognozowana zmiennej w okresie i. Przeprowadzone obliczenia umożliwiają wykonanie wizualizacji zależności określonych czynników na cenę 1 m 2 mieszkania. Dla przykładu na rysunku 6 przedstawiono wykres powierzchniowy 3W względem odległość od centrum, czas dojazdu i modelu GAM. i 9107
Rys.6. Wykres powierzchniowy 3W względem odległość od centrum, czas dojazdu i modelu GAM 4 STUDIUM PRZYPADKU Sporządzono arkusz kalkulacyjny w programie MS Excel. Zrzut ekranu aplikacji wzoru 3 przedstawiono na rysunku 7.Przeprowadzono obliczenia dotyczące ceny 1 m2 mieszkania przy założeniu różnicowania dzielnicy, odległości od centrum oraz czasu dojazdu do centrum komunikacją miejską, pozostawiając niezmienne pozostałe czynniki. Wybrano 5 dzielnic a wyniki obliczeń zestawiono w tabeli 6. Rys.7. Zrzut ekranu aplikacji wzoru 3 w programie MS Excel. Tab. 6. Wyniki obliczeń ceny 1 m2 dla wybranych dzielnic. Prognozowana cena Dzielnica za 1 m2 mieszkania PODSUMOWANIE Targówek Wawer Ochota Mokotów Ursynów 6 327,37 zł 5 819,80 zł 9 429,30 zł 7 917,31 zł 7874,97 zł Proponowana metoda obliczeniowa GAM daje zadawalające efekty. Obliczenia wykonano wykorzystując 161 transakcji kupna mieszkań na terenie Warszawy w 18 dzielnicach. Zwiększenie liczby danych spowodowałoby prawdopodobnie lepsze dopasowanie predykcji. Należałoby również wprowadzić więcej zmiennych niezależnych np. standard wykończenia części wspólnych budynku, 9108
zagospodarowanie otoczenia, usytuowanie na terenie chronionym, usytuowanie mieszkania względem strony świata, bliskość sąsiednich budynków, sąsiedztwo. Prace w tym kierunku będą sukcesywnie prowadzone. Wyniki prac były finansowane z środków statutowych przyznanych przez Ministerstwo Nauki i Szkolnictwa Wyższego (S/63/2014). Streszczenie W artykule podjęto próbę opracowania metodologii obliczeń, na podstawie której będzie można oszacować cenę zakupu powierzchni 1m 2 mieszkania na terenie Warszawy z uwzględnieniem preferencji inwestora. Najlepsze rezultaty obliczeniowe osiągnięto stosując metodę uogólnionych modeli addytywnych (GAM).Uzyskano błąd MAPE 2,19%. Analizę wykonano w programie STATISTICA,na podstawie 161 transakcji sprzedaży mieszkań o powierzchni od 26 m 2 do 99 m 2. Otrzymano wzór regresyjny wyznaczający cenę 1m 2 mieszkania. Predyktorami równania są : dzielnica, liczba m 2, piętro, dodatkowa powierzchnia, wielkość kuchni, liczba pięter w budynku, cena parkingu podziemnego, cena parkingu naziemnego, odległość od centrum [km], czas dojazdu do centrum komunikacją miejską [min]. Sporządzono arkusz kalkulacyjny w programie EXCEL. Wykonano przykładowe studium przypadku. Przedstawiony wzór regresyjny oraz aplikacja w programie EXCEL mogą ułatwić wybór mieszkania. Proponowany sposób obliczeń pozwala rozważyć wiele alternatywnych rozwiązań i wybrać najbardziej korzystne. Forecasting using generalized additive models housing prices of 1m 2 in the primary market in Warsaw Abstract This article attempts to develop a methodology of calculations on the basis of which it will be possible to estimate the purchase price of 1m 2 of flat in Warsaw, with the preference of the investor. The best results were achieved using the method of computing Generalized Additive Models (GAM). MAPEerror 2,19% was received. The analysis was performed in STATISTICA, on the basis of 161 sales transactions of apartments ranging in size from 26 m 2 to 99 m 2. Obtained regression model defining the price of 1m 2 of flat. Predictors of equations are: district, the number of m 2, floor, additional space, the size of the kitchen, the number of floors in the building, underground parking price, the price of parking ground, distance from the center [km],the time of journey to the center by public transport [min]. Spreadsheet in EXCEL has been done. Case study has been taken. The presented model regression and application in EXCEL can make the choice of housing easier. The proposed method has the ability to consider many alternatives and choose the most beneficial. BIBLIOGRAFIA 1. Aczel A.D., Statystyka w zarządzaniu, PWN, Warszawa 2000. 2. Akademia Ekonomiczna w Krakowie, Katedra Analizy Rynku i Badań Marketingowych. 3. BreimanI.,Friedman J.H., Olshen R.A., Stone C.J., Classification and Regression Trees, Wadsworth International Group 1984. 4. Friedman J., Hastie T., Tibshirami R.: The elements of statistical learning, wyd. Springer, second editon. 5. Hastie, Trevor, and Robert Tibshirani. Generalized additive models. Statistical science 1.3 (1986): 297-310. 6. Hestie T.J, Tibshirani R.J. (1990). Generalized additive models. London: Chapman Hall 7. Iwona Foryś. Analiza cen transakcyjnych na szczecińskim rynku nieruchomości. 8. Kot S., Jakubowski J., Sokołowski A., Statystyka. Difin, Warszawa 2007. 9. Loh, Wei Yin. "Classification and regression trees." Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 1.1 (2011): 14-23. 10. Mariusz Łapczyński. Drzewa klasyfikacyjne w badaniach satysfakcji i lojalności klientów. 11. Raport ARMON SARFiN. Ogólnopolski raport o kredytach mieszkaniowych i cenach transakcyjnych nieruchomości. Centrum Amron, Związek Banków Polskich, sierpień 3/2013, 16-18. 9109
12. Sobczyk M.: Statystyka aspekty praktyczne i teoretyczne, wyd. Uniwersytetu Marii Curie- Skłodowskiej, Lublin 2006. 13. Stanisz A., Przystępny kurs statystyki z zastosowaniem STATISTICA PL na przykładach z medycyny.,t 1. StatSoft Polska Sp. z o.o., Kraków 2006. 9110