Narzędzia metody i techniki modelowania procesów społecznogospodarczych Mariusz Dacko
Dlaczego modelowanie procesów społecznogospodarczych jest procesem trudnym do przeprowadzenia? Brak jednolitego spójnego systemu informacji (konieczność pozyskiwania danych z wielu niezależnych źródeł) Braki istotnych danych na poziomie lokalnym Konieczność posiadania gruntownej wiedzy nie tylko o modelowanych zjawiskach, ale też o stosowanych metodach Konieczność dysponowania skomplikowanym i drogim oprogramowaniem (np. Statistica, SAS, Stella, Vensim) Konieczność dysponowania dużymi zbiorami kompletnych, wiarygodnych i aktualnych danych Przykład: badanie rozwoju obszarów wiejskich w Polsce: Obszary wiejskie to 1571 gmin wiejskich i 602 części wiejskich gmin miejsko-wiejskich Każda z tych jednostek musi być opisana szeregiem cech diagnostycznych, które umożliwią obiektywną ocenę rozwoju Wystarczy by badane jednostki zostały opisane zestawem 25 cech, a baza danych rozrasta się do ponad 50 tys. pól
Kiedy potrzebne są modele? Prowadzenie polityki państwa Opracowywanie planów i strategii Przewidywanie i wariantowanie przyszłości (symulacje, sądy warunkowe, gry) Zarządzanie rozwojem firm, korporacji, miast, regionów
Stosowane metody Regresja wieloraka Sieci neuronowe Drzewa decyzyjne Uczenie maszyn (metoda k najbliższych sąsiadów) Data mining
Regresja ODL CENA 5,04 70 7,00 85 3,00 59 8,00 87 15,00 132 17,00 139 12,00 94 7,00 83 18,00 120 1,00 48 1,00 53 5,00 83 9,00 102 10,00 108 2,00 17 3,00 54 4,00 67 3,00 48 4,00 56 2,00 30 1,00 30 1,00 29 160 140 120 100 80 60 40 20 0 y = 6,036x + 34,55 R2 = 0,8623 0,00 5,00 10,00 15,00 20,00
Regresja liniowa prosta Regresja pozwala na matematyczny opis relacji pomiędzy zmienną zależną (endogeniczną), a zmienną objaśniającą (egzogeniczną) Regresja liniowa prosta polega na zdefiniowaniu parametrów linii prostej, która będzie reprezentowała zbiór punktów odpowiadających wartościom obu zmiennych 160 140 120 100 80 60 40 20 0 0,00 5,00 10,00 15,00 20,00 y = ax + b a =? b =?
Parametry modelu Wzory na parametry (współczynniki) modelu regresji prostej: n 1 i 2 2 i n 1 i i i x x n 1 y) x y (x n 1 a n x a y b n 1 i n 1 i i i
Srednia cena jednostkowa Przykład zastosowania regresji prostej Model zależności między cenami jednostkowymi działek budowlanych a wielkością miejscowości (tys. mieszk.) Model ma postać: Y = 0,0003 X + 16.58 40 35 30 25 20 15 10 5 0 0 10000 20000 30000 40000 50000 60000 Liczba mieszkańców Jaka jest interpretacja modelu?
Regresja wieloraka W przypadku regresji wielorakiej mamy do czynienia z równaniem hiperpłaszczyzny w przestrzeni n-wymiarowej Łączy się tutaj metody matematyczne i statystyczne z wiedzą o modelowanych zjawiskach Najistotniejsze Problemy: Nadanie odpowiednich rang zmiennym jakościowym Dobór optymalnej liczby zmiennych objaśniających Uzyskanie stabilnych wyników Usunięcie obserwacji odstających Weryfikacja modelu Podobne problemy staną również przed badaczami stosującymi inne metody jednoczesnej oceny wpływu wielu zmiennych
Weryfikacja modeli regresji: współczynnik determinacji R 2 statystyka F Snedecora test globalny statystyki t dla zmiennych niezależnych testy istotności poszczególnych zmiennych objaśniających analiza reszt
Regresja w arkuszu kalkulacyjnym Mamy tutaj kilka możliwości: uruchomienie formuły tablicowej reglinp zainstalowanie i wykorzystanie modułu analizy danych data analysis wykorzystanie zaawansowanych możliwości wykresów Excela (linia trendu) samodzielne opracowanie formuł obliczeniowych
Formuła tablicowa reglinp Funkcja ta należy do kategorii f. statystycznych Jej użycie wymaga zdefiniowania: zmiennych objaśniających i objaśnianej, postaci modelu (ze stałą lub bez) oraz opcjonalnego wyboru statystyk regresji Wys. Powierzchnia zabudowy Technologia Cena zł/m² 60,4 12 płyta 3 526,00 48,1 4 płyta 4 719,00 60,2 4 płyta 4 236,00 60,4 9 płyta 4 139,00 60,6 4 płyta 4 703,00 36 4 nowa 4 750,00 35,8 4 nowa 4 737,00 48,5 4 nowa 3 711,00 48,5 4 nowa 2 474,00 59,5 4 płyta 3 866,00 48,3 4 nowa 3 727,00 48,5 4 nowa 5 010,00 72,4 4 nowa 3 591,00 72,8 4 nowa 4 396,00 48,5 4 płyta 4 866,00 71,5 4 nowa 4 531,00 34,1 4 płyta 5 674,00 75 4 płyta 4 000,00 41,2 4 płyta 5 461,00 73,1 4 płyta 3 967,00 61,3 4 nowa 3 736,00 47,9 4 płyta 4 843,00 Edycja formuły jest kończona kombinacją trzech klawiszy: Ctrl + Shift + Enter
Wynik formuły reglinp jest tylko z pozoru pojedynczą komórką. Po rozciągnięciu na inne komórki staje się on tablicą. a n a n-1 a 2 a 1 b se n se n-1 se 2 se 1 se b R 2 F ss reg se y d f ss resid a, b wartości współczynników regresji oraz stałej se - standardowe wartości błędu dla współczynników regresji oraz stałej R 2 - współczynnik determinacji se y - standardowy błąd oceny zmiennej zależnej F statystyka F Snedecora d f liczba stopni swobody ss reg - regresyjna suma kwadratów ss resid - resztkowa suma kwadratów
Moduł analizy danych Jest on domyślnie niedostępny i wymaga zainstalowania (Narzędzia Dodatki Analysis ToolPack)
Regresja poprzez narzędzie analiza danych Po instalacji na liście narzędziowej pojawi się zakładka o nazwie analiza danych, a w niej:
Regresja - okno dialogowe Po wskazaniu źródła danych (zmiennej zależnej i zmiennych niezależnych) oraz wyborze odpowiednich opcji, w nowym arkuszu generowane są w postaci raportu wyniki modelu regresji
Ocena wyników regresji uruchomionej poprzez moduł analizy danych Statystyki regresji Wielokrotność R 0,93 R kwadrat 0,86 Dopasowany R kwadrat 0,86 Błąd standardowy 12,99 Obserwacje 22 ANALIZA WARIANCJI df SS MS F Istotność F Regresja 1 21141 21141 125 0,0000000 Resztkowy 20 3375 169 Razem 21 24516 Współczynniki Błąd standardowy t Stat Wartość-p Wyraz wolny 34,55 4,37 7,90 0,00000014 Współczynnik kierunkowy 6,04 0,54 11,19 0,00000000
Sieci neuronowe
Sieci neuronowe Sieci neuronowe zaliczamy do metod sztucznej inteligencji Sieć składa się z połączonych ze sobą neuronów Każdy neuron posiada co najmniej jedno wejście i wyjście Neurony muszą zostać odpowiednio połączone - stawia to przed twórcą sieci problem wyboru jej najlepszej architektury Typ : MLP 9:9-6-1:1, Ind. = 1 Jakość ucz. = 0,859466, Jakość w al. = 0,712944, Jakość test. = 0,801599
Koncepcja sieci neuronowych Do neuronów dociera pewna ilość wartości wejściowych Dane bezpośrednie Sygnały pośrednie pochodzące z wyjść innych neuronów Każda wartość wprowadzana jest do neuronu przez połączenie o pewnej wadze Każdy neuron posiada wartość progową, określającą jak silny musi być sygnał, by doszło do jego przekazania W każdym neuronie obliczana jest ważona suma wejść, a następnie odejmowana jest od niej wartość progowa Uzyskana w ten sposób wartość pomocnicza określa pobudzenie neuronu Wartość reprezentująca pobudzenie neuronu przekształcana jest z kolei przez funkcję aktywacji neuronu Wynik ten jest wartością wyjściową neuronu Wagi zostają odpowiednio skalibrowane w kolejnych etapach uczenia sieci (tzw. epokach) dzięki porównaniu z rzeczywistością wyników jakie uzyskuje sieć
Sieć liniowa najprostszy przykład sieci neuronowej Sieć taka nie posiada warstw ukrytych W modelu liniowym funkcją dopasowywaną do posiadanych danych jest hiperpłaszczyzna, a uczenie sieci polega na znalezieniu jej właściwego położenia i nachylenia Typ : Liniow a 9:9-1:1, Ind. = 2 Jakość ucz. = 0,782256, Jakość w al. = 0,887699, Jakość test. = 0,939853 Interpretacja i zasada działania takiej sieci jest identyczna z liniowym modelem regresji wielorakiej bez wyrazu wolnego W y = w 1 *x 1 + w 2 *x 2 + w i *x i
Proces przygotowania i wdrożenia modelu sieci neuronowej
39473,00 48,3 ORŁOWICZA I 3 4 nowa 3727,000 4498,767-771,77 Arkusz predykcji dla Cena zł/m2 (SM Jaroty) Próby: Uczenie Data transakcji - Wejście Powierzchnia - Wejście Ulica - Wejście Piętro - Wejście Liczba izb - Wejście Wys. zabudowy - Wejście Technologia - Wejście Cena zł/m2 - Zm.zal Cena zł/m2 - Wyjście - 12. MLP 54-12-1 Cena zł/m2 - Reszty - 12. MLP 54-12-1 39465,00 60,2 MROZA II 4 4 płyta 4236,000 4399,298-163,30 39468,00 60,4 ORŁOWICZA II 4 9 płyta 4139,000 3952,230 186,77 39470,00 60,6 KANTA I 4 4 płyta 4703,000 4362,340 340,66 39471,00 36,0 BOENIGKA parter 2 4 nowa 4750,000 5076,162-326,16 39471,00 35,8 MURZYNOWSKIEGO parter 2 4 nowa 4737,000 5054,787-317,79 39472,00 48,5 JAROSZYKA I 3 4 nowa 3711,000 4662,744-951,74 39472,00 48,5 LEYKA I 3 4 nowa 2474,000 4593,995-2120,00
Sieci neuronowe w modelowaniu wady i zalety Tolerowanie braków danych! Możliwość tworzenia modeli nieliniowych Niższy niż w przypadku stosowania tradycyjnych metod statystycznych poziom wymaganej wiedzy teoretycznej Bardzo szeroki obszar zastosowań Zdolność generalizacji, czyli uogólniania wiedzy dla nowych danych Brak konieczności dokonywania założeń, co do natury związku pomiędzy predyktorami a zmienną zależną Brak przejrzystego modelu zależności Niezwykłe możliwości sieci neuronowych sprawiły, że narzędzie to znalazło zastosowanie w rozrywce (w grach komputerowych), w bankowości (we wspomaganiu decyzji kredytowych), w zarządzaniu bezpieczeństwem (rozpoznawanie twarzy przestępców na lotniskach)
Drzewa decyzyjne Układ drzewa 31 dla oczekiwanie na nabywcę Liczba węzłów dzielonych: 19, liczba węzłów końcowych: 20 1 2 3 4 5 42 43 6 7 36 37 44 45 70 71 8 9 14 15 54 55 72 73 94 95 16 17 56 57 74 75 18 19 62 63 82 83 64 65
Istota działania drzew typu C&RT Poszukiwanie zbioru logicznych warunków podziału, typu jeżeli to prowadzących do zaklasyfikowania badanych obiektów do poszczególnych węzłów drzewa Odpowiedzi modelu drzewa przyjmują postać typu: jeżeli mieszkanie było sprzedawane w lokalizacji A, znajdowało się na pierwszym piętrze i miało powierzchnię nie większą niż 50 m 2, to znajdowało nabywcę średnio po 3 miesiącach od daty rozpoczęcia jego budowy O sprawności drzew może świadczyć przykład klasyfikacji huraganów: baroklinowy czy zwrotnikowy?
Proces przygotowania i wdrożenia modelu drzew decyzyjnych Budowa modeli drzew klasyfikacyjnych i regresyjnych C&RT wymaga określenia parametrów umożliwiających ocenę ich jakości i zapobieganie ich nadmiernemu rozrostowi Kontrola jakości: sprawdziany krzyżowe Przerwanie procesu tworzenia nowych węzłów drzewa: przycinanie oraz określanie kryteriów minimalnej liczności przypadków w węźle
Które z wielu zbudowanych drzew decyzyjnych wybrać? 5500 5000 Tree number End nodes CV cost CV standard error Resub. cost Node complexity Cost 4500 4000 3500 3000 2500 2000 1500 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Tree number Resub. cost CV cost 1 16 2231 59 2146 0 2 15 2253 59 2162 16 * 3 14 2251 59 2180 18 4 13 2292 59 2208 28 5 12 2368 60 2240 33 6 11 2374 60 2276 36 7 10 2375 60 2313 37 8 9 2381 60 2351 38 9 8 2506 63 2407 56 10 7 2543 65 2464 57 11 6 2616 66 2539 75 12 5 2660 67 2634 96 13 4 2965 73 2830 195 14 3 3080 73 3078 248 15 2 3737 75 3736 658 16 1 4937 92 4936 1200 Jako drzewo właściwej wielkości wybierane jest drzewo o najmniejszym rozmiarze, którego koszty sprawdzianu krzyżowego (CV) będą nie większe od najmniejszych (w całej sekwencji drzew) kosztów sprawdzianu krzyżowego powiększonych o wartość jednego błędu standardowego (CVse) tych kosztów. Mamy więc: 2231+59 = 2290. Warunek ten spełniało drzewo nr 3.
Przykłady drzew regresyjnych Szacowanie cen mieszkań na lokalnym rynku nieruchomości w Olsztynie Drzewo 6 dla Cena zł/m2 Liczba węzłów dzielonych: 9, liczba węzłów końcowych: 10 ID=1 N=270 Śr=4385,420296 Var=424890,649904 Powierzchnia <= 45,500000 > 45,500000 ID=2 N=66 ID=3 N=204 Śr=5072,203333 Var=311834,295831 Ulica = WAŃKOWICZA,... = Inne ID=4 N=25 ID=5 N=41 Śr=4163,225784 Var=259497,882726 Ulica = WAŃKOWICZA,... = Inne ID=8 N=116 ID=9 N=88 Śr=4705,740000 Śr=5295,656585 Var=218562,455208 Var=236888,589954 Śr=3982,339655 Var=259725,610745 Powierzchnia <= 53,500000 > 53,500000 ID=10 N=47 ID=11 N=69 Śr=4401,666591 Var=159213,043009 Piętro = IV... = Inne ID=24 N=24 ID=25 N=64 Śr=4237,815319 Var=271764,744004 Data transakcji <= 39472,500000 > 39472,500000 ID=12 N=1 ID=13 N=46 Śr=3808,320000 Var=176784,414377 Data transakcji <= 39736,500000 > 39736,500000 ID=18 N=51 ID=19 N=18 Śr=4129,777083 Śr=4503,625156 Var=169838,936537 Var=117111,319766 Śr=2474,000000 Var=0,000000 Śr=4276,159130 Var=208571,023617 Śr=3928,777647 Var=148330,055642 Śr=3467,023333 Var=99809,889367 Ulica Piętro = WAŃKOWICZA,... = Inne = II,... = Inne ID=14 N=16 ID=15 N=30 ID=20 N=22 ID=21 N=29 Śr=4549,723750 Śr=4130,258000 Śr=4146,771364 Śr=3763,403103 Var=104817,568286 Var=202705,672689 Var=161672,926803Var=74808,526456
Przykłady drzew regresyjnych Szacowanie cen działek budowlanych na lokalnym rynku nieruchomości w Zielonkach Drzewo 17 dla Cena jednostkowa [zł/m 2 ] Liczba węzłów dzielonych: 4, liczba węzłów końcowych: 5 ID=1 N=109 Śr=223,370585 Var=3879,989825 PRZYŁĄCZE WODOCIĄGOWE = 1 (istnieje) = 0 (brak) ID=2 N=87 ID=3 N=22 Śr=246,621969 Var=1949,873957 Śr=131,421931 Var=920,232269 PRZYŁĄCZE GAZOWE = 1 (istnieje) = 0 (brak) ID=4 N=62 ID=5 N=25 Śr=262,526973 Var=1551,566840 Śr=207,177560 Var=754,450709 STRONA SPRZEDAJĄCA = 0 (os.prawna) = 1 (os. fizyczna) ID=6 N=2 ID=7 N=60 Śr=402,656321 Var=1161,929695 Śr=257,855994 Var=888,195569 PRZYŁĄCZE KANALIZACYJNE = 1 (istnieje) = 0 (brak) ID=8 N=31 ID=9 N=29 Śr=274,674848 Var=742,348625 Śr=239,877220 Var=418,482239
Drzewa decyzyjne w modelowaniu wady i zalety Prosta i bardzo czytelna interpretacja wyników Brak konieczności dokonywania założeń, co do natury związku pomiędzy predyktorami a zmienną zależną Przydatność w sytuacjach gdy wiedza a priori o tym, które zmienne są ze sobą powiązane i w jaki sposób jest niepewna i jedynie intuicyjna Możliwość oszacowania znaczenia poszczególnych predyktorów w procesie kształtowania się wartości modelowanej zmiennej Możliwość modelowania zależności nieliniowych i niemonotonicznych
Uczenie maszyn (metoda KNN) Predykcja dla nowego obiektu bazuje na porównaniu go ze zbiorem przykładowych (prototypowych) obiektów i wyszukaniu z nich k - najpodobniejszych Na ich podstawie szacuje się nieznaną wartość lub dokonuje klasyfikacji obiektu
Wybór liczby K K - jest to podstawowy parametr metody decydujący o jakości predykcji Parametr ten może być traktowany jak miara stopnia wygładzania danych. Przy małym K pojawi się duża zmienność predykcji Przy dużym K wystąpi uogólnienie predykcji K powinno być na tyle duże by zminimalizować możliwość błędnych klasyfikacji, ale też na tyle małe, by najbliżsi sąsiedzi byli dostatecznie bliskimi sąsiadami obiektu
Jak ustalić optymalną liczbę k najbliższych sąsiadów? Błąd sprawdzianu krzyżowego 4,5E5 4,4E5 4,3E5 4,2E5 4,1E5 4E5 3,9E5 3,8E5 3,7E5 3,6E5 3,5E5 3,4E5 3,3E5 3,2E5 3,1E5 3E5 2,9E5 Liczba najbliższych sąsiadów wz. Błąd sprawdzianu krzyżowego K Optymalne = 14 2,8E5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Liczba najbliższych sąsiadów
Data Mining (DM) Narzędzia data mining umożliwiają: dostęp do danych i ich hurtowni przygotowanie danych dla potrzeb data mining przeprowadzenie procesu data mining wizualizację, raportowanie i wykorzystanie wyników analiz W jednym projekcie DM możemy wykorzystać wiele metod (np. regresję, SSN, KNN i drzewa decyzyjne). Modele mogą następnie być wykorzystane do predykcji (wszystkie, bądź tylko najlepszy model lub kilka najlepszych z wielu modeli).
Projekty Data Mining łączenie wielu metod