TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE



Podobne dokumenty
PRZYKŁAD PROGNOZOWANIA Z WYKORZYSTANIEM METOD DATA MINING

TWORZENIE I STOSOWANIE MODELU DATA MINING ZA POMOCĄ PRZEPISÓW STATISTICA DATA MINER NA PRZYKŁADZIE WYKRYWANIA NADUŻYĆ

Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Tworzenie, zapisywanie oraz otwieranie pliku... 23

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

DATA MINING W STEROWANIU PROCESEM (QC DATA MINING)

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny

PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING

Dopasowywanie modelu do danych

Regresja linearyzowalna

PRZEWIDYWANIE WŁAŚCIWOŚCI PRODUKTU Z WYKORZYSTANIEM UCZENIA MASZYN

Jedną z ciekawych funkcjonalności NOLa jest możliwość dokonywania analizy technicznej na wykresach, które mogą być otwierane z poziomu okna notowań:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Rys.1. Technika zestawiania części za pomocą polecenia WSTAWIAJĄCE (insert)

SZYBKA ŚCIEŻKA OD BAZ DANYCH I LIMS DO RAPORTÓW, CZYLI STATISTICA ENTERPRISE W DZIAŁANIU

Prezentacja multimedialna MS PowerPoint 2010 (podstawy)

Tworzenie prezentacji w MS PowerPoint

PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK

5. Model sezonowości i autoregresji zmiennej prognozowanej

Przykład wykorzystania mechanizmów automatyzujących proces raportowania

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

TWORZENIE I ZARZĄDZANIE MODELAMI PROGNOSTYCZNYMI W STATISTICA ENTERPRISE

Szybki start SAMOOCENA W NOR-STA

ZASTOSOWANIE ARKUSZA KALKULACYJNEGO EXCEL DO ANALIZY ABC/XYZ

R o g e r A c c e s s C o n t r o l S y s t e m 5. Nota aplikacyjna nr 016 Wersja dokumentu: Rev. A. obecności w VISO

I. Program II. Opis głównych funkcji programu... 19

5.4. Tworzymy formularze

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Instrukcja zgłaszania błędu

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

ZASTOSOWANIE ARKUSZA KALKULACYJNEGO EXCEL DO ANALIZY ABC/XYZ

Próbny sprawdzian szóstoklasisty z Nową Erą

Szybki start SAMOOCENA W NOR-STA

Instrukcja instalacji programu serwisowego NTSN krok po kroku

6.4. Efekty specjalne

Podstawowe informacje potrzebne do szybkiego uruchomienia e-sklepu

Obliczenie kratownicy przy pomocy programu ROBOT

3.7. Wykresy czyli popatrzmy na statystyki

Makropolecenia w Excelu

Tworzenie płatności. Celem tego dokumentu jest opisanie, jak tworzyć płatności w Business Online włączając:

Instrukcja instalacji systemu

Nagrywanie Makr. Na karcie Dostosowywanie Wstążki zaznaczamy kartę Deweloper.

Instrukcja wprowadzania graficznych harmonogramów pracy w SZOI Wg stanu na r.

Makropolecenia w PowerPoint Spis treści

PRZYKŁAD WDROŻENIA KART KONTROLNYCH KROK PO KROKU

Piotr Dynia. PowerPivot. narzędzie do wielowymiarowej analizy danych

Narzędzie informatyczne wspomagające dokonywanie ocen pracowniczych w służbie cywilnej

2.5 Dzielenie się wiedzą

Ćwiczenie Zmiana sposobu uruchamiania usług

MODUŁ OFERTOWANIE INSTRUKCJA OBSŁUGI

PRZYKŁAD TWORZENIA KART KONTROLNYCH W STATISTICA

ZESTAW LABORATORYJNY I ZESTAW FARMACEUTYCZNY : Instrukcja instalacji

RF-graph 1.2 POMOC PROGRAMU

Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4

(aktualizacja 30 kwietnia 2018)

Kancelaria rozpoczęcie pracy z programem

Rozdział 8. Regresja. Definiowanie modelu

7.4 Automatyczne stawianie prognoz

Kontrola poprawności danych:

Dzienniki pozalekcyjne, nauczania indywidualnego, świetlicowe

Pracownia internetowa w każdej szkole (edycja Jesień 2007)

Temat: Organizacja skoroszytów i arkuszy

Kancelaria instalacja programu

PRZYGOTOWANIE DO SYNCHRONIZACJI Z BOOKING.COM

Kancelaria zmiany w programie czerwiec 2011

Po naciśnięciu przycisku Dalej pojawi się okienko jak poniżej,

Stosowanie, tworzenie i modyfikowanie stylów.

Zawartość. Wstęp. Moduł Rozbiórki. Wstęp Instalacja Konfiguracja Uruchomienie i praca z raportem... 6

STATISTICA ENTERPRISE JAKO PLATFORMA ANALITYCZNA DLA CAŁEJ ORGANIZACJI

Instrukcja importu dokumentów z programu Fakt do programu Płatnik

SPIS ILUSTRACJI, BIBLIOGRAFIA

Baza danych część 8. -Klikamy Dalej

Sposób tworzenia tabeli przestawnej pokażę na przykładzie listy krajów z podstawowymi informacjami o nich.

Instrukcja instalacji i obsługi programu Szpieg 3

Wprowadzenie do analizy dyskryminacyjnej

Część 3 - Konfiguracja

1. Instalacja Programu

Edytor tekstu OpenOffice Writer Podstawy

System imed24 Instrukcja Moduł Analizy i raporty

I Tworzenie prezentacji za pomocą szablonu w programie Power-Point. 1. Wybieramy z górnego menu polecenie Nowy a następnie Utwórz z szablonu

Program RMUA. Instrukcja konfiguracji i pracy w programie. (Wersja 2)

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania KOMPUTEROWE SYSTEMY STEROWANIA (KSS)

Papyrus. Papyrus. Katedra Cybernetyki i Robotyki Politechnika Wrocławska

Analiza zależności liniowych

Ćwiczenia nr 4. Arkusz kalkulacyjny i programy do obliczeń statystycznych

Karty pracy. Ustawienia. W tym rozdziale została opisana konfiguracja modułu CRM Karty pracy oraz widoki i funkcje w nim dostępne.

Instalacja i opis podstawowych funkcji programu Dev-C++

Kultywator rolniczy - dobór parametrów sprężyny do zadanych warunków pracy

Wprowadzenie do analizy korelacji i regresji

Konfiguracja oraz rejestracja czasu pracy dla pracowników służby zdrowia

Instalacja i obsługa aplikacji MAC Diagnoza EP w celu wykonania Arkusza obserwacji

5.2. Pierwsze kroki z bazami danych

Przykładowa konfiguracja konta pocztowego w programie Thunderbird z wykorzystaniem MKS 2k7 (MS Windows Vista Busissnes)

1. Instalacja certyfkatu OSX 10.9

Synchronizator plików (SSC) - dokumentacja

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

4. Średnia i autoregresja zmiennej prognozowanej

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

1 Wprowadzenie do koncepcji Microsoft Office BI 1 Zakres ksiąŝki 2 Cel ksiąŝki 3 Wprowadzenie do tematu 3 Zawartość rozdziałów 4

Transkrypt:

TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Badanie przebiegu rozmaitych wielkości w czasie w celu znalezienia zależności, wzorców i przewidywania przyszłych wartości może przynieść korzyści w niemal każdej dziedzinie, np. w administracji państwowej, zarządzaniu przedsiębiorstwem czy optymalizacji procesów produkcyjnych (przegląd zastosowań i podejść do tego zagadnienia znajduje się w podręczniku [1]). Niestety możliwe korzyści łączą się z dużymi trudnościami dotyczącymi: pozyskania i przygotowania danych: dane wymagają specyficznych przekształceń (opóźnień, różnicowań), często także scalenia i synchronizacji różnych źródeł, stworzenia odpowiedniego modelu; zależności są złożone. W niniejszym artykule przedstawimy przykład ilustrujący wykorzystanie STATISTICA Enterprise i STATISTICA Data Miner do prognozowania. Dane Naszym celem jest przewidywanie pewnej miary intensywności sprzedaży w ciągu jednej godziny w centrum handlowym. Dysponujemy danymi za okres od 9 stycznia do 31 lipca: łącznie jest to 3050 przypadków. Oprócz samej miary intensywności za daną godzinę dysponujemy również informacjami o tym, czy danego dnia obowiązywał jeden z dwóch rodzajów promocji oraz o intensywności działalności reklamowej w danym i poprzednim tygodniu. Dodatkowo wykorzystamy jeszcze informacje o czasie: dniu tygodnia i godzinie. W praktyce uzyskanie takich danych bywa kłopotliwe. Wymaga połączenia się z bazą transakcyjną, obliczenia miary intensywności sprzedaży w ciągu danej godziny oraz scalenia tych danych z informacjami o działalności reklamowej i promocjach. Przed rozpoczęciem modelowania musimy: Wyznaczyć opóźnione wartości miary intensywności sprzedaży, gdyż z doświadczenia wiadomo, że będą one bardzo użytecznym predyktorem. Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 81

Dołączyć dane kalendarzowe (np. informację, że dany dzień jest świętem). Obsłużyć sytuacje prowadzące do wystąpienia braków danych: w badanym okresie zdarzały się awarie systemu skutkujące brakiem zapisu danych w bazie, ponadto zmieniane były godziny otwarcia centrum handlowego. Podzielić dane na próbę uczącą i testową. Będziemy stosować metody data mining, które wymagają takiego podziału do oceny jakości modelu. Zastosujemy dla prognozowania standardowe podejście i jako próby testowej użyjemy ostatniego miesiąca, dla którego mamy zarejestrowane dane, tzn. lipca. Zadania te są pracochłonne, a ponadto wymagają znajomości różnych systemów oraz wiedzy informatycznej. Warto zauważyć, że prognozę będziemy chcieli uzyskiwać regularnie, a nie tylko jeden raz. W konsekwencji całe przygotowanie danych trzeba wykonywać wielokrotnie. Aby uniknąć powtarzania tych samych pracochłonnych czynności, można użyć systemu STATISTICA Enterprise. W systemie możemy zdefiniować odpowiednie zapytanie do baz danych oraz przekształcenia prowadzące do uzyskania zbioru danych. Wszyscy użytkownicy systemu uzyskają wtedy dostęp do potrzebnych danych jednym kliknięciem nawet bardzo złożone operacje na danych będą wykonywane automatycznie. Oprócz ułatwienia pracy osobom analizującym dane, mamy też ułatwienie stosowania modelu. Otóż zaimplementowana w systemie procedura przygotowania danych na potrzeby analizy, może być łatwo dostosowana do tworzenia zbioru danych, na którym będziemy stosować model, w celu wyznaczania wartości przewidywanych dla przyszłych obserwacji. W przykładzie skorzystamy z gotowej procedury tworzącej arkusz do analizy w programie STATISTICA. Po uruchomieniu programu przechodzimy na kartę Korporacyjne i naciskamy przycisk Uruchom analizę lub raport. Przywoła to okno z listą dostępnych dla nas konfiguracji danych i analiz. 82 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

Po wybraniu konfiguracji Monitorowanie program automatycznie utworzy arkusz danych do analizy i wyświetli go w środowisku STATISTICA. Możemy teraz rozpocząć analizę danych. Wstępna analiza Przed rozpoczęciem prognozowania dobrze jest przeprowadzić wstępną analizę danych, umożliwia nam to sprawdzenie jakości danych i ocenę wpływu zmiennych. Informacje uzyskane na tym etapie są nie tylko cenne same w sobie, ale pomagają również uzyskać lepszy model oraz uniknąć wielu pułapek i przykrych niespodzianek. Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 83

Zobaczmy najpierw, jaki jest przebieg zmiennej, której wartości chcemy przewidywać, tzn. zmiennej SpA. Wykorzystamy do tego celu wykres liniowy: aby go utworzyć na karcie Wykresy klikamy przycisk Liniowy, a potem w oknie definicji wykresu wskazujemy SpA jako zmienną dla wykresu. Powyżej widzimy przebieg zmiennej. Od razu widać, że nasze zadanie nie będzie łatwe: mamy bardzo duże i gęste wahania. Wartości szeregu zmieniają się od ok. 30 do nieco poniżej 120. Widać też, że dane są przygotowane do modelowania: w szeregu czasowym nie ma dziur (braków danych). Zobaczmy, czy nasze potencjalne predyktory wpływają na wartości szeregu. Zaczniemy od zmiennych jakościowych. Utworzymy dla nich wykresy średnia i błędy. Klikamy przycisk Średnie na karcie Wykresy i wybieramy zmienne: jako zmienną zależną wskazujemy SpA, a jako grupującą Godziny. Poniżej widzimy godzinowy profil sprzedaży. Na wykresie naniesione są wartości: średnia dla danej godziny i przedział ufności dla średniej. Przedziały ufności dla średnich dla większości godzin nie pokrywają się, są nawet zdecydowanie węższe niż różnice między średnimi wystarczy popatrzyć na godziny 6 i 7. Nie ma wątpliwości, że sprzedaż w różnych godzinach jest rzeczywiście różna. Oznacza to, że zmienną Godzina musimy uwzględnić w modelu i należy się spodziewać, iż będzie ona jednym z najważniejszych predyktorów. W podobny sposób sprawdzamy wpływ dnia tygodnia na sprzedaż. Poniżej widzimy wykres przedstawiający zależność sprzedaży od dnia tygodnia. Wpływ dnia tygodnia jest również bardzo silny, chociaż nie aż tak mocny jak w przypadku godzin. Największą średnią wartość zmiennej SpA mamy dla soboty i wynosi około 75, z kolei najmniejsza średnia wartość jest dla poniedziałku i wynosi około 65. 84 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

Mamy jeszcze dwie zmienne jakościowe Promocja_A i Promocja _B informujące, czy w danym czasie obowiązywał jeden z dwóch rodzajów promocji. Na poniższych wykresach średnich widzimy, jak wpływają one na sprzedaż. Jak widać, Promocja_A wywiera wpływ na sprzedaż: jej obecność powoduje wyraźny wzrost, natomiast nie ma żadnych oznak, aby Promocja_B wpływała w istotny sposób na sprzedaż. W zbiorze danych znajdują się jeszcze trzy predyktory ilościowe: SpA_op: wartość miary sprzedaży z poprzedniego tygodnia, Reklama: miara intensywności reklamy za bieżący tydzień, ReklamaPT: miara intensywności reklamy za poprzedni tydzień. Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 85

Związki miedzy predyktorami ilościowymi a zmienną zależną zbadamy, wykorzystując wykres rozrzutu (diagram korelacyjny). Zaczniemy od zależności między miarą sprzedaży na daną godzinę, a jej wartością dla tej samej godziny, ale tydzień wcześniej. Wykres pokazuje silną zależność. Współczynnik korelacji między zmiennymi wynosi 0,84 i jest istotny statystycznie. Opóźniona miara sprzedaży na pewno przyda się nam przy przewidywaniu. Powyżej widzimy wykresy rozrzutu dla miary sprzedaży i wydatków na reklamę. Tym razem sytuacja nie jest tak klarowna. Współczynniki korelacji są co prawda istotne statystycznie, ale niewielkie: 0,1488 i 0,113. Wstępna analiza danych daje nam ogólne informacje o stanie przebiegu sprzedaży i ogólnych zależnościach. W praktyce bardzo często będziemy chcieli tworzyć tego typu wykresy wielokrotnie i w miarę możliwości automatycznie. Wyniki takie będą potrzebne 86 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

wielu osobom, niekoniecznie biegłym w obsłudze specjalistycznego narzędzia do analizy danych. W STATISTICA Enterprise możemy zapisać analizę lub wykres, udostępnić go innym osobom, a także ustawić automatyczne tworzenie wyników w zadanych odstępach czasu. Wystarczy w tym celu kliknąć prawym klawiszem myszy przycisk analizy na dole okna programu, a potem z menu podręcznego wybrać polecenie Utwórz makro (zob. rysunek poniżej). Na ekranie pojawi się okno z makrem STATISTICA Visual Basic. Zapiszemy je teraz w systemie jako tzw. konfigurację analizy. Na kacie Korporacyjne wstążki naciskamy przycisk Wdróż makro. Przywoła to okno Wybierz konfigurację danych, w którym wskazujemy dane do analizy. Wybieramy konfigurację Modelowanie i klikamy OK. W kolejnym oknie określamy uprawnienia do analizy i jej lokalizację. Na koniec nadajemy analizie nazwę, np. Wstępna analiza i to wszystko. W ten sposób dosłownie kilkoma kliknięciami utworzyliśmy szablon analizy, z którego mogą łatwo korzystać wszyscy uprawnieni użytkownicy: aby uzyskać potrzebne im wyniki, wystarczy, że wybiorą analizę z listy: nie muszą w ogóle zajmować się szczegółami technicznymi dotyczącymi pobierania i przygotowania danych oraz specyfikacji analizy. Warto zwrócić uwagę, iż tak utworzona konfiguracja analizy może dostarczać wyników dla automatycznie tworzonego raportu, zapisywanego w pliku (np. PDF lub HTML) lub udostępnianego w portalu STATISTICA Knowledge Portal (dostępnym w STATISTICA Enterprise Server). Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 87

Aby wykonać zdefiniowaną w ten sposób analizę, klikamy przycisk Uruchom analizę lub raport na karcie Korporacyjne wstążki i wybieramy ją z listy. Tworzenie modelu prognostycznego Po wstępnej analizie możemy rozpocząć tworzenie modelu. Wykorzystamy drzewa wzmacniane (ang. boosted trees). Jest to jedna z najskuteczniejszych metod modelowania, 88 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

łącząca możliwość odtworzenia bardzo złożonych zależności z szybkością i odpornością na niską jakość danych. Drzewa wzmacniane to zespół prostych modeli (drzew), przy czym każdy kolejny model tworzony jest na próbie, w której coraz większa waga przypisywana jest obserwacjom, dla których dotychczasowe modele miały największy błąd. Więcej szczegółów o drzewach wzmacnianych znajduje się w podręcznikach [2] i [3], a przykład ich stosowania w artykule [4]. Modelowanie uruchamiamy za pomocą przycisku Wzmacniane drzewa na karcie Data mining. Następnie jako typ analizy wybieramy Zadanie regresyjne. Na ekranie pojawi się okno określania analizy. Klikamy w nim przycisk Zmienne, po czym wskazujemy zmienne, tak jak na rysunku poniżej. Określimy teraz próbę testową i uczącą. Przechodzimy na kartę Więcej i naciskamy przycisk Sprawdzian krzyżowy. Jako identyfikator prób wybieramy zmienną Próba, a jako kod dla próby uczącej U. Zaznaczamy jeszcze przycisk Włączony w grupie Stan. Po dwukrotnym kliknięciu OK program rozpocznie poszukiwanie modelu. Uczenie zostanie zatrzymane, gdy znaleziona zostanie liczba modeli składowych (drzew), przy której mamy najmniejszy błąd w próbie testowej. Na rysunku poniżej widzimy, jak zmieniał się błąd w próbie testowej wraz z liczbą drzew składowych. Błąd wydaje się stabilizować w okolicach 180 drzew, a jako optymalną liczbę drzew program wybrał 183. Po zakończeniu uczenia przechodzimy do oceny naszego modelu. Na ekranie pojawi się okno wyboru wyników. Zaczniemy od sprawdzenia, jak silny wpływ wywierają poszczególne predyktory na zmienną zależną. Warto podkreślić, że ocena ta uwzględnia zależności Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 89

wielowymiarowe i nieliniowe, w odróżnieniu od współczynnika korelacji, wyznaczanego podczas wstępnej analizy. Najłatwiej ocenić siłę wpływu predyktorów na wykresie. Aby go utworzyć, naciskamy przycisk Wykres słupkowy ważności. Wyniki są zgodne z tym, co uzyskaliśmy podczas wstępnej analizy. Mamy bardzo silny wpływ sprzedaży z poprzedniego tygodnia (SpA_op) i godziny. Natomiast zmienna Promocja_B nie wpływa na modelowaną zmienną. 90 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

Przy ocenie modelu najważniejsze jest to, jak działa on na próbie testowej. Poniżej widzimy wykres wartości przewidywanych względem obserwowanych (tworzymy go za pomocą odpowiedniego przycisku na karcie Predykcja okna Wyniki drzew wzmacnianych). Widać, że model do pewnego stopnia odtwarza przebieg szeregu na pewno jest lepszy niż zgadywanie. Mamy jednak trzy wyraźnie odstające punkty z bardzo dużym błędem (dla wartości obserwowanej między 30 a 40 i przewidywanej między 50 a 60). Ponadto mamy pewien problem z przewidywaniem dużych wartości powyżej 80 wydaje się, że model zaniża wtedy prognozę. Spróbujemy nieco zmienić ustawienia modelu. W przypadku drzew wzmacnianych na jakość modelu najczęściej wpływa parametr Maksymalna liczba węzłów. Zmienimy ją z domyślnej wartości 3 na 7. Przy takich ustawieniach optymalny model składa się z 53 drzew. Na wykresie przewidywanych względem obserwowanych widać, że zniknął problem z trzema odstającymi Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 91

punktami w dolnym lewym rogu wykresu. Niestety jednak nadal nie jesteśmy w stanie dokładnie przewidywać największych wartości. Trzeba jednak zauważyć, że dysponujemy stosunkowo krótkim szeregiem: nie obejmuje on nawet jednego pełnego roku i dlatego np. nie jesteśmy w stanie ocenić wpływu wakacji i sezonowości rocznej. Ponadto mamy dosyć ograniczone informacje o zewnętrznych czynnikach wpływających na sprzedaż. Oceńmy nasz model dokładniej. W tym celu za pomocą przycisku Zapisz przewidywane na karcie Predykcja tworzymy arkusz z wartościami przewidywanymi i obserwowanymi. Następnie uruchamiamy dla niego moduł Dobroć dopasowania. W poniższej tabeli znajdują się miary błędu modelu wyznaczone w tym module. Miara błędu Wartość Średnia kwadratów reszt 29,4 Średni błąd bezwzględny 4,3 Względne odchylenie przeciętne 0,0645 Współczynnik korelacji 0,940 Widać, że model jest całkiem niezły: mamy współczynnik korelacji przewidywane obserwowane równy 0,94, a średnio mylimy się o około 6,5%. Możemy nasz model porównać z najprostszym modelem: tzn. przyjęciem jako wartości prognozowanej średniej w próbie uczącej. Model średniej ma względne odchylenie przeciętne około 13,9% jest to ponad dwukrotnie więcej niż dla drzew wzmacnianych. Na wykresie poniżej widzimy przebieg wartości obserwowanych i przewidywanych. Widać, że model oddaje ogólny wzorzec zmian. 92 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

Wdrożenie modelu Po ocenie i przyjęciu modelu przechodzimy do jego stosowania. Również to zadanie ułatwia nam system STATISTICA Enterprise. W oknie Wyniki drzew wzmacnianych przechodzimy na kartę Raport. Naciskamy przycisk Generator kodu i z listy wybieramy Wdrożenie w STATISTICA Enterprise. Na ekranie Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 93

pojawi się okno Wdrożenie w STATISTICA Enterprise. Wybieramy w nim pozycję Nowa konfiguracja analizy, po czym naciskamy Dalej. Zauważmy, że do dyspozycji mamy jeszcze zapisanie modelu m.in. w postaci kodu C, C++, Java (umożliwia to m.in. stosowanie modelu bezpośrednio w bazie Oracle) i procedury składowanej C# (do zastosowania w bazie MS SQL Server). W kolejnym oknie wskazujemy dane, na podstawie których będzie obliczana prognoza. W naszym przypadku jest to konfiguracja Przewidywanie. 94 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

Kolejny krok to nazwanie analizy, wyznaczającej wartości prognozowane. Nazwijmy ją Prognoza. Kolejne kroki to określenie uprawnień i przypisanie analizy do odpowiedniego miejsca w systemie. Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 95

W ten sposób stworzymy w systemie konfigurację analizy, z której będą mogli korzystać wszyscy uprawnieni użytkownicy. W bardzo łatwy sposób dosłownie jednym kliknięciem będą oni mogli uzyskiwać prognozy i na ich podstawie podejmować decyzje. Podsumowanie Niniejszy przykład stanowi ilustrację możliwości STATISTICA Enterprise i STATISTICA Data Miner w prognozowaniu. Zobaczyliśmy jak wspomagają one: pobieranie danych, wstępną analizę i automatyzację raportów, tworzenie modelu z wykorzystaniem zaawansowanego narzędzia modelowania, ocenę modelu, stosowanie modelu dla nowych danych. Oczywiście nie przedstawiliśmy wszystkich możliwości STATISTICA Enterprise i STATISTICA Data Miner (np. opis innego sposobu tworzenia modelu wykorzystującego przestrzeń roboczą data mining i więcej metod modelowania można znaleźć w [4]), ale staraliśmy się pokazać najważniejsze, praktyczne korzyści, jakie daje stosowanie tych narzędzi. Literatura 1. Dittmann P., Prognozowanie w przedsiębiorstwie. Metody i ich zastosowanie, Wolters Kluwer Polska, 2008. 2. Hastie T., Tibshirani R., Friedman J., The Elements of Statistical Learning, Springer- Verlag, 2009. 3. Koronacki J., Ćwik J., Statystyczne systemy uczące się, Wydawnictwo Naukowo- Techniczne, 2005. 4. Demski T., Przykład prognozowania z wykorzystaniem metod data mining, [w:] STATISTICA 8 bliżej Ciebie, StatSoft Polska, 2007 (artykuł dostępny na stronie http://www.statsoft.pl/czytelnia/). 96 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011