WYKORZYSTANIE SKORINGU MARKETINGOWEGO DO OPTYMALIZACJI KAMPANII SPRZEDAŻOWYCH
|
|
- Agata Maciejewska
- 9 lat temu
- Przeglądów:
Transkrypt
1 WYKORZYSTANIE SKORINGU MARKETINGOWEGO DO OPTYMALIZACJI KAMPANII SPRZEDAŻOWYCH Grzegorz Migut, StatSoft Polska Sp. z o.o. Znajomość wzorców zachowania klientów oraz czynników, jakie na nie wpływają, jest jednym z krytycznych warunków sukcesu każdej kampanii sprzedażowej. Bardzo pomocne w poznawaniu klientów są narzędzia służące do zgłębiania danych (data mining). Wykorzystanie tych technik jest szczególnie warte polecenia w sytuacji, gdy dysponujemy dużą liczbą cech każdego z klientów, takich jak: dane demograficzne klienta, historia jego transakcji itp. Dzięki analizie tych danych możemy odkryć ukryte, nieznane wcześniej zależności oraz zidentyfikować reguły zachowań klientów niemożliwe do wykrycia w inny sposób. Jednym z najczęściej stosowanych podejść do optymalizacji kampanii marketingowych jest stworzenie modelu wskazującego klientów, do których warto skierować ofertę. Model taki tworzymy za pomocą technik zgłębiania danych na podstawie danych o klientach. Celem budowy modelu jest określenie, jaki produkt powinien zostać zaoferowany konkretnemu klientowi i jaki jest najlepszy kanał komunikacji z klientem. Modele te określamy mianem modeli skoringowych, ponieważ rezultatem ich działania jest ocena (scoring) szansy zakupu przez danego klienta określonego produktu. Ocena ta może zostać wyrażona w formie prawdopodobieństwa bądź punktacji im wyższa ocena, tym większa skłonność klienta do zakupu. 24 Modele skoringowe budowane są na podstawie zachowań innych klientów w przeszłości. Wykorzystując dane historyczne zawierające cechy naszych bądź innych klientów (mogą to być zarówno cechy demograficzne, jak i behawioralne) oraz zmienną informującą o fakcie zakupu interesującego nas produktu, model określa wzorce zachowań klientów. Jeśli wzorce wychwycone przez model okażą się wartościowe, możemy je następnie zastosować dla nowych klientów. Model wskaże najbardziej odpowiednią grupę docelową planowanej kampanii (osoby z największą skłonnością do zakupu określonego produktu). Ogólny schemat budowy tego typu modeli przedstawia poniższy rysunek. 24 Modele skoringowe są wykorzystywane również do szeregu innych zadań, takich jak: przewidywanie odejść klientów, wykrywanie nadużyć czy ocena wiarygodności kredytowej. Copyright StatSoft Polska
2 W niniejszym artykule zaprezentowany zostanie przykład budowy modelu skoringowego przy użyciu regresji logistycznej oraz drzew wzmacnianych. Następnie modele te ocenimy pod kątem ich zdolności do przewidywania zachowania klientów i określimy optymalny punkt odcięcia dla lepszego z nich. Budowa modelu skoringowego Przykład budowy modelu skoringowego przewidującego skłonność klientów do zakupu zaprezentujemy na podstawie nieco zmienionego zbioru CREDIT dostępnego z podręcznikiem [3]. Dane zawierają informacje o potencjalnych klientach (w większości są to różnego rodzaju wskaźniki opisujące aktywność klientów) wraz z informacją, czy klient dokonał zakupu karty kredytowej. Naszym zadaniem jest stworzenie modelu, który na podstawie cech klientów będzie w stanie przewidzieć ich odpowiedź na ofertę. Interesuje nas nie tylko samo przewidywanie decyzji klientów, ale również wiedza dotycząca czynników najmocniej wpływających na odpowiedź na ofertę oraz wzajemnych związków między zmiennymi; innymi słowy, chcemy wychwycić wzorce zachowań klientów. Dysponujemy danymi o osobach, którym zaproponowano kartę kredytową. W zbiorze znajduje się 39 zmiennych (cech potencjalnych klientów), na podstawie których będziemy chcieli przewidywać odpowiedź na ofertę. Zmienne te są predyktorami w naszej analizie. Zmienną zależną jest zmienna Buyer przyjmująca dwie wartości: T (klient zakupił kartę) i N (negatywna odpowiedź na ofertę). Wstępna analiza danych Przed przystąpieniem do zasadniczej części analizy konieczne jest bliższe zapoznanie się z analizowanymi danych w celu określenia ich charakteru, skali pomiaru oraz rozkładów Copyright StatSoft Polska 2009
3 poszczególnych zmiennych, a także występowania w zbiorze danych błędów i problemów koniecznych do usunięcia przed etapem analizy. Wstępna analiza zbioru danych została wnikliwie zaprezentowana w [1], w niniejszym artykule ograniczymy się do kilku aspektów szczególnie istotnych w kontekście budowy modeli skoringowych. Na tym etapie analizy przedmiotem naszego zainteresowania będzie: usunięcie ze zbioru danych cech niewykazujących zmienności, obsługa braków danych, eliminacja zmiennych nadmiernie skorelowanych z innymi zmiennymi (wejściowymi) eliminacja zmiennych, które nieistotnie wpływają na skłonność do zakupu karty kredytowej, dyskretyzacja zmiennych podział zmiennych na jednorodne kategorie z punktu widzenia szansy zakupu. Zmienne niewykazujące zmienności często występują w analizowanych zbiorach danych. Ich obecność może wynikać z analizy grupy jednorodnej pod względem danego czynnika (np. analizujemy jedynie mężczyzn, płeć będzie więc wartością stałą), bądź też braku dostatecznej pielęgnacji bazy danych i występowania w niej kolumn wypełnianych zawsze domyślnymi wartościami. Oczywiście zmienne (stałe) nie wnoszą żadnej informacji do modelu, w związku z tym zasadne jest ich usunięcie. By usunąć stałe zmienne, z menu Dane wybieramy opcję Czyszczenie danych, a następnie Usuń stałe zmienne. W wyświetlonym oknie Usuwanie stałych zmiennych wybieramy wszystkie zmienne i po naciśnięciu OK otrzymujemy arkusz, w którym usunięte zostały zmienne niewykazujące zmienności. Bardzo częstym problemem występującym w analizowanych zbiorach są braki danych. Ponieważ występują one także w naszym zbiorze, przed przystąpieniem do kolejnych punktów wstępnej analizy musimy jeszcze rozwiązać problem ich występowania i określić optymalny sposób ich obsługi. Aby ocenić skalę występowania braków danych, skorzystamy ze statystyk opisowych. Z menu Statystyka wybieramy Statystyki podstawowe Copyright StatSoft Polska
4 i tabele, a następnie opcję Statystyki opisowe. Po wybraniu wszystkich zmiennych na karcie Więcej wybieramy opcję %Ważnych i zatwierdzamy wykonanie analizy. W powyższej tabeli widzimy fragment wyników dotyczący zmiennych z brakującymi danymi. Możemy zauważyć, że cztery pierwsze zmienne EQLIMIT, EQBAL, EQHIHGBAL, EQCURBAL są wypełnione w bardzo niewielkim stopniu (poniżej 5%) dlatego też usuniemy je ze zbioru danych. 25 Z kolei sześć ostatnich zmiennych ma odsetek braków danych nie większy niż 5%. Ponieważ odsetek braków danych jest stosunkowo niewielki, zastąpienie ich odpowiednią stałą wartością (w naszym przypadku będzie to mediana) jedynie w niewielkim stopniu wpłynie na zmianę rzeczywistego rozkładu tych zmiennych. W przypadku pozostałych zmiennych, których wartości wypełnione są od 8,14% do 82,03%, ryzykownym byłoby zastępowanie braków danych średnią bądź medianą ze względu na ryzyko znaczącego zniekształcenia rozkładów analizowanych zmiennych. By zastąpić braki tych zmiennych, powinniśmy skorzystać z bardziej wyrafinowanych metod imputacji braków danych na przykład wybierając metodę k-najbliższych sąsiadów bądź też przeprowadzić dyskretyzację tych zmiennych, definiując brak danych jako odrębną kategorię. Ponieważ w dalszej części analizy wykonamy dyskretyzację zmiennych, braki danych zastąpimy wartością -1, która jest wartością spoza zakresu zmienności wszystkich zmiennych. Po usunięciu zmiennych, w których braki danych stanowiły ponad 95% przypadków, zajmiemy się grupą zmiennych o znikomym odsetku braków danych. Za pomocą opcji Zamiana braków danych z menu Dane -> Czyszczenie danych zamienimy braki danych 25 W sytuacji, gdy nasz zbiór danych zawiera znaczną liczbę tego typu cech, możemy pokusić się o analizę tych zmiennych, przygotowując jedną bądź kilka zmiennych pochodnych, zawierających kombinację wartości zmiennych pierwotnych. Więcej na temat analizy tego typu danych można znaleźć w [3] Copyright StatSoft Polska 2009
5 odpowiednich zmiennych medianą (w analogiczny sposób postąpimy ze zmiennymi o znacznym odsetku braków, które zamienimy stałą wartością). Kolejne kroki analizy wykonamy w Zestawie Skoringowym STATISTICA, narzędziu przygotowanym specjalnie w celu optymalizacji procesu budowy, oceny i monitorowania modeli skoringowych. 26 W pierwszej kolejności użyjemy modułu Wybór predyktorów, który pozwoli nam wyróżnić w zbiorze danych wiązki zmiennych o podobnej zmienności, jednocześnie pozwalając wyeliminować ze zbioru danych zmienne nadmiernie skorelowane z innymi predyktorami. W kolejnym kroku wyeliminujemy zmienne nieistotnie wpływające na skłonność do zakupu karty. Z menu Zestaw Skoringowy wybieramy opcję Wybór predyktorów, a następnie na karcie Wybór reprezentantów klikamy Zmienne, aby wybrać zmienne do analizy i wybieramy wszystkie zmienne ilościowe. Po zatwierdzeniu ustawień analizy wykonana zostanie analiza czynnikowa z rotacją czynników (Varimax znormalizowana). Analiza spowoduje wyodrębnienie niezależnych czynników (wymiarów) zmienności oraz przypisze do tych czynników te zmienne, które będą najmocniej z nimi korelowały. Dzięki temu analizowane zmienne pogrupowane zostaną w wiązki podobnych (w sensie korelacji) zmiennych, które zostaną przypisane do odpowiedniego czynnika. Korelację pomiędzy wyodrębnionym czynnikiem a pierwotną zmienną nazywamy ładunkiem, wartość ładunku pozostawiamy na poziomie 0,7. Jeśli dana 26 Więcej informacji na temat Zestawu Skoringowego zamieszczono w końcowej części artykułu. Copyright StatSoft Polska
6 zmienna koreluje z wyodrębnionym czynnikiem mocniej niż określona wartość, traktowana będzie jako reprezentanta danego czynnika. W poniższym oknie widzimy listę wyodrębnionych czynników oraz zmienne, jakie weszły do grupy reprezentantów danego czynnika (Ładunek powyżej 0,7) Copyright StatSoft Polska 2009
7 Następnie na podstawie korelacji pomiędzy poszczególnymi zmiennymi wchodzącymi w skład reprezentantów możemy usunąć niektóre zmienne bez ryzyka utraty informacji o badanym zjawisku. Przykładowo zobaczmy macierze korelacji zmiennych wchodzących w skład czynnika 4 i 6. W obydwu przypadkach widzimy bardzo wysoką korelację pomiędzy zmiennymi, pozwalającą na bezpieczną eliminację po jednej zmiennej z obydwu par. Aby usunąć zmienne, odznaczamy pole Uwzględnij w wierszach odpowiadających tym zmiennym, a następnie klikamy Podzbiór, by wygenerować zbiór danych bez usuniętych zmiennych. 27 Procedura ta jest bardzo przydatna, zwłaszcza w sytuacji, gdy nasz zbiór danych zawiera bardzo dużą liczbę wskaźników na przykład finansowych, które są ze sobą mocno skorelowane, a ich liczba uniemożliwia efektywną analizę globalnej macierzy korelacji. Kolejnym krokiem naszej analizy będzie eliminacja zmiennych, które nieistotnie wpływają na skłonność do zakupu karty. Do oceny siły wpływu poszczególnych predyktorów również użyjemy procedur zaimplementowanych w module Wybór predyktorów wchodzącym w skład Zestawu Skoringowego. Aby ocenić predyktory, przechodzimy na kartę Ranking predyktorów, a następnie wybieramy zmienne do analizy. 27 Klikając przycisk Skrypt, możemy wygenerować makro selekcji zmiennych, którego uruchomienie wykona analogiczną czynność - STATISTICA zawiera zaimplementowany język makr oparty na Visual Basic zgodny z językiem makr pakietu Office Copyright StatSoft Polska
8 Zmienną zależną będzie zmienna BUYER, a pozostałe zmienne zmiennymi niezależnymi (wybieramy je na dwóch listach w zależności od skali pomiaru). Ranking predyktorów wykonany zostanie na podstawie miar IV (Information Value) oraz V Cramera. Ponieważ braki danych pewnej grupy zmiennych zastąpiliśmy wartością 1, wskażemy ją teraz jako wartość nietypową, tak by uwzględnić również możliwość wpływu braku danych na skłonność do zakupu karty. Po zatwierdzeniu analizy otrzymujemy gotowy ranking predyktorów. Widzimy, że przy zastosowaniu kryterium IV zmienną, która najmocniej wpływa na skłonność do zakupu karty, jest zmienna BEACON, inne istotne zmienne to DOB_MONTH oraz DAS. Kolejne zmienne wpływają na skłonność do zakupu karty w coraz mniejszym stopniu. Przyjmijmy kryterium odrzucenia zmiennych z dalszej analizy (tym samym uznania ich za nieistotne), gdy wskaźnik IV jest mniejszy od 0,4. Kryterium to określamy w obszarze Nie uwzględniaj, a następnie klikamy Usuń, co spowoduje odznaczenie opcji Uwzględniaj na liście predyktorów dla tych cech, które nie spełniają podanego warunku. Usunięcie nieistotnych zmiennych zawęziło liczbę potencjalnych predyktorów do 15. Na ich podstawie w kolejnych etapach analizy będziemy budowali końcowy model. Aby ograniczyć zbiór danych tylko do istotnych predyktorów, klikamy przycisk Podzbiór podobnie jak w przypadku wyboru reprezentantów Copyright StatSoft Polska 2009
9 0,40 Ranking predyktorów Kryterium: IV 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 BEACON DOB_MONTH DAS HOME_VALUE YEARS_RES PRCNT_PROF HOME_INC HOME_ED RBAL_LIMIT BCBAL ROPEN MTCURBAL MOF RBALNO LST_R_OPEN IV Ostatni krok wstępnej analizy danych to dyskretyzacja zmiennych. Naszym celem będzie wyróżnienie w każdej ze zmiennych pewnych grup jednorodnych ze względu na szansę zakupu karty kredytowej i na tej podstawie przygotowanie zmiennych pochodnych, które będą wykorzystane do finalnej analizy. Copyright StatSoft Polska
10 Analiza ta pozwoli nam lepiej zrozumieć charakter analizowanych zmiennych, wygładzić szumy, jakie występują w danych, a także wyeliminować negatywny wpływ obserwacji odstających. Co ważne, w sposób naturalny obsłużone zostaną braki danych. Aby przygotować profile zmiennych, skorzystamy z modułu Dyskretyzacja zmiennych zawartego w Zestawie Skoringowym. W oknie Dyskretyzacja zmiennych wskazujemy zmienną BYUER jako zmienną stanu, natomiast dyskretyzację rozpoczniemy od zmiennej BEACON. Przed analizą określamy jeszcze klasę N zmiennej BUYER jako klasę negatywną (nie kupili kary kredytowej), a następnie dzielimy wartości zmiennej BEACON na percentyle. W oknie Przekoduj ilościowe klikamy przycisk Przekoduj, a następnie Raport, by wyświetlić raport dyskretyzacji. Dla każdej kategorii zmiennej BEACON obliczono miarę siły wpływu na skłonność do zakupu karty kredytowej Weight of Evidence (w polskiej nomenklaturze spotyka się niekiedy termin waga dowodu). Wyższe wartości WoE informują o wyższej skłonności do zakupu karty kredytowej Copyright StatSoft Polska 2009
11 Rozkład weight of evidence skategoryzowanej zmiennej:beacon WoE weight of evidence (-inf,714> (714,726> (726,735> (735,744> (744,752> (752,760> (760,767> (767,774> (774,781> (781,inf) Przykładowo na podstawie wykresu widzimy, iż najwyższą skłonność do zakupu karty wykazują osoby, dla których zmienna BEACON jest mniejsza od 714. Skłonność ta stopniowo zmniejsza się wraz ze wzrostem wartości zmiennej BEACON. Ponieważ cztery ostatnie kategorie mają w zasadzie taką samą wartość WoE, scalimy je do wspólnej kategorii. W oknie Przekoduj ilościowe w odpowiednich kategoriach zmiennej zaznaczamy pola wyboru, a następnie klikamy przycisk Scal. Po scaleniu profil zmiennej BEACON wygląda następująco: Rozkład weight of evidence skategoryzowanej zmiennej:beacon WoE weight of evidence (-inf,714> (714,726> (726,735> (735,744> (744,752> (752,760> (760,inf) Copyright StatSoft Polska
12 Przygotowany profil dyskretyzacji zapamiętujemy w pliku XML, który tworzymy za pomocą przycisku Skrypt. Podobne przekształcenia wykonujemy dla kolejnych zmiennych. Poniżej zamieszczono kilka przykładowych dyskretyzacji Rozkład weight of evidence skategoryzowanej zmiennej:ropen WoE weight of evidence (-inf,1> (1,2> (2,3> (3,4> (4,5> (5,6> (6,inf) W przypadku zmiennej ROPEN widzimy, że niektóre wartości generują dokładnie taką samą skłonność do zakupu. Bez straty informacji możemy scalić klasy z taką samą wartością WoE, otrzymując poniższy profil: 40 Rozkład weight of evidence skategoryzowanej zmiennej:ropen WoE weight of evidence -30 (-inf,2> (2,3> (3,5> (5,inf) Po scaleniu każda z kategorii charakteryzuje się inną wartością WoE Copyright StatSoft Polska 2009
13 Dyskretyzacja zmiennych, choć może osłabić moc predykcyjną poszczególnych zmiennych, niesie ze sobą zdecydowanie więcej korzyści: modele zbudowane na podstawie tak przygotowanych zmiennych są bardziej stabilne, podczas estymacji parametrów wykazują mniejszą skłonność do przeuczenia, dyskretyzacja w naturalny sposób rozwiązuje problem danych odstających (skrajne wartości trafiają po prostu do odpowiednich przedziałów) oraz braków danych (braki danych stanowią osobną kategorię, co pozwala uwzględnić ich możliwy wpływ na badane zjawisko). Dla przykładu poniżej widzimy profil dyskretyzacji zmiennej MCTURBAL, w którym brak danych (kategoria %-1%) wiąże się z największą dla tej zmiennej skłonnością do zakupu karty. 20 Rozkład weight of evidence skategoryzowanej zmiennej:mtcurbal WoE weight of evidence -40 (-inf,23457> (23457,68081> (68081,112000> (112000,inf) %-1% Dyskretyzacja zmiennych pozwala również wychwycić wiele błędów i sprzeczności występujących w danych oraz zidentyfikować zmienne anachroniczne, czyli zmienne, których wartości zostały określone już po fakcie zakupu karty. W naszym przykładzie taką zmienną okazała się być zmienna DOB_MONTH Zmienna ta wydaje się być bardzo neutralną zmienną, ponieważ określa miesiąc urodzenia posiadacza karty. Problemem jest jednak fakt, że miesiąc ten został uzupełniony po zakupie karty i wpis o nim mają jedynie posiadacze karty. Gdybyśmy chcieli uwzględnić tę Copyright StatSoft Polska
14 zmienną w naszym modelu, dla wszystkich osób, wobec których model byłby stosowany, wartość DOB_MONTH byłaby pusta, a model byłby bezużyteczny. Szacowanie parametrów modelu logitowego Po przygotowaniu zmiennych do analizy przechodzimy do fazy modelowania. Metodą, jakiej użyjemy w pierwszej kolejności, będzie regresja logistyczna. Dodatkowo dla celów porównawczych zbudujemy model za pomocą drzew wzmacnianych. Aby być zgodnym z zasadami budowy modeli predykcyjnych, podzielimy nasz zbiór danych na dwa podzbiory: uczący (Uczacy.sta), na którym oszacujemy parametry modelu, oraz testowy (Testowy.sta), na podstawie którego ocenimy dobroć dopasowania do zadanego problemu. Najwygodniej będzie nam to zrobić za pomocą opcji Podzbiór, znajdującej się w menu Dane. W oknie Utwórz podzbiór, losowy wybór przypadków zaznaczamy opcję Podziel na losowe podzbiory i określamy, by zbiór uczący zawierał 65% przypadków. Po zatwierdzeniu analizy nasz zbiór zostanie podzielony na dwa losowo określone podzbiory. Mniejszy z nich (około 5000 przypadków) odłożymy do celów testowych, natomiast większy (około 9000 przypadków) posłuży nam do oszacowania parametrów modelu Copyright StatSoft Polska 2009
15 By zbudować model logistyczny, z menu Zestaw Skoringowy wybieramy opcję Budowa tablicy skoringowej, a następnie wybieramy zmienne do analizy. Ponieważ będziemy chcieli zbudować model na podstawie dyskretyzowanych zmiennych, za pomocą przycisku Skrypty wczytujemy definicje dyskretyzacji zapisane w plikach XML. Po zatwierdzeniu wyboru zmiennych oraz profili dyskretyzacji przechodzimy do szczegółowych ustawień analizy, klikając OK. W oknie Regresja logistyczna tryb analizy klikamy Przekoduj, aby przygotować dyskretyzację (poszczególne wartości zostaną zamienione na odpowiadające im wartości WoE). 28 Po przekodowaniu zmiennych przechodzimy na kartę Zaawansowane i wybieramy opcję Krokowa wsteczna jako sposób budowy modelu, co pozwoli nam wykonać finalną eliminację zmiennych (z modelu odrzucone będą te zmienne, których oceny parametrów będą nieistotnie różnić się od 0). By oszacować parametry regresji logistycznej, klikamy przycisk dalej, po czym w oknie Wyniki regresji i parametry skali możemy przejrzeć uzyskane wyniki. W tabeli poniżej możemy zaobserwować wartości ocen parametrów regresji uzyskane w wyniku analizy. Raport Budowanie modelu umożliwia prześledzenie procesu doboru parametrów. Proces zakończył się już w drugiej iteracji, po odrzuceniu z modelu zmiennej RBALNO. 28 Klikając przycisk Zbiór danych, możemy wygenerować przekodowany zbiór danych, którego możemy użyć do budowy modeli skoringowych za pomocą innych metod (np. drzew klasyfikacyjnych, drzew wzmacnianych czy sieci neuronowych). Copyright StatSoft Polska
16 Możemy tak zbudowany model zapisać teraz do pliku PMML, by móc go stosować dla nowych danych za pomocą opcji Data Mining - Szybkie wdrażanie modeli predykcyjnych PMML. My jednak przekształcimy parametry modelu logistycznego do postaci karty skoringowej. W tym celu na karcie Parametry skali klikamy przycisk Przelicz, a następnie przycisk Dalej. W wyniku przekształcenia ocen parametrów regresji logistycznej otrzymujemy tablicę skoringową, w której poszczególnym kategoriom zmiennych modelu przypisano określoną liczbę punktów Copyright StatSoft Polska 2009
17 Budowa modelu drzew wzmacnianych Jako drugiej, konkurencyjnej metody budowy modelu skoringowego użyjemy modułu drzew wzmacnianych. Aby uruchomić moduł z menu Data mining, wybieramy opcję Wzmacniane drzewa klasyfikacyjne i regresyjne, następnie wybieramy typ analizy jako Zadanie klasyfikacyjne. 0,51 Podsumowanie wzmacnianych drzew Zm. zal.:buyer Optymalna liczba drzew: 199; Maksymalna wielkość drzewa: 3 0,50 Średnie odchylenie wielomianowe 0,49 0,48 0,47 0,46 0, Liczba drzew Dane uczące Dane testowe Optymalna liczba Copyright StatSoft Polska
18 W kolejnym kroku w oknie Ustawienia drzew wzmacnianych wskazujemy zmienne do analizy zmienna BUYER będzie podobnie jak w poprzednim przypadku zmienną zależną, pozostałe zmienne określamy jako predyktory ilościowe. Pozostałe parametry metody pozostawiamy na poziomie domyślnym i zatwierdzamy wykonanie analizy. Zbudowany model składa się z zespołu 199 prostych drzew klasyfikacyjnych. Analizując wykres przebiegu uczenia, widzimy, że chociaż błąd na danych testowych zaczął się stabilizować, kształt krzywej sugeruje, że zwiększenie liczby drzew może spowodować poprawę zdolności predykcyjnej modelu. Klikamy więc opcję Więcej drzew, w wyniku czego zbudowany model został powiększony do 380 drzew. Po wykonaniu modelu w oknie Wyniki drzew wzmacnianych przechodzimy na kartę Raport i klikamy przycisk Generator kodu i zapisujemy zbudowany model w postaci pliku PMML, który będziemy mogli stosować dla nowych danych. Po wygenerowaniu modelu zamykamy moduł drzew wzmacnianych. Ocena i porównanie modeli W celu oceny zbudowanych modeli otwieramy plik Testowy.sta, dla którego zastosujemy zbudowany model, generując odpowiedź modelu w postaci prawdopodobieństwa przynależności do grupy osób, które kupiły kartę. Aby zastosować model drzew wzmacnianych dla zbioru testowego, z menu Data Mining wybieramy opcję Szybkie wdrażanie modeli predykcyjnych PMML i wczytujemy skrypt PMML za pomocą polecenia Wczytaj modele. Następnie generujemy przewidywania Copyright StatSoft Polska 2009
19 modelu za pomocą przycisku Zapisz wartości lub klasy przewidywane i reszty. Po jego naciśnięciu otrzymujemy arkusz STATISTICA zawierający przewidywania modelu. 29 W kolejnym kroku z menu Zestaw Skoringowy wybieramy opcję Ocena modeli, a następnie wybieramy zmienną BUYER jako zmienną zależną oraz zmienną Drzewa wzmacniane zawierającą wynik modelu drzew. Za pomocą opcji Wczytaj wczytujemy dodatkowo model regresji logistycznej. Następnie na liście Modele zmieniamy Typ Wyjścia dla modelu drzew wzmacnianych na Prawdop., aby uwzględnić fakt, że wyniki działania modelu drzew zapisane są w postaci prawdopodobieństwa. Po zatwierdzeniu analizy w oknie Ocena modeli wyniki klikamy przycisk Wskaźniki, aby otrzymać podsumowanie jakości modeli. 29 Istnieje także możliwość zapisywania przewidywań modelu bezpośrednio do bazy danych za pomocą tabeli zdalnego przetwarzania (IDP). Copyright StatSoft Polska
20 1,0 Wykres Giniego porównanie 0,8 Skumulowany procent złych 0,6 0,4 0,2 0,0 0,0 0,2 0,4 0,6 0,8 1,0 Skumulowany procent dobrych Drzewa wzmacniane Regresja logistyczna Linia odniesienia Na podstawie wyliczonych wskaźników jakości stwierdzamy, że oba modele mają porównywalną jakość, jednak nieznacznie lepiej sprawdza się model drzew wzmacnianych. Poza statystyką KS (Kołmogorowa-Smirnowa) ma wyższe wszystkie wskaźniki dobroci dopasowania. 5,0 Przyrost (Lift) - porównanie 4,5 4,0 Przyrost (Lift) skumulowany 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Drzewa wzmacniane Regresja logistyczna Linia odniesienia Copyright StatSoft Polska 2009
21 Jego lepszą jakość potwierdza również wykres przyrostu (Lift), na którym widzimy większą wartość przyrostu dla pierwszych 30% osób z najwyższym prawdopodobieństwem zakupu. Dodatkowo dla modelu drzew wygenerujemy wykres zysku. Na jego podstawie możemy stwierdzić, że wysyłając ofertę do 45% naszych klientów dotrzemy do około 70% osób, które byłyby skłonne na nią odpowiedzieć. 100% 90% 80% Wykres zysku Skumulowany procent dobrych 70% 60% 50% 40% 30% 20% 10% 0% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Skumulowany procent ogółem Wybór punktu odcięcia Ostatnim elementem związanym z oceną modelu jest wybór optymalnego punktu odcięcia, czyli wskazanie wartości progowej skorinigu określonego przez model, powyżej której będziemy podejmować działanie. Osoby ze skoringiem poniżej tego punktu będą wyłączone z planowanej kampanii. Aby określić optymalny punkt odcięcia, użyjemy modułu Zarządzanie punktem odcięcia i wyznaczymy optymalny punkt odcięcia dla modelu drzew wzmacnianych. W oknie Zarządzanie punktem odcięcia wyniki przechodzimy na kartę Zysk, a następnie w obszarze Skoring vs kwota (średnia) określamy koszt dotarcia do klienta, który odrzuci naszą ofertę (20), oraz zysk, jaki spodziewamy się uzyskać dla osób, które ją zaakceptują (100). Po określeniu powyższych parametrów klikamy Raport, by wyświetlić podsumowanie analizy. Poniższy wykres przedstawia spodziewany zysk z kampanii w zależności od przyjętego punktu odcięcia. Analizując przebieg krzywej na wykresie, możemy stwierdzić, że najwyższy zysk z kampanii sprzedażowej osiągniemy, jeśli zastosujemy punkt odcięcia modelu na poziomie 0,387. Osoby ze skoringiem poniżej tej wartości nie powinny uczestniczyć w kampanii. Copyright StatSoft Polska
22 60000 Zysk według punktacji , ,991 0,878 0,818 0,759 0,702 0,648 0,594 0,54 0,486 0,432 0,378 0,324 0,27 0,216 0,159 Zestaw Skoringowy Zestaw Skoringowy STATISTICA jest dedykowanym zestawem narzędzi wspierających proces przygotowania i oceny modeli skoringowych, będącym dodatkiem do systemu STATISTICA Data Miner. Został zaprojektowany w oparciu o sprawdzone standardy przygotowania i oceny modeli skoringowych. Dzięki prostemu interfejsowi i logicznemu ukła Copyright StatSoft Polska 2009
23 dowi modułów pozwala szybko i intuicyjnie przejść przez cały proces przygotowania modelu skoringowego. Za jego pomocą użytkownicy mają możliwość budowania modeli na potrzeby skoringu marketingowego, kredytowego, wyłudzeń czy medycznego. Zestaw Skoringowy zawiera moduły umożliwiające: wybór zmiennych istotnie wpływających na badane zjawisko, narzędzia do dyskretyzacji zmiennych ilościowych i rekategoryzacji zmiennych jakościowych, budowy i oceny modeli skoringowych, wyboru optymalnego punktu odcięcia. Więcej informacji na temat Zestawu Skoringowego STATISTICA można znaleźć na stronie Literatura 1. Demski T. Model data mining przewidujący odpowiedź klientów na ofertę [w:] Data mining: poznaj siebie i swoich klientów, Materiały z seminariów StatSoft Polska, 2005, 2. Migut G. Wspomaganie kampanii sprzedaży krzyżowej (cross-selling) na przykładzie oferty banku [w:] Data mining: poznaj siebie i swoich klientów, Materiały z seminariów StatSoft Polska, 2005, 3. Pyle D., Data Preparation for Data Mining, Morgan Kaufmann, Copyright StatSoft Polska
PRZYKŁAD WYKORZYSTANIA MODELI SKORINGOWYCH W MEDYCYNIE
PRZYKŁAD WYKORZYSTANIA MODELI SKORINGOWYCH W MEDYCYNIE Grzegorz Migut, StatSoft Polska Sp. z o.o. Jednym z szerzej wykorzystywanych typów modeli statystycznych są modele klasyfikacyjne, gdzie modelowana
MODELE SKORINGOWE W BIZNESIE I NAUCE
MODELE SKORINGOWE W BIZNESIE I NAUCE Grzegorz Migut, StatSoft Polska Sp. z o.o. Jednym z szerzej wykorzystywanych typów modeli statystycznych są modele klasyfikacyjne, gdzie modelowana zmienna zależna
STATISTICA DATA MINER I STATISTICA ENTERPRISE SPOSÓB NA SZYBKĄ BUDOWĘ I WDRAŻANIE MODELI
STATISTICA DATA MINER I STATISTICA ENTERPRISE SPOSÓB NA SZYBKĄ BUDOWĘ I WDRAŻANIE MODELI Grzegorz Migut, StatSoft Polska Sp. z o.o. Modelowanie statystyczne staje się obecnie nieodzownym elementem wsparcia
WYKORZYSTANIE SKORINGU DO PRZEWIDYWANIA WYŁUDZEŃ KREDYTÓW W INVEST-BANKU
WYKORZYSTANIE SKORINGU DO PRZEWIDYWANIA WYŁUDZEŃ KREDYTÓW W INVEST-BANKU Bartosz Wójcicki Naczelnik Wydziału Analiz i Prewencji Przestępstw, Invest-Bank S.A. Grzegorz Migut StatSoft Polska Sp. z o.o. Problem
PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY
PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY Piotr Wójtowicz, Grzegorz Migut StatSoft Polska Jakie są różnice pomiędzy osobami prawidłowo regulującymi swoje zobowiązania a niechętnie spłacającymi swoje długi,
KREATOR REGRESJI LOGISTYCZNEJ
KREATOR REGRESJI LOGISTYCZNEJ Grzegorz Migut, StatSoft Polska Sp. z o.o. W niniejszym opracowaniu zaprezentowany zostanie przykład budowy modelu regresji logistycznej za pomocą Kreatora Regresji Logistycznej.
WYKORZYSTANIE MODELI SKORINGOWYCH I REGUŁ DO OPTYMALIZACJI PROCESÓW BIZNESOWYCH
WYKORZYSTANIE MODELI SKORINGOWYCH I REGUŁ DO OPTYMALIZACJI PROCESÓW BIZNESOWYCH Grzegorz Migut, StatSoft Polska Sp. z o.o. Modele skoringowe na trwałe wpisują się w kulturę organizacyjną coraz większej
JAK NIE OFEROWAĆ GRZEBIENI ŁYSYM, CZYLI MODELE PREDYKCYJNE W OPTYMALIZACJI KAMPANII SPRZEDAŻOWYCH
JAK NIE OFEROWAĆ GRZEBIENI ŁYSYM, CZYLI MODELE PREDYKCYJNE W OPTYMALIZACJI KAMPANII SPRZEDAŻOWYCH Grzegorz Migut, StatSoft Polska Sp. z o.o. W ostatnich latach bardzo dużą popularność zdobyły sobie strategie
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji
SKORING JAKO NARZĘDZIE WSPIERAJĄCE SPÓŁDZIELCZE KASY OSZCZĘDNOŚCIOWO-KREDYTOWE W SPEŁNIENIU NOWYCH WYMAGAŃ NADZORCZYCH
SKORING JAKO NARZĘDZIE WSPIERAJĄCE SPÓŁDZIELCZE KASY OSZCZĘDNOŚCIOWO-KREDYTOWE W SPEŁNIENIU NOWYCH WYMAGAŃ NADZORCZYCH Katarzyna Cioch, Towarzystwo Zarządzające SKOK Sp. z o.o. SKA Spółdzielcze kasy oszczędnościowo
BUDOWA MODELU SCORINGOWEGO DO E-POŻYCZKI Z WYKORZYSTANIEM NARZĘDZI STATISTICA
BUDOWA MODELU SCORINGOWEGO DO E-POŻYCZKI Z WYKORZYSTANIEM NARZĘDZI STATISTICA Kamila Karnowska i Katarzyna Cioch, SKOK im. Franciszka Stefczyka Wykorzystanie metod scoringowych do oceny punktowej klientów
Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych
PROJEKT: Analiza kluczowych parametrów turbin wiatrowych Projekt jest wykonywany z wykorzystaniem pakietu statystycznego STATISTICA. Praca odbywa się w grupach 2-3 osobowych. Aby zaliczyć projekt, należy
Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.
ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.
TWORZENIE I STOSOWANIE MODELU DATA MINING ZA POMOCĄ PRZEPISÓW STATISTICA DATA MINER NA PRZYKŁADZIE WYKRYWANIA NADUŻYĆ
TWORZENIE I STOSOWANIE MODELU DATA MINING ZA POMOCĄ PRZEPISÓW STATISTICA DATA MINER NA PRZYKŁADZIE WYKRYWANIA NADUŻYĆ Tomasz Demski, StatSoft Polska Sp. z o.o. Narzędzia zgłębiania danych (data mining)
PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA
PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA Krzysztof Suwada, StatSoft Polska Sp. z o.o. Wstęp Wiele różnych analiz dotyczy danych opisujących wielkości charakterystyczne bądź silnie
WYKORZYSTANIE MODELI SKORINGOWYCH I REGUŁ BIZNESOWYCH DO OPTYMALIZACJI PROCESÓW BIZNESOWYCH
WYKORZYSTANIE MODELI SKORINGOWYCH I REGUŁ BIZNESOWYCH DO OPTYMALIZACJI PROCESÓW BIZNESOWYCH Grzegorz Migut, StatSoft Polska Sp. z o.o. Modele skoringowe na trwałe wpisują się w kulturę organizacyjną coraz
Sposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
Wykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
StatSoft profesjonalny partner w zakresie analizy danych
Analiza danych Data mining Sterowanie jakością Analityka przez Internet StatSoft profesjonalny partner w zakresie analizy danych StatSoft Polska Sp. z o.o. StatSoft Polska Sp. z o.o. ul. Kraszewskiego
LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU
LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Jednym z elementów walidacji metod pomiarowych jest sprawdzenie liniowości
Regresja linearyzowalna
1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji
TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE
TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Badanie przebiegu rozmaitych wielkości w czasie w celu znalezienia
PRZEWIDYWANIE WYŁUDZEŃ W SZKODACH KOMUNIKACYJNYCH ZA POMOCĄ MODELI PREDYKCYJNYCH W TUIR WARTA
PRZEWIDYWANIE WYŁUDZEŃ W SZKODACH KOMUNIKACYJNYCH ZA POMOCĄ MODELI PREDYKCYJNYCH W TUIR WARTA Barbara Leśniarek, TUiR WARTA S.A. Ubezpieczenia komunikacyjne są strategicznym filarem biznesu ubezpieczeniowego.
Instrukcja obsługi programu Do-Exp
Instrukcja obsługi programu Do-Exp Autor: Wojciech Stark. Program został utworzony w ramach pracy dyplomowej na Wydziale Chemicznym Politechniki Warszawskiej. Instrukcja dotyczy programu Do-Exp w wersji
Rys.1. Technika zestawiania części za pomocą polecenia WSTAWIAJĄCE (insert)
Procesy i techniki produkcyjne Wydział Mechaniczny Ćwiczenie 3 (2) CAD/CAM Zasady budowy bibliotek parametrycznych Cel ćwiczenia: Celem tego zestawu ćwiczeń 3.1, 3.2 jest opanowanie techniki budowy i wykorzystania
DLACZEGO GORSZA METODA JEST CZASEM LEPSZA, CZYLI REGRESJA LOGISTYCZNA W WYKRYWANIU WYŁUDZEŃ ODSZKODOWAŃ
DLACZEGO GORSZA METODA JEST CZASEM LEPSZA, CZYLI REGRESJA LOGISTYCZNA W WYKRYWANIU WYŁUDZEŃ ODSZKODOWAŃ Barbara Leśniarek-Woźniak, TUiR WARTA S.A. Wyłudzenia odszkodowań w sektorze ubezpieczeniowym są
JAK EFEKTYWNIE I POPRAWNIE WYKONAĆ ANALIZĘ I RAPORT Z BADAŃ BIEGŁOŚCI I WALIDACJI PRAKTYCZNE WSKAZÓWKI
JAK EFEKTYWNIE I POPRAWNIE WYKONAĆ ANALIZĘ I RAPORT Z BADAŃ BIEGŁOŚCI I WALIDACJI PRAKTYCZNE WSKAZÓWKI Michał Iwaniec, StatSoft Polska Sp. z o.o. Wprowadzenie W wielu zagadnieniach laboratoryjnych statystyczna
Wprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
7.4 Automatyczne stawianie prognoz
szeregów czasowych za pomocą pakietu SPSS Następnie korzystamy z menu DANE WYBIERZ OBSERWACJE i wybieramy opcję WSZYSTKIE OBSERWACJE (wówczas wszystkie obserwacje są aktywne). Wreszcie wybieramy z menu
Badanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Tworzenie szablonów użytkownika
Poradnik Inżyniera Nr 40 Aktualizacja: 12/2018 Tworzenie szablonów użytkownika Program: Plik powiązany: Stratygrafia 3D - karty otworów Demo_manual_40.gsg Głównym celem niniejszego Przewodnika Inżyniera
Jak przekształcać zmienne jakościowe?
Data Preparation Jak przekształcać zmienne jakościowe? Marta Płonka Predictive Solutions W ostatnim artykule zobaczyliśmy, jak sprawdzić, czy między wybranymi przez nas predyktorami a zmienną przewidywaną
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Tworzenie, zapisywanie oraz otwieranie pliku... 23
Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Plik... 7 Okna... 8 Aktywny scenariusz... 9 Oblicz scenariusz... 10 Lista zmiennych... 11 Wartości zmiennych... 12 Lista scenariuszy/lista
ZARZĄDZANIE DANYMI W STATISTICA
Wprowadzenie do STATISTICA Krzysztof Regulski AGH, WIMiIP ZARZĄDZANIE DANYMI W STATISTICA 1) Zastosowanie: STATISTICA umożliwia w zakresie zarządzania danymi m.in.: scalanie plików sprawdzanie danych sortowanie
Mariusz Piotrowski Barbara Fatyga Zespół Węzła Centralnego OŻK-SB
Mariusz Piotrowski Barbara Fatyga Zespół Węzła Centralnego OŻK-SB INSTRUKCJA - PRZYKŁAD PRACY Z DANYMI MOJEJ POLIS Przygotowanie tabeli z danymi: Struktura wykształcenia kobiet w powiecie olsztyńskim na
SYSTEM ZARZĄDZANIA RELACJAMI Z KLIENTEM CRM7
SYSTEM ZARZĄDZANIA RELACJAMI Z KLIENTEM CRM7 Administracja instrukcja Panel administracyjny jest dostępny z menu po lewej stronie ekranu. Użytkownicy bez uprawnień administracyjnych mają tylko możliwość
Instrukcja do bazy demonstracyjnej
Poznań, Czerwiec 2013 Spis treści 1. LOGOWANIE DO PROGRAMU... 3 2. PRZYKŁADOWE CZYNNOŚCI MOŻLIWE DO WYKONANIA W OPROGRAMOWANIU PRZEZ UŻYTKOWNIKA MANAGER... 4 2.1. OPIS METODYKI... 4 2.2. DODAWANIE NOWEJ
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna
1 Laboratorium VIII: Analiza kanoniczna Spis treści Laboratorium VIII: Analiza kanoniczna... 1 Wiadomości ogólne... 2 1. Wstęp teoretyczny.... 2 Przykład... 2 Podstawowe pojęcia... 2 Założenia analizy
Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica
Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica 1. Zarządzanie danymi. Pierwszą czynnością w pracy z pakietem Statistica jest zazwyczaj wprowadzenie danych do arkusza. Oprócz możliwości
LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej
LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;
Pakiet Świadczeniodawcy
Pakiet Świadczeniodawcy Obsługa - kolejki oczekujących dokumentacja użytkownika I Obsługa - kolejki oczekujących Spis treści Rozdział I Procedura uzupełniania danych o miejscach realizacji 1 Wstęp 3...
MODEL DATA MINING PRZEWIDUJĄCY ODPOWIEDŹ KLIENTÓW NA OFERTĘ
MODEL DAA MIIG PRZEWIDUJĄCY ODPOWIEDŹ KLIEÓW A OFERĘ omasz Demski, StatSoft Polska Sp. z o.o. Jednym z najpopularniejszych zadań data mining jest przewidywanie, którzy klienci najchętniej odpowiedzą na
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych
dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo
1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:
Metoda analizy macierzy współczynników korelacji Idea metody sprowadza się do wyboru takich zmiennych objaśniających, które są silnie skorelowane ze zmienną objaśnianą i równocześnie słabo skorelowane
Analiza Statystyczna
Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza
INSTRUKCJA OTWIERANIA PLIKU DPT (data point table)
INSTRUKCJA OTWIERANIA PLIKU DPT (data point table) Plik DPT jest tekstowym zapisem widma. Otwarty w notatniku wygląda następująco: Aby móc stworzyć wykres, należy tak zaimportować plik do arkusza kalkulacyjnego,
Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej
Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa
Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4
Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4 Uwaga! Każde ćwiczenie rozpoczynamy od stworzenia w katalogu Moje dokumenty swojego własnego katalogu roboczego, w którym będziecie Państwo zapisywać swoje pliki.
Grupowanie materiału statystycznego
Grupowanie materiału statystycznego Materiał liczbowy, otrzymany w wyniku przeprowadzonej obserwacji statystycznej lub pomiaru, należy odpowiednio usystematyzować i pogrupować. Doskonale nadają się do
Rys. 1. Zestawienie rocznych kosztów ogrzewania domów
:: Trik 1. Wykres, w którym oś pozioma jest skalą wartości :: Trik 2. Automatyczne uzupełnianie pominiętych komórek :: Trik 3. Niestandardowe sortowanie wg 2 kluczy :: Trik 4. Przeliczanie miar za pomocą
Niestandardowa tabela częstości
raportowanie Niestandardowa tabela częstości Przemysław Budzewski Predictive Solutions Do czego dążymy W Generalnym Sondażu Społecznym USA w 1991 roku badaniu poddano respondentów należących do szeregu
Dodatek Solver Teoria Dodatek Solver jest częścią zestawu poleceń czasami zwaną narzędziami analizy typu co-jśli (analiza typu co, jeśli?
Dodatek Solver Teoria Dodatek Solver jest częścią zestawu poleceń czasami zwaną narzędziami analizy typu co-jśli (analiza typu co, jeśli? : Proces zmieniania wartości w komórkach w celu sprawdzenia, jak
Sterowanie wielkością zamówienia w Excelu - cz. 3
Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji
1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.
Laboratorium z ekonometrii (GRETL) 1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych. Okno startowe: Póki nie wczytamy jakiejś bazy danych (lub nie stworzymy własnej), mamy dostęp tylko do dwóch
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Spis treści. Analiza Ryzyka Instrukcja Użytkowania
Maj 2013 Spis treści 1. Wprowadzenie... 3 2. Podstawy prawne... 4 3. Zasada działania programu... 6 4. Zgodność z analizą zagrożeń... 7 5. Opis programu... 8 5.1. Menu Górne... 9 5.2. Status... 10 5.3.
Program. Pielęgniarki ambulatoryjnej. Pielęgniarki rodzinnej. Położnej. Copyright Ericpol Telecom sp. z o.o.
Program dla praktyki lekarskiej Pielęgniarki ambulatoryjnej Pielęgniarki rodzinnej Położnej Copyright Ericpol Telecom sp. z o.o. 2011 Spis treści Przygotowanie funkcjonalności... 3 Przypisanie komórek...
Wykład 5: Statystyki opisowe (część 2)
Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz
Dopasowywanie modelu do danych
Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;
Instrukcja do aplikacji Trezor BUZA Moduł Wykonanie Planów Finansowych
Instrukcja do aplikacji Trezor BUZA Moduł Wykonanie Planów Finansowych Aplikacja współfinansowana przez Unię Europejską ze środków Europejskiego Funduszu Społecznego Spis treści 1. Wymogi techniczne...
Konstrukcja miernika szans na bankructwo firmy
Natalia Nehrebecka / Departament Statystyki Konstrukcja miernika szans na bankructwo firmy Statystyka Wiedza Rozwój, 17-18 października 2013 r. w Łodzi Konstrukcja miernika szans na bankructwo firmy 2
3.7. Wykresy czyli popatrzmy na statystyki
3.7. Wykresy czyli popatrzmy na statystyki Współczesne edytory tekstu umożliwiają umieszczanie w dokumentach prostych wykresów, służących do graficznej reprezentacji jakiś danych. Najprostszym sposobem
Instalacja systemu zarządzania treścią (CMS): Joomla
Instalacja systemu zarządzania treścią (CMS): Joomla Na stronie http://www.cba.pl/ zarejestruj nowe konto klikając na przycisk:, następnie wybierz nazwę domeny (Rys. 1a) oraz wypełnij obowiązkowe pola
Makropolecenia w Excelu
Makropolecenia w Excelu Trochę teorii Makropolecenie w skrócie nazywane makro ma za zadanie automatyczne wykonanie powtarzających się po sobie określonych czynności. Na przykładzie arkusza kalkulacyjnego
Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change
Raport 4/2015 Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych
Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta
Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych
DATA MINING W STEROWANIU PROCESEM (QC DATA MINING)
DATA MINING W STEROWANIU PROCESEM (QC DATA MINING) Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Sterowanie i optymalizacja jakości to dziedziny, w których zastosowanie zgłębiania danych (data
Instrukcja użytkowania
Instrukcja użytkowania Aby skutecznie pracować z programem Agrinavia Map należy zrozumieć zasadę interfejsu aplikacji. Poniżej można odszukać zasady działania Agrinavia Map. Szczegółowe informacje na temat
Analiza danych i data mining.
Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data
Scoring kredytowy w pigułce
Analiza danych Data mining Sterowanie jakością Analityka przez Internet Scoring kredytowy w pigułce Mariola Kapla Biuro Informacji Kredytowej S.A. StatSoft Polska Sp. z o.o. ul. Kraszewskiego 36 30-110
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Księgowość Optivum. Jak wykonać eksport danych z programu Księgowość Optivum do SIO?
Księgowość Optivum Jak wykonać eksport danych z programu Księgowość Optivum do SIO? Program Księgowość Optivum eksportuje do systemu informacji oświatowej dane, którymi wypełniana jest tabela KO1 koszty.
TEMAT : TWORZENIE BAZY DANYCH PRZY POMOCY PROGRAMU EXCEL
Konspekt lekcji TEMAT : TWORZENIE BAZY DANYCH PRZY POMOCY PROGRAMU EXCEL Czas trwania : 3 x 45 min. CELE NAUCZANIA : 1. Poziom podstawowy (ocena dostateczna) o uczeń potrafi założyć bazę danych i wprowadzić
Włączanie/wyłączanie paska menu
Włączanie/wyłączanie paska menu Po zainstalowaniu przeglądarki Internet Eksplorer oraz Firefox domyślnie górny pasek menu jest wyłączony. Czasem warto go włączyć aby mieć szybszy dostęp do narzędzi. Po
Co należy zrobić w systemie UONET, aby rok szkolny 2014/2015 stał się rokiem bieżącym?
Co należy zrobić w systemie UONET, aby rok szkolny 2014/2015 stał się rokiem bieżącym? Porada jest skierowana do tych użytkowników systemu UONET, którzy założyli bazę danych w roku szkolnym 2013/2014,
Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
5.3. Tabele. Tworzenie tabeli. Tworzenie tabeli z widoku projektu. Rozdział III Tworzenie i modyfikacja tabel
5.3. Tabele Tabela jest podstawowym elementem bazy danych. To właśnie w tabelach gromadzone są w bazie rekordy danych. Projektując tabelę, definiujemy, jakie pola będzie zawierał pojedynczy rekord informacji.
Rysunek 8. Rysunek 9.
Ad 2. Dodatek Excel Add-Ins for Operations Management/Industral Engineering został opracowany przez Paul A. Jensen na uniwersytecie w Teksasie. Dodatek można pobrać ze strony http://www.ormm.net. Po rozpakowaniu
Program dla praktyki lekarskiej
Program dla praktyki lekarskiej Pielęgniarki ambulatoryjnej Pielęgniarki rodzinnej Położnej Copyright Ericpol Telecom sp. z o.o. 2011 2 Spis treści Przygotowanie funkcjonalności...3 Przypisanie komórek...3
MYSTERY SHOPPING - JAK ANALIZOWAĆ UZYSKANE DANE? Badania Mystery shopping
MYSTERY SHOPPING - JAK ANALIZOWAĆ UZYSKANE DANE? Małgorzata Michalak, Cegedim Customer Information Badania Mystery Shopping (Tajemniczego Klienta) polegają na zbieraniu danych dotyczących oceny funkcjonowania
Opis nowych funkcji w programie Symfonia Handel w wersji 2010
Symfonia Handel 1 / 5 Opis nowych funkcji w programie Symfonia Handel w wersji 2010 Główne korzyści z wersji 2010: Optymalizacja kosztów magazynowania i obsługi dostaw poprzez efektywniejsze zarządzanie
Informatyka w Zarządzaniu
F O R M U L A R Z E I F O R M A N T Y M S E X C E L Formanty formularza są prostsze w użyciu, gdyż nie wymagają pisania kodu w języku Visual Basic for Applications (VBA). Aby skorzystać z efektów działania
Wykorzystanie i monitorowanie scoringu
Analiza danych Data mining Sterowanie jakością Analityka przez Internet Wykorzystanie i monitorowanie scoringu Tomasz Sudakowski Biuro Informacji Kredytowej S.A. StatSoft Polska Sp. z o.o. ul. Kraszewskiego
parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,
诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów
Arkusz kalkulacyjny Excel
Arkusz kalkulacyjny Excel Ćwiczenie 1. Sumy pośrednie (częściowe). POMOC DO ĆWICZENIA Dzięki funkcji sum pośrednich (częściowych) nie jest konieczne ręczne wprowadzanie odpowiednich formuł. Dzięki nim
5.4. Tworzymy formularze
5.4. Tworzymy formularze Zastosowanie formularzy Formularz to obiekt bazy danych, który daje możliwość tworzenia i modyfikacji danych w tabeli lub kwerendzie. Jego wielką zaletą jest umiejętność zautomatyzowania
Regresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
Zadanie Wstaw wykres i dokonaj jego edycji dla poniższych danych. 8a 3,54 8b 5,25 8c 4,21 8d 4,85
Zadanie Wstaw wykres i dokonaj jego edycji dla poniższych danych Klasa Średnia 8a 3,54 8b 5,25 8c 4,21 8d 4,85 Do wstawienia wykresu w edytorze tekstu nie potrzebujemy mieć wykonanej tabeli jest ona tylko
Płace Optivum. Jak wykonać eksport danych do SIO z programu Płace Optivum? Przygotowanie pliku dla SIO w programie Płace Optivum
Płace Optivum Jak wykonać eksport danych do SIO z programu Płace Optivum? Aby wyeksportować dane z programu Płace Optivum do SIO, należy wykonać następujące czynności: 1. Pobrać i zainstalować najnowsze
Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań
Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań 6.11.1 1 Badanie współzależności atrybutów jakościowych w wielowymiarowych tabelach danych. 1.1 Analiza współzależności
System imed24 Instrukcja Moduł Analizy i raporty
System imed24 Instrukcja Moduł Analizy i raporty Instrukcja obowiązująca do wersji 1.8.0 Spis treści 1. Moduł Analizy i Raporty... 3 1.1. Okno główne modułu Analizy i raporty... 3 1.1.1. Lista szablonów
Przykład wykorzystania mechanizmów automatyzujących proces raportowania
AUTOMATYZACJA RAPORTOWANIA W STATISTICA Grzegorz Migut, StatSoft Polska Sp. z o.o. Możliwości STATISTICA w zakresie automatyzacji Automatyzacja procesu raportowania jest obecnie jednym z najważniejszych
KS-APTEKA WINDOWS KOREKTY SPRZEDAŻY Z OKRESU DO ROKU, TYPY GENEROWANIA KOREKT ZESTAWIEŃ REFUNDACYJNYCH START. KAMSOFT S.A.
KS-APTEKA WINDOWS KOREKTY SPRZEDAŻY Z OKRESU DO 31.12.2011 ROKU, TYPY GENEROWANIA KOREKT ZESTAWIEŃ REFUNDACYJNYCH KAMSOFT S.A. Iwona Szatkowska START KOREKTA UJEMNA (cała recepta na minus) KOREKTA DODATNIA
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza: