Modele eksploracji danych - CROSS-SELLING, LTV, EVENT

Wielkość: px
Rozpocząć pokaz od strony:

Download "Modele eksploracji danych - CROSS-SELLING, LTV, EVENT"

Transkrypt

1 Zakład Zaawansowanych Technik Informacyjnych (Z-6) Modele eksploracji danych - CROSS-SELLING, LTV, EVENT Praca statutowa nr Warszawa, grudzień 2006

2 Modele eksploracji danych - CROSS-SELLING, LTV, EVENT Praca statutowa nr Słowa kluczowe: data-mining, cross-selling, wartość życiowa klienta, zdarzenie, telekomunikacja Kierownik pracy: dr inż. Janusz Granat Wykonawcy pracy: dr inż. Janusz Granat dr inż. Szymon Jaroszewicz mgr inż. Cezary Chudzian mgr inż. Robert Kuśmierek mgr inż. Paweł Białoń c Copyright by Instytut Łączności, Warszawa 2006

3 Spis treści 1 Wstęp 4 2 Cross-selling Pojęcia cross-sellingu i up-sellingu i ich znaczenie w telekomunikacji Dostępne rozwiązania cross-sellingowe i przegląd literatury Rozwiązania komercyjne Rozwiązania przedstawione w literaturze Dane testowe Problem sprzedaży ofert promocyjnych dla użytkowników telefonów komórkowych Generator danych Zastosowanie reguł asocjacyjnych interesujących względem sieci bayesowskich Metoda z użyciem sieci bayesowskiej jako wiedzy z dziedziny i metody filtrowania reguł asocjacyjnych Budowa sieci Bayesowskiej Testowanie rozwiązania Cross-selling oparty na klasyfikatorach Wyniki testów Wnioski i przyszłe kierunki badań Wartość Życiowa Klienta (Lifetime Value) Przegląd literatury Badania na rzeczywistych danych PTK Centertel Prognozowana wielkość, przygotowanie danych i ocena dokładności Proste modele bazowe Modele statystyczne Budowa oddzielnego modelu dla każdego użytkownika Wnioski Badania innych metod predykcji prowadzone na danych testowych Standardowe modele regresji (metody statystyczne i uczenia maszynowego) Metody uczenia maszynowego przeznaczone dla szeregów czasowych Wnioski Przyszłe badania

4 A Przedziały dyskretyzacji zmiennych w modelu cross-sellingowym 44 B Wyniki przedstawione w formie artykułów 46 3

5 Rozdział 1 Wstęp Praca niniejsza dotyczy ważnych aspektów analizy danych marketingowych, a w szczególności danych dotyczących rynku usług telekomunikacyjnych. Zagadnienia te są bezpośrednio związane z pracami wykonywanymi przez Zakład Zaawansowanych Technik Informacyjnych Instytutu Łączności dla Przedsiębiorstwa Telefonii Komórkowej Centertel. Rynek usług telekomunikacyjnych w ogólności, a telefonii komórkowej w szczególności, jest rynkiem szczególnym. W dziedzinie tej zachodzi bardzo szybki rozwój technologiczny, co owocuje ciągłym pojawianiem się nowych usług. Zjawisko to ulegnie w najbliższej przyszłości jeszcze większemu nasileniu z uwagi na pojawienie się telefonii komórkowej trzeciej generacji. Następuje też ciągłe obniżanie cen, a co za tym idzie ciągłe zmniejszanie się marży operatorów. Częste akcje promocyjne powodują znaczną migrację użytkowników między operatorami, zwłaszcza w najważniejszym obecnie systemie pre-paid. Te szczególne własności rynku telekomunikacyjnego zwiększają wagę pełnego wykorzystania posiadanych danych o klientach do celów marketingowych, a jednocześnie stawiają przed nim znaczne wyzwania, jak choćby konieczność radzenia sobie z ogromną ilością danych. Pierwszym rozpatrywanym zagadnieniem jest problem cross-sellingu, to znaczy sprzedaży dodatkowych usług dotychczasowym klientom firmy. Jest to problem szczególnie istotny, gdyż z im większej liczby usług dany klient korzysta, tym mniej prawdopodobne jest jego przejście do konkurencji. W pracy przedstawiono dwie metody rozwiązania problemu. Pierwsza jest oparta o analizę koszykową połączoną z metodą selekcji reguł opartą o wiedzę z dziedziny. W wyniku jej zastosowania otrzymuje się model probabilistyczny (sieć bayesowską) pozwalający na przewidywanie prawdopodobieństwa akceptacji konkretnych usług. Drugie podejście opiera się na zastosowaniu metod klasyfikacji. Drugim rozpatrywanym problemem jest prognozowanie wartości życiowej klienta. W większości firm, nie tylko telekomunikacyjnych, większa część zysków wytwarzana jest przez bardzo małą grupę klientów. Ważna jest więc identyfikacja klientów, którzy chociaż obecnie nie są rentowni, mogą w przyszłości przynosić firmie znaczne zyski. Ważne jest też ściśle z tym pozwiązane zagadnienie prognozowania kosztów i przychodów firmy związanych z różnymi segmentami rynku na najbliższe miesiące. W pracy przebadano przydatność szeregu metod predykcji pod kątem przydatności w prognozowaniu zysku firmy telekomunikacyjnej. Modele zostały przetestowane na rzeczywistych danych PTK Centertel a także na innych danych testowych. 4

6 Kolejnym podjętym w pracy tematem jest data-mining opraty o zdarzenia. Ma to szczególne znaczenie w sektorze telefonii komórkowej z uwagi na nieustannie pojawiające się promocje i akcje marketingowe, które wpływają na zachowanie rynku. Reagowanie na takie zdarzenia jest dla firm telekomunikacyjnych bardzo istotne. W ramach pracy powstał też szereg artykułów powiązanych z tematyką pracy. Trzy z nich zostały już opublikowane, a kolejna została przyjęta do publikacji. W projekcie wzięły również udział studentki-stażystki Izabela Windyga i Nada Atallah. 5

7 Rozdział 2 Cross-selling 2.1 Pojęcia cross-sellingu i up-sellingu i ich znaczenie w telekomunikacji Definicje pojęć cross-sellingu i up-sellingu przedstawione są poniżej (na podstawie Wikipedii) Cross-selling jest strategią sprzedaży innych produktów klientowi, który wcześniej dokonał już zakupu (lub wyrażał taki zamiar). Produkty te nie są zazwyczaj związane z produktem podstawowym i mają na celu zwiększenie zależności klienta od firmy, a co za tym idzie jego lojalności. Up-selling jest techniką sprzedaży polegającą na próbie skłonienia klienta do zakupu droższego produktu lub dodatkowych akcesoriów w celu zwiększenia wartości transakcji. Up-selling zazwyczaj oznacza próbę skłonienia klienta do zakupu produktów bardziej rentownych (dla sprzedającego), ale może też oznaczać zaproponowanie klientowi opcji, których wcześniej nie był świadomy lub które były dla niego niedostępne. W pracy niniejszej zajmiemy się głównie pojęciem cross-sellingu, z uwagi na większe zainteresowanie PTK Centertel. Rynek usług telekomunikacyjnych charakteryzuje się dużą dynamiką usług i małą lojalnością klientów. Z uwagi na ciągłe powstawanie nowych usług jak i częste i agresywne oferty promocyjne, następuje ciągła migracja klientów między konkurencyjnymi firmami. Dla PTK Centertel cross-selling ma więc duże znaczenie z dwóch powodów. Po pierwsze (efekt bezpośredni) powoduje zwiększenie sprzedaży. Po drugie, klienci korzystający z wielu różnorodnych usług stają się bardziej zależni od firmy i zmniejsza się prawdopodobieństwo ich przejścia do konkurencji. W przypadku firm telekomunikacyjnych kontakt z klientem może odbywać się za pomocą szeregu kanałów 1. propozycje składane klientowi, gdy kontaktuje się on z call-center, 2. kontakt telefoniczny z klientem, 3. kontakt z klientem za pomocą SMS, 6

8 4. kontakt z klientem za pomocą przesyłki pocztowej (oddzielnej lub przesyłanej łącznie z rachunkiem). Może się wydawać, że koszt niektórych z tych kanałów (zwłaszcza kontaktu z klientem za pomocą SMSa) jest znikomy, możliwe jest więc wysyłanie dużej liczby ofert crosssellingowych. Przekonanie to jest jednak błędne. Jest tak dlatego, że reakcja klienta na nadmierną ilość ofert jest w przeważającej mierze negatywna [4]. Potwierdziły to wcześniejsze badania prowadzone przez Zakład Zaawansowanych Technik Informacyjnych, w których stwierdzono, że w niektórych przypadkach wysyłanie SMSów z ofertą doprowadziło do obniżenia akceptacji usługi. Wynika stąd, iż liczba ofert cross-sellingowych jest ograniczona, a co za tym idzie, konieczny jest bardzo staranny wybór produktu oferowanego danemu użytkownikowi, aby zmaksymalizować prawdopodobieństwo trafienia. 2.2 Dostępne rozwiązania cross-sellingowe i przegląd literatury W tej części zostaną przedstawione dostępne na rynku, jak i opisane w literaturze rozwiązania cross-sellingowe Rozwiązania komercyjne Kilka firm oferuje gotowe produkty służące do cross-sellingu. Niestety rzadko dostępne są szczegółowe opisy metody działania systemów, niedostępne są też wersje testowe. Poniższy opis dwóch wybranych produktów będzie więc z konieczności skrótowy. SAS Up-sell, Cross-sell for telecommunications SAS oferuje gotowy produkt do Cross-sellingu w telekomunikacji [31]. Brak jest szczegółowych informacji na temat jego działania. Firma podaje jednak, że jest on oparty o analizę koszykową. Analiza ta jest używana do badania typowych ścieżek rozwoju klienta, np. od jednej linii telefonicznej do kilku linii wraz z internetem. Pozwala to identyfikować, którzy klienci są potencjalnie zainteresowanie zakupem nowych usług. System jest konstruowany przez specjalistów SASa i wymaga zakupu systemu tej firmy. IBM Guided Selling & Active Advisor Kompleksowe rozwiązanie cross-sellingowe, dostosowane w szczególności do handlu detalicznego. Nie dostosowany specyficznie do potrzeb telekomunikacji. Brak opisu stosowanych metod i algorytmów Rozwiązania przedstawione w literaturze W literaturze związanej z data-mining zostało przedstawionych tylko kilka prac na temat cross-sellingu. Zostaną one krótko scharakteryzowane poniżej. Przykładowa aplikacja cross-sellingowa w bankowości jest przedstawiona w książce [4]. Źródło to wyróżnia fakt, że podany został bardzo szczegółowy opis zarówno samej metody, jak i konkretnego przykładu zastosowania w sektorze bankowym. Zadaniem było 7

9 wytypowanie grupy klientów, którzy skłonni byliby skorzystać z oferty otwarcia rachunku brokerskiego (rachunku akcji). Użyta metoda polega na budowie klasyfikatora (drzewo decyzyjne) dla każdej usługi oddzielnie i oferowaniu klientowi usługi najbardziej prawdopodobnej. Jeżeli klient nie ma danej usługi i znajduje się w liściu drzewa, w którym wielu klientów z tej usługi korzysta, to prawdopodobieństwo, że on też z tej usługi skorzysta, jest uznawane za wysokie. Według danych autorów modelowi udało się osiągnąć o kilkadziesiąt procent wyższy odsetek akceptacji usługi niż w przypadku oferty losowej. Z powodu ograniczeń wewnętrznych klasyfikator budowany jest na podstawie wcześniej zgromadzonych danych klientów banku, którzy już z tej usługi skorzystali. Oczywiście, założenie to może okazać się błędne, gdyż potencjalni nowi klienci mogą być zupełnie niepodobni do klientów już korzystających z usługi. Lepszym rozwiązaniem byłoby wysłanie oferty pilotowej i budowa klasyfikatora na podstawie jej wyników. W ten sposób mamy większą szansę na dotarcie do zupełnie nowych grup klientów, jednak rozwiązanie to wiąże się z wydłużonym czasem akcji marketingowej i jej zwiększonymi kosztami, co nie zawsze jest do zaakceptowania. W pracy [32] autorzy używają reguł asocjacyjnych i modeli statystycznych do predykcji zakupów na podstawie logów z serwerów WWW. Reguły asocjacyjne stosowane są do generowania cech, które następnie są wejściami hybrydowego klasyfikatora. W pracy [19] probabilistyczny model z ukrytymi zmiennymi jest używany do przewidywania zachowań klientów na podstawie ich zakupów oraz danych z ankiet. Zaletą tego typu modeli jest duża elastyczność i możliwość uwzględniania zmiennych ukrytych. Wadą jest trudność w wykryciu nieznanych zależności nieuwzględnionych w modelu. W niniejszej problem dotyczący modeli probabilistycznych został rozwiązany przez połącznenie ich z analizą koszykową. W pracy [35] przedstawiono rozwiązanie umożliwiające wybór podzbioru usług na które powinna być skierowana akcja promocyjna tak, by zmaksymalizować całościowy zysk. Uwzględniany jest wpływ popularności jednych towarów na popularność innych. Analiza zależności między produktami oparta jest o analizę koszykową (reguły asocjacyjne). Udowodniono, że wybór optymalnego zbioru produktów jest NP-zupełny. Zaproponowano więc przybliżony algorytm zachłanny. Zbliżoną dziedziną analizy danych są tzw. systemy rekomendacji (ang. recommender systems) [1]. Systemy te starają się zaoferować klientowi towar na podstawie podobieństwa jego historii zakupów do historii zakupów innych klientów. Najbardziej chyba znanym przykładem takiego systemu jest strona księgarni wysyłkowej wyświetlająca informację ci, którzy kupili tę książkę często kupowali również.... Systemy takie są jednak przystosowane w szczególności do dużych sklepów wysyłkowych: nie wykorzystują danych klienta innych niż historia zakupów i działają na bardzo dużych bazach produktów (dziesiątki i setki tysięcy). Charakterystyka zadania cross-sellingowego w PTK Centertel jest diametralnie inna: oferowana jest względnie mała liczba usług, dane o historii zakupów klienta mają relatywnie małe znaczenie w przeciwieństwie do innych danych na jego/jej temat takich jak płeć, miejsce zamieszkania, historia połączeń, które mają znaczenie kluczowe. Powoduje to, że systemy rekomendacji nie nadają się do zastosowań w cross-sellingu telekomunikacyjnym. 8

10 Podsumowanie Z powyższej dyskusji wynika, że istnieją dwa główne podejścia do problemu cross-sellingu. 1. budowa oddzielnego klasyfikatora dla każdej z usług i oferowanie usługi, której klasyfikator przewiduje największe prawdopodobieństwo zakupu, 2. zastosowanie reguł asocjacyjnych (analiza koszykowa) do znalezienia związków między danymi klienta i usługami z których korzysta. Na podstawie tych reguł budowany jest następnie model sugerujący, które usługi należy zaoferować. W niniejszej pracy zastosowano i przeanalizowano obie te metody. 2.3 Dane testowe W tej części zostanie przedstawiony opis konkretnego problemu cross-sellingowego, na którym koncentrowaliśmy się w pracy Problem sprzedaży ofert promocyjnych dla użytkowników telefonów komórkowych W niniejszej pracy skupiono się na akcji cross-sellingowej nakierowanej na trzy usługi dodatkowe, które umożliwiają klientowi obniżenie kosztów połączeń. Są to następujące usługi: RL - rozmowy lokalne umożliwia klientowi wykonywanie rozmów lokalnych po obniżonej cenie TPG - taniej po godzinach umożliwia klientowi wykonywanie tańszych rozmów po godzinie 18. TPWS - tanie połączenia w sieci obniżka cen połączeń wewnątrz sieci Orange. Celem jest stworzenie systemu, który dla danego klienta zaproponuje jedną nową usługę, którą należy temu klientowi zaoferować (czy to w formie oferty SMSowej, czy też np. w czasie gdy klinet zadzwoni na linię obsługi technicznej) Generator danych Z uwagi na ścisłe restrykcje w dostępie do rzeczywistych danych w PTK Centertel, testowanie algorytmów musiało być przeprowadzone na danych generowanych. Dołożono jednak wszelkich starań aby dane były zgodne z realiami danych telekomunikacyjnych. Dla zapewnienia bezstronności w analizie wyników, generator danych i ich analiza były wykonane przez różne osoby, przy czym osoba analizująca dane nie znała uprzednio reguł, na podstawie których aktywowane były usługi w generatorze danych. Dane były generowane tak, aby opracowane algorytmy można było w przyszłości łatwo zastosować na rzeczywistych danych PTK Centertel. Etapy działania generatora przedstawiono na rys Najpierw generowane są dane bilingowe klientów, na podstawie tych danych włączane są odpowiednie usługi danego 9

11 Rysunek 2.1: Etapy działania generatora danych Tablica 2.1: Charakterystyka profili klientów Profil 1 Profil 2 Profil 3 Profil 4 Profil 5 przewaga usług typu SMS 60-70% wszystkich wykorzystanych usług krótki czas połączeń - przewaga połączeń kilkuminutowych, połączenia telefoniczne rozkład jednostajny do wszystkich operatorów przewaga połączeń poza godzinami szczytu, sporadyczne rozmowy w szczycie duża ilość rozmów w szczycie zarówno do własnej sieci oraz do sieci stacjonarnych, nieznacznie mniej wieczorami przewaga rozmów w szczycie do telefonów stacjonarnych, 1 lub 2 numery kierunkowe, przewaga połączeń do własnej sieci przewaga połączeń do kilku wybranych numerów, rozkład innych połączeń dowolny, przewaga połączeń do własnej sieci klienta. Dane są następnie agregowane do formatu występującego w hurtowniach danych, tzn. każdy rekord zagregowanej bazy odpowiada jednemu klientowi. Aby oddać zróżnicowane zachowania klientów, zostali oni podzieleni na kilka profili. Klienci z każdego profilu mają odmienne charakterystyki korzystania z usług telefonii komórkowej. Tabela 2.1 przedstawia charakterystyki użytych profili, a rys. 2.2 ich udział procentowy w danych bilingowych. Dla każdego klienta wybierana jest też losowo (z uwzględnieniem profilu) jedna z sześciu taryf podstawowych. Ogólnie, im dłużej dany użytkownik rozmawia, tym wyższy jest numer jego taryfy (uznajemy, że wyższe numery taryf oznaczają wyższy abonament, ale też niższe koszty rozmów). Na podstawie danych bilingowych i odpowiednich reguł, generowane są następnie usługi z których korzysta każdy z użytkowników. Dane są następnie agregowane do formatu hurtowni danych. W formacie tym jeden rekord tabeli danych odpowiada jednemu użytkownikowi korzystającemu z telefonu komórkowego w danym miesiącu. Pola danych dostępne w tabeli zagregowanej podane są w tabeli 2.2. Dostępne są następujące rodzaje usług to: 1 SMS 2 połączenie do własnej sieci 3 połączenie do innej sieci komórkowej 4 połączenie do sieci stacjonarnej a doba jest podzielona na następujące trzy pory dnia : 10

12 Rysunek 2.2: Udział procentowy poszczególnych profili. Tablica 2.2: Zmienne tabeli zagregowanej (format hurtowni danych) pole user-id czas-polaczen ilosc-polaczen sr-dlug-pol pd_y-il-pol pd_y-czas-pol usl_y-czas-pol usl_y-il-pol taryfa rl tpg tpws opis identyfikator użytkownika suma czasu połączeń ilość połączeń wykonanych średnia długość połączenia ilość połączeń w porze dnia y suma czasu połączeń w porze y suma czasu połączeń dla usługi y ilość połączeń dla usługi y taryfa, z której korzysta przez abonenta aktywacja usługi rozmowy lokalne aktywacja usługi taniej po godzinach aktywacja usługi tańsze połączenia w sieci 11

13 1 8:00 17: :00 23:59 3 0:00 7:59 Zmienne numeryczne zostały zdyskretyzowane. Przedziały dyskretyzacji zostały podane w dodatku A. Z uwagi na konieczność wygenerowania dużej liczby danych bilingowych dla każdego klienta, wynikowa tabela zagregowana zawiera 4920 rekordów. Dane the zostały podzielone na zbiór treningowy (4000 rekordów) i zbiór testowy (920 rekordów). Budowa modeli odbywać się będzie na zbiorze treningowym a testowane będą one na zbiorze testowym. W ten sposób zminimalizowane zostanie zjawisko tzw. przeuczenia, kiedy model zachowuje się znakomicie na danych, na których został skonstruowany, a nie jest w stanie poprawnie klasyfikować nowych przypadków. 2.4 Zastosowanie reguł asocjacyjnych interesujących względem sieci bayesowskich W tej części zostanie opisane podejście do cross-sellingu oparte o reguły asocjacyjne. Reguły asocjacyjne zostały po raz pierwszy wprowadzone przez Rakesha Agrawala i jego zespół do analizy danych z supermarketów [2]. W pierwotnym sformułowaniu reguły asocjacyjne zostały zdefiniowane dla tabeli binarnej, której każdy atrybut odpowiadał jednemu z produktów, a każdy rekord konkretnej transakcji. Atrybut miał w danym rekordzie wartość 1, jeżeli w odpowiadającej mu transakcji dokonano zakupu towaru odpowiadającego temu atrybutowi. Niech H = {A 1, A 2,...,A n } oznacza zbiór atrybutów tabeli. Weźmy dowolny podzbiór I = {A i1, A i2,..., A ik } H. Wsparcie (ang. support) zbioru atrybutów I w tabeli bazodanowej D jest zdefiniowane jako support D (I) = {t D : t[i] = (1, 1,..., 1)}, (2.1) D czyli jako odsetek rekordów bazy, w których wszystkie atrybuty I przyjmują jednocześnie wartość 1. Jeżeli I, J H i I J =, to możemy zdefiniować regułę asocjacyjną I J. Dla reguły takiej definiujemy dwie wielkości: wsparcie (ang. support) i zaufanie (ang. confidence). Wielkości te zadane są następującymi wzorami support D (I J) = support D (I J), (2.2) confidence D (I J) = support D(I J), support D (I) (2.3) to znaczy wsparcie oznacza, jak duży odsetek transakcji w bazie zawiera jednocześnie wszystkie towary w I oraz w J, a zaufanie oznacza odsetek klientów, którzy kupili wszystkie towary w I, kupili również wszystkie towary w J. W pracy [2] zaproponowano algorytm Apriori pozwalający na znalezienie wszystkich reguł asocjacyjnych o zadanym minimalnych wsparciu i zaufaniu. Minimalne wsparcie 12

14 gwarantuje nam, że znalezione reguły odnoszą się do często występujących sytuacji, a minimalne zaufanie, że gwarantują odpowiednią jakość predykcji. Reguły asocjacyjne zostały pierwotnie opisane dla tabel binarnych, po prostych konwersjach można je jednak zastosować także do atrybutów wielowartościowych oraz numerycznych (po dyskretyzacji). Zaletą reguł asocjacyjnych jest to, że istniejące algorytmy pozwalają znaleźć wszystkie reguły asocjacyjne o zadanych parametrach. Wadą jest często zbyt duża liczba znalezionych reguł, co tworzy wtórny problem analizy danych polegający na odfiltrowaniu reguł dla użytkownika nieinteresujących. Jedna z metod takiego filtrowania została w kolejnym rozdziale zastosowana do problemu cross-sellingu Metoda z użyciem sieci bayesowskiej jako wiedzy z dziedziny i metody filtrowania reguł asocjacyjnych Jak napisano wyżej, zastosowanie reguł asocjacyjnych wymaga odpowiednich metod filtracji reguł nieprzydatnych dla użytkownika. Jedna z takich metod została opracowana przez jednego z autorów pracy (we współpracy z innymi) i opublikowana w pracach [16, 15]. Metoda ta polega na uwzględnieniu dotychczasowej wiedzy użytkownika na temat analizowanej dziedziny. Wiedza ta jest reprezentowana przy pomocy formalnego modelu (sieć bayesowska). Reguły, które nie są z tą wiedzą zgodne, uznawane są za interesujące. Tak znalezione reguły są następnie używane do zmodyfikowania modelu i algorytm jest uruchamiany ponownie w celu znalezienia kolejnych interesujących reguł. Jako reprezentację wiedzy użytkownika wybrano sieci bayesowskie [23, 17, 11]. Sieci bayesowskie są modelami obrazującymi w formie grafu skierowanego zależności przyczynowe między atrybutami. Wierzchołki odpowiadają poszczególnym atrybutom, a krawędzie bezpośrednim zależnościom przyczynowym. Dodatkowo z każdym wierzchołkiem związany jest warunkowy rozkład prawdopodobieństwa. Sieć bayesowska w pełni określa łączny rozkład prawdopodobieństwa atrybutów, które opisuje. Przykładowa sieć bayesowska pokazana jest na rysunku 2.3. Zaletami sieci bayesowskich jako metody reprezentacji wiedzy jest przede wszystkich ich zrozumiałość. Zależności między atrybutami są przedstawione po prostu jako krawędzie w grafie. Sieć taka jest też łatwa w budowie. Wystarczy połączyć wierzchołki odpowiednimi krawędziami. Nie jest to zwykle trudne, gdyż ludzie zazwyczaj znakomicie radzą sobie z identyfikacją zależności przyczynowych [23]. Prawdopodobieństwa warunkowe można łatwo oszacować na podstawie danych. Dodatkową zaletą jest to, że sieć określa łączny rozkład prawdopodobieństwa, nie ma więc problemów z brakiem kompletności opisu. Niech będzie dane zdarzenie probabilistyczne A. Stopień w jakim zdarzenie to jest interesujące jest zdefiniowany następująco [16]: Inter(E) = P BN (E) P D (E), (2.4) to znaczy, bezwzględna różnica między prawdopodobieństwem tego zdarzenia obliczonego na podstawie sieci bayesowskiej i danych. Zdarzenia analizowane w pracy [16] mają postać atrybut 1 = wartość 1 atrybut 2 = wartość 2... atrybut k = wartość k. (2.5) 13

15 Rysunek 2.3: Przykład sieci bayesowskiej opisującej proste zdarzenia probabilistyczne. Algorytm przedstawiony w [16] pozwala na znalezienie wszystkich takich zdarzeń, które są w zadanym minimalnym stopniu interesujące. Głównym problemem z zastosowaniem sieci bayesowskich jest wysoka złożoność obliczeniowa znajdowania konkretnych prawdopodobieństw brzegowych, niezbędnych w równaniu 2.4. Problem ten jest bowiem NP-zupełny, a w czasie pracy algorytmu konieczne jest obliczenie tysięcy takich rozkładów brzegowych. Problem został rozwiązany poprzez obliczanie bezpośrednio z sieci tylko rozkładów o dużej liczbie atrybutów i obliczanie mniejszych rozkładów przez bezpośrednie sumowanie. Dodatkowo w pracy [15] przedstawiono przybliżony algorytm probabilistyczny, który działa dla sieci o nawet tysiącach atrybutów, dając jednak gwarancje dobrej jakości rozwiązań. Szczegółowy opis tych algorytmów wykracza poza ramy niniejszej pracy, można go znaleźć w [16, 15]. Zmiany których dokonano aby dostosować metodę do obecnie rozpatrywanego problemu Przedstawione wyżej algorytmy znajdowania interesujących koniunkcji względem sieci bayesowskich wymagały pewnych modyfikacji. Problem pojawił się w sytuacji, gdy do wierzchołka skierowana była duża liczba krawędzi. Wynikał z tego bardzo duży (rosnący wykładniczo) rozmiar warunkowego rozkładu prawdopodobieństwa w tym wierzchołku, co powodowało problemy dwojakiego rodzaju. Pierwszym problemem była duża zajętość pamięci. Drugim, trudności w wiarygodnym oszacowaniu tak dużej liczby wartości prawdopodobieństw. Na szczęście, większość z tych prawdopodobieństw jest równa zeru, problem zajętości pamięci został więc rozwiązany poprzez reprezentację rozkładu warunkowego jako listy niezerowych prawdopodobieństw. Drugi problem został rozwiązany przez zastosowanie tzw. korekty Laplace a, to znaczy, zastosowanie jednostajnego rozkładu a-priori. Ważną zaletą tego podejścia jest to, że w jego wyniku otrzymujemy gotowy model probabilistyczny (sieć bayesowską), który możemy następnie wykorzystać do wnioskowania probabilistycznego. Sieć bayesowska jest na tyle elastyczna, że można z niej odczytać 14

16 Tablica 2.3: Krawędzie odpowiadające trywialnym, znanym a-priori zależnościom między atrybutami wynikającym ze sposobu agregacji danych i doboru atrybutów dodane do sieci przed uruchomieniem algorytmu. od do uzasadnienie pd1-il-pol ilosc-polaczen Ilość połączeń jest sumą ilości połączeń we pd2-il-pol ilosc-polaczen wszystkich porach dnia. pd3-il-pol ilosc-polaczen usl1-il-pol ilosc-polaczen usl2-il-pol ilosc-polaczen Ilość połączeń jest sumą ilości połączeń wszystkich usl3-il-pol ilosc-polaczen usług. usl4-il-pol ilosc-polaczen pd1-czas-pol czas-polaczen Czas połączeń jest sumą czasu połączeń we pd2-czas-pol czas-polaczen wszystkich porach dnia. pd3-czas-pol czas-polaczen usl2-czas-pol czas-polaczen Czas połączeń jest sumą czasu połączeń wszystkich usl3-czas-pol czas-polaczen usług. usl4-czas-pol czas-polaczen usl2-il-pol usl2-czas-pol usl3-il-pol usl3-czas-pol usl4-il-pol usl4-czas-pol pd1-il-pol pd1-czas-pol Ilość połączeń wpływa na czas połączeń. pd2-il-pol pd2-czas-pol pd3-il-pol pd3-czas-pol ilosc-polaczen sr-dlug-pol Średnią długość połączeń można wyznaczyć na czas-polaczen sr-dlug-pol podstawie sumarycznej długości połączeń i liczby połączeń. praktycznie dowolne parametry modelu. Wykorzystano to w rozdziale poniżej do szacowania prawdopodobieństw akceptacji przez klienta usługi w ofercie cross-sellingowej Budowa sieci Bayesowskiej Opiszemy teraz przebieg budowy sieci bayesowskiej na podstawie zbioru treningowego. Przed pierwszym uruchomieniem algorytmu do sieci zostały dodane krawędzie odpowiadające trywialnym, znanym a-priori zależnościom między atrybutami wynikającym ze sposobu agregacji danych i doboru atrybutów. Krawędzie te zostały wymienione w tabeli 2.3. Zauważmy, że sieć bayesowska dobrze modeluje zależności między tymi atrybutami. Np. ilości połączeń w poszczególnych porach dnia są od siebie w przybliżeniu niezależne. Jeśli jednak znana jest całkowita ilość połączeń, to stają się one zależne, dokładnie tak, jak to interpretuje sieć. Poniższe tabele ilustrują proces budowy sieci Bayesowskiej opisującej zachowanie klientów. Każda nowa tabela przedstawia kolejne uruchomienie algorytmu i najbardziej 15

17 interesujące zdarzenie/zdarzenia (w sensie probabilistycznym), które zostały znalezione. Zdarzenia mają formę atrybut 1 = wartość 1 atrybut 2 = wartość 2... atrybut k = wartość k. Opis kolumn tabel: atrybuty atrybuty najbardziej interesującego zdarzenia, wartości wartości odpowiadające atrybutom w zdarzeniu, Inter. stopień w jakim zdarzenie jest interesujące, P BN prawdopodobieństwo zdarzenia obliczone na podstawie sieci bayesowskiej, P D prawdopodobieństwo zdarzenia w danych, wnioski interpretacja i wyjaśnienie zdarzenia, modyfikacje w sieci bayesowskiej dokonane na podstawie zdarzenia. pierwsze uruchomienie algorytmu najbardziej interesujące zdarzenia atrybuty wartości Inter. P BN P D wnioski iloscpolaczen, 2,N,N,N Ilość połączeń wpływa na usługi dodatkowe klientów. Klienci, którzy rl, tpg, mało dzwonią nie korzystają z tpws tych usług. Dodano krawędzie od ilosc-polaczen do rl, tpg, tpws. kolejne uruchomienie algorytmu najbardziej interesujące zdarzenia atrybuty wartości Inter. P BN P D wnioski pd2-czaspol, 1,2,N,N,N Powiązanie tych zmiennych wy- taryfa, daje się zgodne z intuicją. Aby rl, tpg, lepiej zrozumieć naturę tych zależności, tpws sprawdzono najbardziej in- teresujące pary atrybutów: sr-dlugpol, rl sr-dlugpol, rl 4,N Klienci prowadzący długie rozmowy, mają większe prawdopodobieństwo włączonej 3,N usługi rozmowy lokalne. Wniosek uznano za wiarygodny i dodano krawędź od sr-dlug-pol do rl. kolejne uruchomienie algorytmu 16

18 najbardziej interesujące zdarzenia atrybuty wartości Inter. P BN P D wnioski pd2- czas-pol, taryfa, rl, tpg, tpws butów: usl4-il-pol, rl taryfa, pd2-czaspol 1,2,N,N,N Wzorzec ten ponownie był najbardziej interesującym, jednak ponownie sprawdzono pary atry- 2,T Wpływ ilości rozmów stacjonarnych na włączoną usługę rozmowy lokalne wydaje się wiarygodny. Dodano krawędź od usl4-il-pol do rl 1, Zależność czasu rozmów w ciągu dnia i taryfy. Dodano krawędź pd2-czas-pol do taryfa kolejne uruchomienie algorytmu najbardziej interesujące zdarzenia atrybuty wartości Inter. P BN P D wnioski taryfa, rl, 1,N,N,N Wpływ taryfy na włączone usługi. tpg, tpws Klienci z tanią taryfą mało korzystają z telefonu, więc nie mają włączonych usług. Dodano krawędzie od taryfa do rl, tpg i tpws. kolejne uruchomienie algorytmu najbardziej interesujące zdarzenia atrybuty wartości Inter. P BN P D wnioski sr-dlug-pol, tpg, tpws 4,N,N Klienci prowadzący długie rozmowy mają włączoną którąś z usług tpg lub tpws. Dodano krawędzie od sr-dlug-pol do tpg i tpws. kolejne uruchomienie algorytmu najbardziej interesujące zdarzenia atrybuty wartości Inter. P BN P D wnioski iloscpolaczen, pd2-il-pol, 2,2,N,N,N Pora dnia 2 odpowiada za połączenia w ciągu dnia, więc mówi dużo o profilu klienta. Dodano krawędzie: rl, tpg, od pd2-il-pol do rl, tpg i tpws tpws. Sieć bayesowska powstała ostatecznie po zastosowaniu algorytmu została przedstawiona na rys

19 pd_2-il-pol usl_1-il-pol pd_1-il-pol pd_3-il-pol usl_2-il-pol usl_3-il-pol usl_4-il-pol pd_2-czas-pol ilosc-polaczen pd_1-czas-pol pd_3-czas-pol usl_2-czas-pol usl_3-czas-pol usl_4-czas-pol czas-polaczen 18 taryfa sr-dlug-pol tpws tpg rl Rysunek 2.4: Sieć bayesowska skonstruowana na podstawie analizy danych o zachowaniu klientów. Kolorem czarnym oznaczono znane a-priori zależności, wynikające ze sposobu agregacji danych, kolorem czerwonym zależności odkryte przy pomocy algorytmu.

20 2.4.3 Testowanie rozwiązania Rzetelne przetestowanie jakości systemu cross-sellingowego w warunkach off-line owych jest trudne. Prawdziwy test powinien polegać na wysłaniu testowej grupie klientów ofert rekomendowanych przez system, a następnie zbadaniu, ilu z nich odpowiedziało na ofertę pozytywnie. Procedurę należy powtórzyć dla innej grupy klientów z ofertami wybranymi losowo (lub np. inną dotychczas używaną metodą). Wyniki obu grup są następnie porównywane, aby stwierdzić, czy system uzyskał wyniki lepsze od losowych (lub uzyskanych dotychczas stosowanymi metodami). Wykonanie podobnego testu w ramach pracy nie było, niestety, możliwe. Zastosowano więc symulację przybliżającą warunki rzeczywistego testu. Uznajemy, że oryginalny zestaw usług każdego użytkownika ze zbioru testowego obejmuje usługi, które użytkownik już ma aktywne, lub które byłby skłonny aktywować w wyniku kampanii reklamowej (zbiór A). Dla każdego klienta usuwano losowo część usług, z których korzystał (każda z usług była usuwana z 50% prawdopodobieństwem). Ten nowy zbiór (zbiór B) jest traktowany jako zbiór usług, które użytkownik ma aktywne już przed kampanią reklamową, nie należy mu ich więc oferować. Następnie, obliczano na podstawie sieci Bayesa prawdopodobieństwa, że dany klient będzie miał aktywowaną każdą z usług, z których nie korzystał (nie były elementami zbioru B). Usługa o największym prawdopodobieństwie była wybierana jako oferta dla klienta. Dla porównania wybierano też losowo jedną z ofert, której klient nie miał (spoza zbioru B). Oferta została uznana za przyjętą, jeśli znajdowała się w zbiorze A danego klienta (tzn. jeśli była aktywna u klienta w zbiorze testowym przed jej usunięciem). Na zbiorze testowym obliczono następnie procent ofert, które zostały przyjęte znajdowały się w zbiorze A danego klineta. Wyniki przedstawione są w tabeli poniżej: procent ofert na podstawie sieci Bayesa 22.84% procent przyjętych ofert losowych 12.83% Widać więc, że sieć Bayesa zapewniła prawie dwukrotnie wyższą skuteczność niż składanie losowych ofert. Należy też zaznaczyć, że w zbiorze testowym 53.59% klientów nie miało aktywnej żadnej z ofert, co w naszym teście odpowiada odrzuceniu przez klienta każdej możliwej oferty. Ponieważ ponad 50% ofert musiało się zakończyć odrzuceniem, skuteczność ponad 22% należy uznać za bardzo wysoką. 2.5 Cross-selling oparty na klasyfikatorach W niniejszym punkcie przedstawione zostanie drugie podejście do cross-sellingu oparte na klasyfikatorach. Dla każdej z usług, które chcemy promować, budowany jest model klasyfikacyjny, który szacuje prawdopodobieństwo, że dany klient posiada tą usługę. Jak już pisano wyżej, nie jest to optymalne rozwiązanie problemu. Potencjalni nowi klienci mogą być zupełnie niepodobni do klientów już korzystających z usługi. Lepszym rozwiązaniem byłoby wysłanie oferty pilotowej i budowa klasyfikatora na podstawie jej 19

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

Strategie VIP. Opis produktu. Tworzymy strategie oparte o systemy transakcyjne wyłącznie dla Ciebie. Strategia stworzona wyłącznie dla Ciebie

Strategie VIP. Opis produktu. Tworzymy strategie oparte o systemy transakcyjne wyłącznie dla Ciebie. Strategia stworzona wyłącznie dla Ciebie Tworzymy strategie oparte o systemy transakcyjne wyłącznie dla Ciebie Strategie VIP Strategia stworzona wyłącznie dla Ciebie Codziennie sygnał inwestycyjny na adres e-mail Konsultacje ze specjalistą Opis

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

Struktura terminowa rynku obligacji

Struktura terminowa rynku obligacji Krzywa dochodowości pomaga w inwestowaniu w obligacje Struktura terminowa rynku obligacji Wskazuje, które obligacje są atrakcyjne a których unikać Obrazuje aktualną sytuację na rynku długu i zmiany w czasie

Bardziej szczegółowo

Instytut Informatyki Uniwersytet Wrocławski. Dane w sieciach. (i inne historie) Marcin Bieńkowski

Instytut Informatyki Uniwersytet Wrocławski. Dane w sieciach. (i inne historie) Marcin Bieńkowski Dane w sieciach (i inne historie) Marcin Bieńkowski Jak przechowywać dane w sieciach (strony WWW, bazy danych, ) tak, żeby dowolne ciągi odwołań do (części) tych obiektów mogły być obsłużone małym kosztem?

Bardziej szczegółowo

Raport Porównanie oferty abonamentowej operatorów. telefonii komórkowej dla typowego uŝytkownika. Łukasz Idrian Analityk Rynku ICT

Raport Porównanie oferty abonamentowej operatorów. telefonii komórkowej dla typowego uŝytkownika. Łukasz Idrian Analityk Rynku ICT Raport Porównanie oferty abonamentowej operatorów telefonii komórkowej dla typowego uŝytkownika Łukasz Idrian Analityk Rynku ICT Grzegorz Bernatek Kierownik Działu Analiz Audytel S.A. (Maj 2009) Audytel

Bardziej szczegółowo

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Raport o penetracji rynku telefonii ruchomej w Polsce

Raport o penetracji rynku telefonii ruchomej w Polsce + Raport o penetracji rynku telefonii ruchomej w Polsce Prezes Urzędu Komunikacji Elektronicznej Warszawa, październik 2012 r. 1. Cel i zakres analizy...3 2. Urząd Komunikacji Elektronicznej dane zbierane

Bardziej szczegółowo

ZAGADNIENIE TRANSPORTOWE

ZAGADNIENIE TRANSPORTOWE ZAGADNIENIE TRANSPORTOWE ZT jest specyficznym problemem z zakresu zastosowań programowania liniowego. ZT wykorzystuje się najczęściej do: optymalnego planowania transportu towarów, przy minimalizacji kosztów,

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0 ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0 Przeznaczenie Sylabusa Dokument ten zawiera szczegółowy Sylabus dla modułu ECDL/ICDL Użytkowanie baz danych. Sylabus opisuje zakres wiedzy

Bardziej szczegółowo

Analiza zależności liniowych

Analiza zależności liniowych Narzędzie do ustalenia, które zmienne są ważne dla Inwestora Analiza zależności liniowych Identyfikuje siłę i kierunek powiązania pomiędzy zmiennymi Umożliwia wybór zmiennych wpływających na giełdę Ustala

Bardziej szczegółowo

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego IBS PAN, Warszawa 9 kwietnia 2008 Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego mgr inż. Marcin Jaruszewicz promotor: dr hab. inż. Jacek Mańdziuk,

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Wykład 1 Klasyfikacja kosztów

Wykład 1 Klasyfikacja kosztów Wykład 1 Klasyfikacja kosztów dr Robert Piechota Pojęcie kosztów Wyrażone w pieniądzu celowe zużycie środków trwałych, materiałów, paliwa, energii, usług, czasu pracy pracowników oraz niektóre wydatki

Bardziej szczegółowo

Algorytmy genetyczne

Algorytmy genetyczne Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą

Bardziej szczegółowo

Systemy ekspertowe - wiedza niepewna

Systemy ekspertowe - wiedza niepewna Instytut Informatyki Uniwersytetu Śląskiego lab 8 Rozpatrzmy następujący przykład: Miażdżyca powoduje często zwężenie tętnic wieńcowych. Prowadzi to zazwyczaj do zmniejszenia przepływu krwi w tych naczyniach,

Bardziej szczegółowo

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Cezary Dendek Wydział Matematyki i Nauk Informacyjnych PW Plan prezentacji Plan prezentacji Wprowadzenie

Bardziej szczegółowo

Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR

Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR Przemysł samochodowy stawia najwyższe wymagania jakościowe w stosunku

Bardziej szczegółowo

ANALIZA SYSTEMU POMIAROWEGO (MSA)

ANALIZA SYSTEMU POMIAROWEGO (MSA) StatSoft Polska, tel. 1 484300, 601 414151, info@statsoft.pl, www.statsoft.pl ANALIZA SYSTEMU POMIAROWEGO (MSA) dr inż. Tomasz Greber, Politechnika Wrocławska, Instytut Organizacji i Zarządzania Wprowadzenie

Bardziej szczegółowo

Wojny Coli - czyli siła reklamy na rynku oligopolicznym

Wojny Coli - czyli siła reklamy na rynku oligopolicznym Wojny Coli (Cola wars) - czyli siła reklamy na rynku oligopolicznym Maja Włoszczowska Promotor: Dr Rafał Weron Wydział Podstawowych Problemów Techniki Politechnika Wrocławska Wrocław, 26 stycznia 2008

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Podstawy OpenCL część 2

Podstawy OpenCL część 2 Podstawy OpenCL część 2 1. Napisz program dokonujący mnożenia dwóch macierzy w wersji sekwencyjnej oraz OpenCL. Porównaj czasy działania obu wersji dla różnych wielkości macierzy, np. 16 16, 128 128, 1024

Bardziej szczegółowo

REGULAMIN SERWISU INFORMACYJNEGO WWF TYGRYS

REGULAMIN SERWISU INFORMACYJNEGO WWF TYGRYS REGULAMIN SERWISU INFORMACYJNEGO WWF TYGRYS 1 Definicje 1. Użyte w niniejszym Regulaminie pojęcia i definicje będą miały poniżej przedstawione znaczenie: a. Organizator - podmiot wskazany w 2 ust. 1 poniżej;

Bardziej szczegółowo

Zmienność. Co z niej wynika?

Zmienność. Co z niej wynika? Zmienność. Co z niej wynika? Dla inwestora bardzo ważnym aspektem systemu inwestycyjnego jest moment wejścia na rynek (moment dokonania transakcji) oraz moment wyjścia z rynku (moment zamknięcia pozycji).

Bardziej szczegółowo

Nieskończona jednowymiarowa studnia potencjału

Nieskończona jednowymiarowa studnia potencjału Nieskończona jednowymiarowa studnia potencjału Zagadnienie dane jest następująco: znaleźć funkcje własne i wartości własne operatora energii dla cząstki umieszczonej w nieskończonej studni potencjału,

Bardziej szczegółowo

System bonus-malus z mechanizmem korekty składki

System bonus-malus z mechanizmem korekty składki System bonus-malus z mechanizmem korekty składki mgr Kamil Gala Ubezpieczeniowy Fundusz Gwarancyjny dr hab. Wojciech Bijak, prof. SGH Ubezpieczeniowy Fundusz Gwarancyjny, Szkoła Główna Handlowa Zagadnienia

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA Krzysztof Suwada, StatSoft Polska Sp. z o.o. Wstęp Wiele różnych analiz dotyczy danych opisujących wielkości charakterystyczne bądź silnie

Bardziej szczegółowo

Zarządzanie strategiczne

Zarządzanie strategiczne 1 Zarządzanie strategiczne Metody i narzędzia BCG rafal.trzaska@ue.wroc.pl www.ksimz.ue.wroc.pl www.rafaltrzaska.pl BCG metoda portfelowa powstała 1969 model nazywany niekiedy Growth-ShareMatrix skonstruowana

Bardziej szczegółowo

Poszerzona funkcjonalność procesów logistycznych na przykładzie systemu Plan-de-CAMpagne

Poszerzona funkcjonalność procesów logistycznych na przykładzie systemu Plan-de-CAMpagne Poszerzona funkcjonalność procesów logistycznych na przykładzie systemu Plan-de-CAMpagne W dzisiejszych czasach mamy do czynienia z dynamicznie zmieniającym się rynkiem dóbr i usług, w którym aby przetrwać,

Bardziej szczegółowo

PRZEWODNIK. Wymiana walut w kantorze internetowym topfx

PRZEWODNIK. Wymiana walut w kantorze internetowym topfx PRZEWODNIK Wymiana walut w kantorze internetowym topfx Aby wykonać operację wymiany walut, Użytkownik kantoru internetowego topfx.pl musi posiadać minimum dwa rachunki bankowe: rachunek złotówkowy (PLN)

Bardziej szczegółowo

Raport oceny kompetencji

Raport oceny kompetencji Symulacje oceniające kompetencje Raport oceny kompetencji Rut Paweł 08-01-2015 Kompetencje sprzedażowe dla efactor Sp. z o.o. Dane osobowe Rut Paweł CEO pawel.rut@efactor.pl more-than-manager.com 2 z 13

Bardziej szczegółowo

TRANSAKCJE ARBITRAŻOWE PODSTAWY TEORETYCZNE cz. 1

TRANSAKCJE ARBITRAŻOWE PODSTAWY TEORETYCZNE cz. 1 TRANSAKCJE ARBITRAŻOWE PODSTAWY TEORETYCZNE cz. 1 Podstawowym pojęciem dotyczącym transakcji arbitrażowych jest wartość teoretyczna kontraktu FV. Na powyższym diagramie przedstawiono wykres oraz wzór,

Bardziej szczegółowo

Metody niedyskontowe. Metody dyskontowe

Metody niedyskontowe. Metody dyskontowe Metody oceny projektów inwestycyjnych TEORIA DECYZJE DŁUGOOKRESOWE Budżetowanie kapitałów to proces, który ma za zadanie określenie potrzeb inwestycyjnych przedsiębiorstwa. Jest to proces identyfikacji

Bardziej szczegółowo

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne Metody numeryczne materiały do wykładu dla studentów 7. Całkowanie numeryczne 7.1. Całkowanie numeryczne 7.2. Metoda trapezów 7.3. Metoda Simpsona 7.4. Metoda 3/8 Newtona 7.5. Ogólna postać wzorów kwadratur

Bardziej szczegółowo

PROGNOZOWANIE PRZYCHODÓW ZE SPRZEDAŻY

PROGNOZOWANIE PRZYCHODÓW ZE SPRZEDAŻY Joanna Chrabołowska Joanicjusz Nazarko PROGNOZOWANIE PRZYCHODÓW ZE SPRZEDAŻY NA PRZYKŁADZIE PRZEDSIĘBIORSTWA HANDLOWEGO TYPU CASH & CARRY Wprowadzenie Wśród wielu prognoz szczególną rolę w zarządzaniu

Bardziej szczegółowo

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania Politechnika Poznańska Modele i narzędzia optymalizacji w systemach informatycznych zarządzania Joanna Józefowska POZNAŃ 2010/11 Spis treści Rozdział 1. Metoda programowania dynamicznego........... 5

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Analiza. wrażliwości cenowej. Jaką cenę ustalić, aby zmaksymalizować. www.conquest.pl

Analiza. wrażliwości cenowej. Jaką cenę ustalić, aby zmaksymalizować. www.conquest.pl Analiza wrażliwości cenowej Jaką cenę ustalić, aby zmaksymalizować zysk? www.conquest.pl = Analiza cenowej wrażliwości Ustalanie odpowiedniej ceny dla produktu jest zazwyczaj czasochłonne i trudne. Często

Bardziej szczegółowo

Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem przedsięwzięcia z wykorzystaniem metod sieciowych PERT i CPM

Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem przedsięwzięcia z wykorzystaniem metod sieciowych PERT i CPM SZKOŁA GŁÓWNA HANDLOWA w Warszawie STUDIUM MAGISTERSKIE Kierunek: Metody ilościowe w ekonomii i systemy informacyjne Karol Walędzik Nr albumu: 26353 Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem

Bardziej szczegółowo

Monitoring mediów. Oferta sieci komórkowych dla firm. (Orange, Era, Plus)

Monitoring mediów. Oferta sieci komórkowych dla firm. (Orange, Era, Plus) Monitoring mediów Oferta sieci komórkowych dla firm (Orange, Era, Plus) 1 Pan Jan Kowalski założył nową, własną działalność gospodarczą. W swojej pracy potrzebuje stałego kontaktu ze swoimi kontrahentami.

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE: DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE: DATAMINING 1 S t r o n a WSTĘP Czyli jak zastąpić wróżenie z fusów i przysłowiowego nosa, statystyką i modelami ekonometrycznymi. Niniejszy dokument,

Bardziej szczegółowo

Zwrot z inwestycji w IT: prawda czy mity

Zwrot z inwestycji w IT: prawda czy mity Zwrot z inwestycji w IT: prawda czy mity Inwestycje w technologie IT 1 muszą podlegać takim samym regułom oceny, jak wszystkie inne: muszą mieć ekonomiczne uzasadnienie. Stanowią one koszty i jako takie

Bardziej szczegółowo

ZYSK BRUTTO, KOSZTY I ZYSK NETTO

ZYSK BRUTTO, KOSZTY I ZYSK NETTO ZYSK BRUTTO, KOSZTY I ZYSK NETTO MARŻA BRUTTO Marża i narzut dotyczą tego ile właściciel sklepu zarabia na sprzedaży 1 sztuki pojedynczej pozycji. Marża brutto i zysk brutto odnoszą się do tego ile zarabia

Bardziej szczegółowo

WYKŁAD 6. Reguły decyzyjne

WYKŁAD 6. Reguły decyzyjne Wrocław University of Technology WYKŁAD 6 Reguły decyzyjne autor: Maciej Zięba Politechnika Wrocławska Reprezentacje wiedzy Wiedza w postaci reguł decyzyjnych Wiedza reprezentowania jest w postaci reguł

Bardziej szczegółowo

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

III. ZMIENNE LOSOWE JEDNOWYMIAROWE III. ZMIENNE LOSOWE JEDNOWYMIAROWE.. Zmienna losowa i pojęcie rozkładu prawdopodobieństwa W dotychczas rozpatrywanych przykładach każdemu zdarzeniu była przyporządkowana odpowiednia wartość liczbowa. Ta

Bardziej szczegółowo

Rozdział ten zawiera informacje na temat zarządzania Modułem Modbus TCP oraz jego konfiguracji.

Rozdział ten zawiera informacje na temat zarządzania Modułem Modbus TCP oraz jego konfiguracji. 1 Moduł Modbus TCP Moduł Modbus TCP daje użytkownikowi Systemu Vision możliwość zapisu oraz odczytu rejestrów urządzeń, które obsługują protokół Modbus TCP. Zapewnia on odwzorowanie rejestrów urządzeń

Bardziej szczegółowo

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć Katalog wymagań programowych na poszczególne stopnie szkolne Matematyka. Poznać, zrozumieć Kształcenie w zakresie podstawowym. Klasa 3 Poniżej podajemy umiejętności, jakie powinien zdobyć uczeń z każdego

Bardziej szczegółowo

oferty kupujących oferty wytwórców

oferty kupujących oferty wytwórców Adam Bober Rybnik, styczeń Autor jest pracownikiem Wydziału Rozwoju Elektrowni Rybnik S.A. Artykuł stanowi wyłącznie własne poglądy autora. Jak praktycznie zwiększyć obrót na giełdzie? Giełda jako jedna

Bardziej szczegółowo

Dodatek Solver Teoria Dodatek Solver jest częścią zestawu poleceń czasami zwaną narzędziami analizy typu co-jśli (analiza typu co, jeśli?

Dodatek Solver Teoria Dodatek Solver jest częścią zestawu poleceń czasami zwaną narzędziami analizy typu co-jśli (analiza typu co, jeśli? Dodatek Solver Teoria Dodatek Solver jest częścią zestawu poleceń czasami zwaną narzędziami analizy typu co-jśli (analiza typu co, jeśli? : Proces zmieniania wartości w komórkach w celu sprawdzenia, jak

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Ewelina Dziura Krzysztof Maryański

Ewelina Dziura Krzysztof Maryański Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład

Bardziej szczegółowo

4.3 Grupowanie według podobieństwa

4.3 Grupowanie według podobieństwa 4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi

Bardziej szczegółowo

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

Metrologia: organizacja eksperymentu pomiarowego

Metrologia: organizacja eksperymentu pomiarowego Metrologia: organizacja eksperymentu pomiarowego (na podstawie: Żółtowski B. Podstawy diagnostyki maszyn, 1996) dr inż. Paweł Zalewski Akademia Morska w Szczecinie Teoria eksperymentu: Teoria eksperymentu

Bardziej szczegółowo

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą 1. Statystyka odczytać informacje z tabeli odczytać informacje z diagramu 2. Mnożenie i dzielenie potęg o tych samych podstawach 3. Mnożenie i dzielenie potęg o tych samych wykładnikach 4. Potęga o wykładniku

Bardziej szczegółowo

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony Agnieszka Kamińska, Dorota Ponczek MATeMAtyka 3 Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych Zakres podstawowy i rozszerzony Wyróżnione zostały następujące wymagania

Bardziej szczegółowo

Sieci neuronowe - dokumentacja projektu

Sieci neuronowe - dokumentacja projektu Sieci neuronowe - dokumentacja projektu Predykcja finansowa, modelowanie wskaźnika kursu spółki KGHM. Piotr Jakubas Artur Kosztyła Marcin Krzych Kraków 2009 1. Sieci neuronowe - dokumentacja projektu...

Bardziej szczegółowo

SPIS TREŚCI. Do Czytelnika... 7

SPIS TREŚCI. Do Czytelnika... 7 SPIS TREŚCI Do Czytelnika.................................................. 7 Rozdział I. Wprowadzenie do analizy statystycznej.............. 11 1.1. Informacje ogólne..........................................

Bardziej szczegółowo

Testowanie hipotez. 1 Testowanie hipotez na temat średniej

Testowanie hipotez. 1 Testowanie hipotez na temat średniej Testowanie hipotez Poziom p Poziom p jest to najmniejszy poziom istotności α, przy którym możemy odrzucić hipotezę zerową dysponując otrzymaną wartością statystyki testowej. 1 Testowanie hipotez na temat

Bardziej szczegółowo

Podstawy systemów kryptograficznych z kluczem jawnym RSA

Podstawy systemów kryptograficznych z kluczem jawnym RSA Podstawy systemów kryptograficznych z kluczem jawnym RSA RSA nazwa pochodząca od nazwisk twórców systemu (Rivest, Shamir, Adleman) Systemów z kluczem jawnym można używać do szyfrowania operacji przesyłanych

Bardziej szczegółowo

Modyfikacja algorytmów retransmisji protokołu TCP.

Modyfikacja algorytmów retransmisji protokołu TCP. Modyfikacja algorytmów retransmisji protokołu TCP. Student Adam Markowski Promotor dr hab. Michał Grabowski Cel pracy Celem pracy było przetestowanie i sprawdzenie przydatności modyfikacji klasycznego

Bardziej szczegółowo

Programowanie genetyczne - gra SNAKE

Programowanie genetyczne - gra SNAKE PRACOWNIA Z ALGORYTMÓW EWOLUCYJNYCH Tomasz Kupczyk, Tomasz Urbański Programowanie genetyczne - gra SNAKE II UWr Wrocław 2009 Spis treści 1. Wstęp 3 1.1. Ogólny opis.....................................

Bardziej szczegółowo

Rozdział ten zawiera informacje o sposobie konfiguracji i działania Modułu OPC.

Rozdział ten zawiera informacje o sposobie konfiguracji i działania Modułu OPC. 1 Moduł OPC Moduł OPC pozwala na komunikację z serwerami OPC pracującymi w oparciu o model DA (Data Access). Dzięki niemu można odczytać stan obiektów OPC (zmiennych zdefiniowanych w programie PLC), a

Bardziej szczegółowo

Scoring kredytowy w pigułce

Scoring kredytowy w pigułce Analiza danych Data mining Sterowanie jakością Analityka przez Internet Scoring kredytowy w pigułce Mariola Kapla Biuro Informacji Kredytowej S.A. StatSoft Polska Sp. z o.o. ul. Kraszewskiego 36 30-110

Bardziej szczegółowo

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2 Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Etapy modelowania ekonometrycznego

Etapy modelowania ekonometrycznego Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,

Bardziej szczegółowo

Faktura VAT jak ją czytać

Faktura VAT jak ją czytać Faktura VAT jak ją czytać Widok ogólny faktury 1 STRONA Nabywca: Nazwa Firmy Adres siedziby firmy NIP Numer Konta Klienta Dane do korespondencji Nazwa Firmy Adres korespondencyjny 1. Pole adres nadawcy

Bardziej szczegółowo

RELACYJNE BAZY DANYCH

RELACYJNE BAZY DANYCH RELACYJNE BAZY DANYCH Aleksander Łuczyk Bielsko-Biała, 15 kwiecień 2015 r. Ludzie używają baz danych każdego dnia. Książka telefoniczna, zbiór wizytówek przypiętych nad biurkiem, encyklopedia czy chociażby

Bardziej szczegółowo

POISSONOWSKA APROKSYMACJA W SYSTEMACH NIEZAWODNOŚCIOWYCH

POISSONOWSKA APROKSYMACJA W SYSTEMACH NIEZAWODNOŚCIOWYCH POISSONOWSKA APROKSYMACJA W SYSTEMACH NIEZAWODNOŚCIOWYCH Barbara Popowska bpopowsk@math.put.poznan.pl Politechnika Poznańska http://www.put.poznan.pl/ PROGRAM REFERATU 1. WPROWADZENIE 2. GRAF JAKO MODEL

Bardziej szczegółowo

PRZEWODNIK DO PRZYGOTOWANIA PLANU DZIAŁALNOŚCI GOSPODARCZEJ

PRZEWODNIK DO PRZYGOTOWANIA PLANU DZIAŁALNOŚCI GOSPODARCZEJ PRZEWODNIK DO PRZYGOTOWANIA PLANU DZIAŁALNOŚCI GOSPODARCZEJ CZYM JEST PLAN DZIAŁALNOŚCI GOSPODARCZEJ (BIZNES-PLAN), I DO CZEGO JEST ON NAM POTRZEBNY? Plan działalności gospodarczej jest pisemnym dokumentem,

Bardziej szczegółowo

Wykorzystanie transmisji danych oraz innych usług telefonii mobilnej w latach 2010-2014

Wykorzystanie transmisji danych oraz innych usług telefonii mobilnej w latach 2010-2014 + Wykorzystanie transmisji danych oraz innych usług telefonii mobilnej w latach 21-214 Prezes Urzędu Komunikacji Elektronicznej Warszawa, sierpień 215 r. [mld MB] Poniższe zestawienia powstały w oparciu

Bardziej szczegółowo

Maria Romanowska UDOWODNIJ, ŻE... PRZYKŁADOWE ZADANIA MATURALNE Z MATEMATYKI

Maria Romanowska UDOWODNIJ, ŻE... PRZYKŁADOWE ZADANIA MATURALNE Z MATEMATYKI Maria Romanowska UDOWODNIJ, ŻE... PRZYKŁADOWE ZADANIA MATURALNE Z MATEMATYKI Matematyka dla liceum ogólnokształcącego i technikum w zakresie podstawowym i rozszerzonym Z E S Z Y T M E T O D Y C Z N Y Miejski

Bardziej szczegółowo

INFORMATYKA W SELEKCJI

INFORMATYKA W SELEKCJI - zagadnienia. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel). Podstawy pracy z relacyjną bazą danych w programie MS Access. Specjalistyczne programy statystyczne na przykładzie pakietu SAS

Bardziej szczegółowo

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:

Bardziej szczegółowo

1 Moduł Modbus ASCII/RTU

1 Moduł Modbus ASCII/RTU 1 Moduł Modbus ASCII/RTU Moduł Modbus ASCII/RTU daje użytkownikowi Systemu Vision możliwość komunikacji z urządzeniami za pomocą protokołu Modbus. Moduł jest konfigurowalny w taki sposób, aby umożliwiał

Bardziej szczegółowo

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Algorytm k-nn Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie? knn k nearest neighbours jest

Bardziej szczegółowo

Kryteria wyboru operatorów usług telefonicznych przez abonentów w Polsce

Kryteria wyboru operatorów usług telefonicznych przez abonentów w Polsce Roman Nierebiński Opisano czynniki, wpływające na wybór operatora usług telefonii stacjonarnej i komórkowej. Wskazano najczęściej wybieranych operatorów telefonicznych oraz podano motywy wyboru. telekomunikacja,

Bardziej szczegółowo