Modele eksploracji danych - CROSS-SELLING, LTV, EVENT

Wielkość: px
Rozpocząć pokaz od strony:

Download "Modele eksploracji danych - CROSS-SELLING, LTV, EVENT"

Transkrypt

1 Zakład Zaawansowanych Technik Informacyjnych (Z-6) Modele eksploracji danych - CROSS-SELLING, LTV, EVENT Praca statutowa nr Warszawa, grudzień 2006

2 Modele eksploracji danych - CROSS-SELLING, LTV, EVENT Praca statutowa nr Słowa kluczowe: data-mining, cross-selling, wartość życiowa klienta, zdarzenie, telekomunikacja Kierownik pracy: dr inż. Janusz Granat Wykonawcy pracy: dr inż. Janusz Granat dr inż. Szymon Jaroszewicz mgr inż. Cezary Chudzian mgr inż. Robert Kuśmierek mgr inż. Paweł Białoń c Copyright by Instytut Łączności, Warszawa 2006

3 Spis treści 1 Wstęp 4 2 Cross-selling Pojęcia cross-sellingu i up-sellingu i ich znaczenie w telekomunikacji Dostępne rozwiązania cross-sellingowe i przegląd literatury Rozwiązania komercyjne Rozwiązania przedstawione w literaturze Dane testowe Problem sprzedaży ofert promocyjnych dla użytkowników telefonów komórkowych Generator danych Zastosowanie reguł asocjacyjnych interesujących względem sieci bayesowskich Metoda z użyciem sieci bayesowskiej jako wiedzy z dziedziny i metody filtrowania reguł asocjacyjnych Budowa sieci Bayesowskiej Testowanie rozwiązania Cross-selling oparty na klasyfikatorach Wyniki testów Wnioski i przyszłe kierunki badań Wartość Życiowa Klienta (Lifetime Value) Przegląd literatury Badania na rzeczywistych danych PTK Centertel Prognozowana wielkość, przygotowanie danych i ocena dokładności Proste modele bazowe Modele statystyczne Budowa oddzielnego modelu dla każdego użytkownika Wnioski Badania innych metod predykcji prowadzone na danych testowych Standardowe modele regresji (metody statystyczne i uczenia maszynowego) Metody uczenia maszynowego przeznaczone dla szeregów czasowych Wnioski Przyszłe badania

4 A Przedziały dyskretyzacji zmiennych w modelu cross-sellingowym 44 B Wyniki przedstawione w formie artykułów 46 3

5 Rozdział 1 Wstęp Praca niniejsza dotyczy ważnych aspektów analizy danych marketingowych, a w szczególności danych dotyczących rynku usług telekomunikacyjnych. Zagadnienia te są bezpośrednio związane z pracami wykonywanymi przez Zakład Zaawansowanych Technik Informacyjnych Instytutu Łączności dla Przedsiębiorstwa Telefonii Komórkowej Centertel. Rynek usług telekomunikacyjnych w ogólności, a telefonii komórkowej w szczególności, jest rynkiem szczególnym. W dziedzinie tej zachodzi bardzo szybki rozwój technologiczny, co owocuje ciągłym pojawianiem się nowych usług. Zjawisko to ulegnie w najbliższej przyszłości jeszcze większemu nasileniu z uwagi na pojawienie się telefonii komórkowej trzeciej generacji. Następuje też ciągłe obniżanie cen, a co za tym idzie ciągłe zmniejszanie się marży operatorów. Częste akcje promocyjne powodują znaczną migrację użytkowników między operatorami, zwłaszcza w najważniejszym obecnie systemie pre-paid. Te szczególne własności rynku telekomunikacyjnego zwiększają wagę pełnego wykorzystania posiadanych danych o klientach do celów marketingowych, a jednocześnie stawiają przed nim znaczne wyzwania, jak choćby konieczność radzenia sobie z ogromną ilością danych. Pierwszym rozpatrywanym zagadnieniem jest problem cross-sellingu, to znaczy sprzedaży dodatkowych usług dotychczasowym klientom firmy. Jest to problem szczególnie istotny, gdyż z im większej liczby usług dany klient korzysta, tym mniej prawdopodobne jest jego przejście do konkurencji. W pracy przedstawiono dwie metody rozwiązania problemu. Pierwsza jest oparta o analizę koszykową połączoną z metodą selekcji reguł opartą o wiedzę z dziedziny. W wyniku jej zastosowania otrzymuje się model probabilistyczny (sieć bayesowską) pozwalający na przewidywanie prawdopodobieństwa akceptacji konkretnych usług. Drugie podejście opiera się na zastosowaniu metod klasyfikacji. Drugim rozpatrywanym problemem jest prognozowanie wartości życiowej klienta. W większości firm, nie tylko telekomunikacyjnych, większa część zysków wytwarzana jest przez bardzo małą grupę klientów. Ważna jest więc identyfikacja klientów, którzy chociaż obecnie nie są rentowni, mogą w przyszłości przynosić firmie znaczne zyski. Ważne jest też ściśle z tym pozwiązane zagadnienie prognozowania kosztów i przychodów firmy związanych z różnymi segmentami rynku na najbliższe miesiące. W pracy przebadano przydatność szeregu metod predykcji pod kątem przydatności w prognozowaniu zysku firmy telekomunikacyjnej. Modele zostały przetestowane na rzeczywistych danych PTK Centertel a także na innych danych testowych. 4

6 Kolejnym podjętym w pracy tematem jest data-mining opraty o zdarzenia. Ma to szczególne znaczenie w sektorze telefonii komórkowej z uwagi na nieustannie pojawiające się promocje i akcje marketingowe, które wpływają na zachowanie rynku. Reagowanie na takie zdarzenia jest dla firm telekomunikacyjnych bardzo istotne. W ramach pracy powstał też szereg artykułów powiązanych z tematyką pracy. Trzy z nich zostały już opublikowane, a kolejna została przyjęta do publikacji. W projekcie wzięły również udział studentki-stażystki Izabela Windyga i Nada Atallah. 5

7 Rozdział 2 Cross-selling 2.1 Pojęcia cross-sellingu i up-sellingu i ich znaczenie w telekomunikacji Definicje pojęć cross-sellingu i up-sellingu przedstawione są poniżej (na podstawie Wikipedii) Cross-selling jest strategią sprzedaży innych produktów klientowi, który wcześniej dokonał już zakupu (lub wyrażał taki zamiar). Produkty te nie są zazwyczaj związane z produktem podstawowym i mają na celu zwiększenie zależności klienta od firmy, a co za tym idzie jego lojalności. Up-selling jest techniką sprzedaży polegającą na próbie skłonienia klienta do zakupu droższego produktu lub dodatkowych akcesoriów w celu zwiększenia wartości transakcji. Up-selling zazwyczaj oznacza próbę skłonienia klienta do zakupu produktów bardziej rentownych (dla sprzedającego), ale może też oznaczać zaproponowanie klientowi opcji, których wcześniej nie był świadomy lub które były dla niego niedostępne. W pracy niniejszej zajmiemy się głównie pojęciem cross-sellingu, z uwagi na większe zainteresowanie PTK Centertel. Rynek usług telekomunikacyjnych charakteryzuje się dużą dynamiką usług i małą lojalnością klientów. Z uwagi na ciągłe powstawanie nowych usług jak i częste i agresywne oferty promocyjne, następuje ciągła migracja klientów między konkurencyjnymi firmami. Dla PTK Centertel cross-selling ma więc duże znaczenie z dwóch powodów. Po pierwsze (efekt bezpośredni) powoduje zwiększenie sprzedaży. Po drugie, klienci korzystający z wielu różnorodnych usług stają się bardziej zależni od firmy i zmniejsza się prawdopodobieństwo ich przejścia do konkurencji. W przypadku firm telekomunikacyjnych kontakt z klientem może odbywać się za pomocą szeregu kanałów 1. propozycje składane klientowi, gdy kontaktuje się on z call-center, 2. kontakt telefoniczny z klientem, 3. kontakt z klientem za pomocą SMS, 6

8 4. kontakt z klientem za pomocą przesyłki pocztowej (oddzielnej lub przesyłanej łącznie z rachunkiem). Może się wydawać, że koszt niektórych z tych kanałów (zwłaszcza kontaktu z klientem za pomocą SMSa) jest znikomy, możliwe jest więc wysyłanie dużej liczby ofert crosssellingowych. Przekonanie to jest jednak błędne. Jest tak dlatego, że reakcja klienta na nadmierną ilość ofert jest w przeważającej mierze negatywna [4]. Potwierdziły to wcześniejsze badania prowadzone przez Zakład Zaawansowanych Technik Informacyjnych, w których stwierdzono, że w niektórych przypadkach wysyłanie SMSów z ofertą doprowadziło do obniżenia akceptacji usługi. Wynika stąd, iż liczba ofert cross-sellingowych jest ograniczona, a co za tym idzie, konieczny jest bardzo staranny wybór produktu oferowanego danemu użytkownikowi, aby zmaksymalizować prawdopodobieństwo trafienia. 2.2 Dostępne rozwiązania cross-sellingowe i przegląd literatury W tej części zostaną przedstawione dostępne na rynku, jak i opisane w literaturze rozwiązania cross-sellingowe Rozwiązania komercyjne Kilka firm oferuje gotowe produkty służące do cross-sellingu. Niestety rzadko dostępne są szczegółowe opisy metody działania systemów, niedostępne są też wersje testowe. Poniższy opis dwóch wybranych produktów będzie więc z konieczności skrótowy. SAS Up-sell, Cross-sell for telecommunications SAS oferuje gotowy produkt do Cross-sellingu w telekomunikacji [31]. Brak jest szczegółowych informacji na temat jego działania. Firma podaje jednak, że jest on oparty o analizę koszykową. Analiza ta jest używana do badania typowych ścieżek rozwoju klienta, np. od jednej linii telefonicznej do kilku linii wraz z internetem. Pozwala to identyfikować, którzy klienci są potencjalnie zainteresowanie zakupem nowych usług. System jest konstruowany przez specjalistów SASa i wymaga zakupu systemu tej firmy. IBM Guided Selling & Active Advisor Kompleksowe rozwiązanie cross-sellingowe, dostosowane w szczególności do handlu detalicznego. Nie dostosowany specyficznie do potrzeb telekomunikacji. Brak opisu stosowanych metod i algorytmów Rozwiązania przedstawione w literaturze W literaturze związanej z data-mining zostało przedstawionych tylko kilka prac na temat cross-sellingu. Zostaną one krótko scharakteryzowane poniżej. Przykładowa aplikacja cross-sellingowa w bankowości jest przedstawiona w książce [4]. Źródło to wyróżnia fakt, że podany został bardzo szczegółowy opis zarówno samej metody, jak i konkretnego przykładu zastosowania w sektorze bankowym. Zadaniem było 7

9 wytypowanie grupy klientów, którzy skłonni byliby skorzystać z oferty otwarcia rachunku brokerskiego (rachunku akcji). Użyta metoda polega na budowie klasyfikatora (drzewo decyzyjne) dla każdej usługi oddzielnie i oferowaniu klientowi usługi najbardziej prawdopodobnej. Jeżeli klient nie ma danej usługi i znajduje się w liściu drzewa, w którym wielu klientów z tej usługi korzysta, to prawdopodobieństwo, że on też z tej usługi skorzysta, jest uznawane za wysokie. Według danych autorów modelowi udało się osiągnąć o kilkadziesiąt procent wyższy odsetek akceptacji usługi niż w przypadku oferty losowej. Z powodu ograniczeń wewnętrznych klasyfikator budowany jest na podstawie wcześniej zgromadzonych danych klientów banku, którzy już z tej usługi skorzystali. Oczywiście, założenie to może okazać się błędne, gdyż potencjalni nowi klienci mogą być zupełnie niepodobni do klientów już korzystających z usługi. Lepszym rozwiązaniem byłoby wysłanie oferty pilotowej i budowa klasyfikatora na podstawie jej wyników. W ten sposób mamy większą szansę na dotarcie do zupełnie nowych grup klientów, jednak rozwiązanie to wiąże się z wydłużonym czasem akcji marketingowej i jej zwiększonymi kosztami, co nie zawsze jest do zaakceptowania. W pracy [32] autorzy używają reguł asocjacyjnych i modeli statystycznych do predykcji zakupów na podstawie logów z serwerów WWW. Reguły asocjacyjne stosowane są do generowania cech, które następnie są wejściami hybrydowego klasyfikatora. W pracy [19] probabilistyczny model z ukrytymi zmiennymi jest używany do przewidywania zachowań klientów na podstawie ich zakupów oraz danych z ankiet. Zaletą tego typu modeli jest duża elastyczność i możliwość uwzględniania zmiennych ukrytych. Wadą jest trudność w wykryciu nieznanych zależności nieuwzględnionych w modelu. W niniejszej problem dotyczący modeli probabilistycznych został rozwiązany przez połącznenie ich z analizą koszykową. W pracy [35] przedstawiono rozwiązanie umożliwiające wybór podzbioru usług na które powinna być skierowana akcja promocyjna tak, by zmaksymalizować całościowy zysk. Uwzględniany jest wpływ popularności jednych towarów na popularność innych. Analiza zależności między produktami oparta jest o analizę koszykową (reguły asocjacyjne). Udowodniono, że wybór optymalnego zbioru produktów jest NP-zupełny. Zaproponowano więc przybliżony algorytm zachłanny. Zbliżoną dziedziną analizy danych są tzw. systemy rekomendacji (ang. recommender systems) [1]. Systemy te starają się zaoferować klientowi towar na podstawie podobieństwa jego historii zakupów do historii zakupów innych klientów. Najbardziej chyba znanym przykładem takiego systemu jest strona księgarni wysyłkowej wyświetlająca informację ci, którzy kupili tę książkę często kupowali również.... Systemy takie są jednak przystosowane w szczególności do dużych sklepów wysyłkowych: nie wykorzystują danych klienta innych niż historia zakupów i działają na bardzo dużych bazach produktów (dziesiątki i setki tysięcy). Charakterystyka zadania cross-sellingowego w PTK Centertel jest diametralnie inna: oferowana jest względnie mała liczba usług, dane o historii zakupów klienta mają relatywnie małe znaczenie w przeciwieństwie do innych danych na jego/jej temat takich jak płeć, miejsce zamieszkania, historia połączeń, które mają znaczenie kluczowe. Powoduje to, że systemy rekomendacji nie nadają się do zastosowań w cross-sellingu telekomunikacyjnym. 8

10 Podsumowanie Z powyższej dyskusji wynika, że istnieją dwa główne podejścia do problemu cross-sellingu. 1. budowa oddzielnego klasyfikatora dla każdej z usług i oferowanie usługi, której klasyfikator przewiduje największe prawdopodobieństwo zakupu, 2. zastosowanie reguł asocjacyjnych (analiza koszykowa) do znalezienia związków między danymi klienta i usługami z których korzysta. Na podstawie tych reguł budowany jest następnie model sugerujący, które usługi należy zaoferować. W niniejszej pracy zastosowano i przeanalizowano obie te metody. 2.3 Dane testowe W tej części zostanie przedstawiony opis konkretnego problemu cross-sellingowego, na którym koncentrowaliśmy się w pracy Problem sprzedaży ofert promocyjnych dla użytkowników telefonów komórkowych W niniejszej pracy skupiono się na akcji cross-sellingowej nakierowanej na trzy usługi dodatkowe, które umożliwiają klientowi obniżenie kosztów połączeń. Są to następujące usługi: RL - rozmowy lokalne umożliwia klientowi wykonywanie rozmów lokalnych po obniżonej cenie TPG - taniej po godzinach umożliwia klientowi wykonywanie tańszych rozmów po godzinie 18. TPWS - tanie połączenia w sieci obniżka cen połączeń wewnątrz sieci Orange. Celem jest stworzenie systemu, który dla danego klienta zaproponuje jedną nową usługę, którą należy temu klientowi zaoferować (czy to w formie oferty SMSowej, czy też np. w czasie gdy klinet zadzwoni na linię obsługi technicznej) Generator danych Z uwagi na ścisłe restrykcje w dostępie do rzeczywistych danych w PTK Centertel, testowanie algorytmów musiało być przeprowadzone na danych generowanych. Dołożono jednak wszelkich starań aby dane były zgodne z realiami danych telekomunikacyjnych. Dla zapewnienia bezstronności w analizie wyników, generator danych i ich analiza były wykonane przez różne osoby, przy czym osoba analizująca dane nie znała uprzednio reguł, na podstawie których aktywowane były usługi w generatorze danych. Dane były generowane tak, aby opracowane algorytmy można było w przyszłości łatwo zastosować na rzeczywistych danych PTK Centertel. Etapy działania generatora przedstawiono na rys Najpierw generowane są dane bilingowe klientów, na podstawie tych danych włączane są odpowiednie usługi danego 9

11 Rysunek 2.1: Etapy działania generatora danych Tablica 2.1: Charakterystyka profili klientów Profil 1 Profil 2 Profil 3 Profil 4 Profil 5 przewaga usług typu SMS 60-70% wszystkich wykorzystanych usług krótki czas połączeń - przewaga połączeń kilkuminutowych, połączenia telefoniczne rozkład jednostajny do wszystkich operatorów przewaga połączeń poza godzinami szczytu, sporadyczne rozmowy w szczycie duża ilość rozmów w szczycie zarówno do własnej sieci oraz do sieci stacjonarnych, nieznacznie mniej wieczorami przewaga rozmów w szczycie do telefonów stacjonarnych, 1 lub 2 numery kierunkowe, przewaga połączeń do własnej sieci przewaga połączeń do kilku wybranych numerów, rozkład innych połączeń dowolny, przewaga połączeń do własnej sieci klienta. Dane są następnie agregowane do formatu występującego w hurtowniach danych, tzn. każdy rekord zagregowanej bazy odpowiada jednemu klientowi. Aby oddać zróżnicowane zachowania klientów, zostali oni podzieleni na kilka profili. Klienci z każdego profilu mają odmienne charakterystyki korzystania z usług telefonii komórkowej. Tabela 2.1 przedstawia charakterystyki użytych profili, a rys. 2.2 ich udział procentowy w danych bilingowych. Dla każdego klienta wybierana jest też losowo (z uwzględnieniem profilu) jedna z sześciu taryf podstawowych. Ogólnie, im dłużej dany użytkownik rozmawia, tym wyższy jest numer jego taryfy (uznajemy, że wyższe numery taryf oznaczają wyższy abonament, ale też niższe koszty rozmów). Na podstawie danych bilingowych i odpowiednich reguł, generowane są następnie usługi z których korzysta każdy z użytkowników. Dane są następnie agregowane do formatu hurtowni danych. W formacie tym jeden rekord tabeli danych odpowiada jednemu użytkownikowi korzystającemu z telefonu komórkowego w danym miesiącu. Pola danych dostępne w tabeli zagregowanej podane są w tabeli 2.2. Dostępne są następujące rodzaje usług to: 1 SMS 2 połączenie do własnej sieci 3 połączenie do innej sieci komórkowej 4 połączenie do sieci stacjonarnej a doba jest podzielona na następujące trzy pory dnia : 10

12 Rysunek 2.2: Udział procentowy poszczególnych profili. Tablica 2.2: Zmienne tabeli zagregowanej (format hurtowni danych) pole user-id czas-polaczen ilosc-polaczen sr-dlug-pol pd_y-il-pol pd_y-czas-pol usl_y-czas-pol usl_y-il-pol taryfa rl tpg tpws opis identyfikator użytkownika suma czasu połączeń ilość połączeń wykonanych średnia długość połączenia ilość połączeń w porze dnia y suma czasu połączeń w porze y suma czasu połączeń dla usługi y ilość połączeń dla usługi y taryfa, z której korzysta przez abonenta aktywacja usługi rozmowy lokalne aktywacja usługi taniej po godzinach aktywacja usługi tańsze połączenia w sieci 11

13 1 8:00 17: :00 23:59 3 0:00 7:59 Zmienne numeryczne zostały zdyskretyzowane. Przedziały dyskretyzacji zostały podane w dodatku A. Z uwagi na konieczność wygenerowania dużej liczby danych bilingowych dla każdego klienta, wynikowa tabela zagregowana zawiera 4920 rekordów. Dane the zostały podzielone na zbiór treningowy (4000 rekordów) i zbiór testowy (920 rekordów). Budowa modeli odbywać się będzie na zbiorze treningowym a testowane będą one na zbiorze testowym. W ten sposób zminimalizowane zostanie zjawisko tzw. przeuczenia, kiedy model zachowuje się znakomicie na danych, na których został skonstruowany, a nie jest w stanie poprawnie klasyfikować nowych przypadków. 2.4 Zastosowanie reguł asocjacyjnych interesujących względem sieci bayesowskich W tej części zostanie opisane podejście do cross-sellingu oparte o reguły asocjacyjne. Reguły asocjacyjne zostały po raz pierwszy wprowadzone przez Rakesha Agrawala i jego zespół do analizy danych z supermarketów [2]. W pierwotnym sformułowaniu reguły asocjacyjne zostały zdefiniowane dla tabeli binarnej, której każdy atrybut odpowiadał jednemu z produktów, a każdy rekord konkretnej transakcji. Atrybut miał w danym rekordzie wartość 1, jeżeli w odpowiadającej mu transakcji dokonano zakupu towaru odpowiadającego temu atrybutowi. Niech H = {A 1, A 2,...,A n } oznacza zbiór atrybutów tabeli. Weźmy dowolny podzbiór I = {A i1, A i2,..., A ik } H. Wsparcie (ang. support) zbioru atrybutów I w tabeli bazodanowej D jest zdefiniowane jako support D (I) = {t D : t[i] = (1, 1,..., 1)}, (2.1) D czyli jako odsetek rekordów bazy, w których wszystkie atrybuty I przyjmują jednocześnie wartość 1. Jeżeli I, J H i I J =, to możemy zdefiniować regułę asocjacyjną I J. Dla reguły takiej definiujemy dwie wielkości: wsparcie (ang. support) i zaufanie (ang. confidence). Wielkości te zadane są następującymi wzorami support D (I J) = support D (I J), (2.2) confidence D (I J) = support D(I J), support D (I) (2.3) to znaczy wsparcie oznacza, jak duży odsetek transakcji w bazie zawiera jednocześnie wszystkie towary w I oraz w J, a zaufanie oznacza odsetek klientów, którzy kupili wszystkie towary w I, kupili również wszystkie towary w J. W pracy [2] zaproponowano algorytm Apriori pozwalający na znalezienie wszystkich reguł asocjacyjnych o zadanym minimalnych wsparciu i zaufaniu. Minimalne wsparcie 12

14 gwarantuje nam, że znalezione reguły odnoszą się do często występujących sytuacji, a minimalne zaufanie, że gwarantują odpowiednią jakość predykcji. Reguły asocjacyjne zostały pierwotnie opisane dla tabel binarnych, po prostych konwersjach można je jednak zastosować także do atrybutów wielowartościowych oraz numerycznych (po dyskretyzacji). Zaletą reguł asocjacyjnych jest to, że istniejące algorytmy pozwalają znaleźć wszystkie reguły asocjacyjne o zadanych parametrach. Wadą jest często zbyt duża liczba znalezionych reguł, co tworzy wtórny problem analizy danych polegający na odfiltrowaniu reguł dla użytkownika nieinteresujących. Jedna z metod takiego filtrowania została w kolejnym rozdziale zastosowana do problemu cross-sellingu Metoda z użyciem sieci bayesowskiej jako wiedzy z dziedziny i metody filtrowania reguł asocjacyjnych Jak napisano wyżej, zastosowanie reguł asocjacyjnych wymaga odpowiednich metod filtracji reguł nieprzydatnych dla użytkownika. Jedna z takich metod została opracowana przez jednego z autorów pracy (we współpracy z innymi) i opublikowana w pracach [16, 15]. Metoda ta polega na uwzględnieniu dotychczasowej wiedzy użytkownika na temat analizowanej dziedziny. Wiedza ta jest reprezentowana przy pomocy formalnego modelu (sieć bayesowska). Reguły, które nie są z tą wiedzą zgodne, uznawane są za interesujące. Tak znalezione reguły są następnie używane do zmodyfikowania modelu i algorytm jest uruchamiany ponownie w celu znalezienia kolejnych interesujących reguł. Jako reprezentację wiedzy użytkownika wybrano sieci bayesowskie [23, 17, 11]. Sieci bayesowskie są modelami obrazującymi w formie grafu skierowanego zależności przyczynowe między atrybutami. Wierzchołki odpowiadają poszczególnym atrybutom, a krawędzie bezpośrednim zależnościom przyczynowym. Dodatkowo z każdym wierzchołkiem związany jest warunkowy rozkład prawdopodobieństwa. Sieć bayesowska w pełni określa łączny rozkład prawdopodobieństwa atrybutów, które opisuje. Przykładowa sieć bayesowska pokazana jest na rysunku 2.3. Zaletami sieci bayesowskich jako metody reprezentacji wiedzy jest przede wszystkich ich zrozumiałość. Zależności między atrybutami są przedstawione po prostu jako krawędzie w grafie. Sieć taka jest też łatwa w budowie. Wystarczy połączyć wierzchołki odpowiednimi krawędziami. Nie jest to zwykle trudne, gdyż ludzie zazwyczaj znakomicie radzą sobie z identyfikacją zależności przyczynowych [23]. Prawdopodobieństwa warunkowe można łatwo oszacować na podstawie danych. Dodatkową zaletą jest to, że sieć określa łączny rozkład prawdopodobieństwa, nie ma więc problemów z brakiem kompletności opisu. Niech będzie dane zdarzenie probabilistyczne A. Stopień w jakim zdarzenie to jest interesujące jest zdefiniowany następująco [16]: Inter(E) = P BN (E) P D (E), (2.4) to znaczy, bezwzględna różnica między prawdopodobieństwem tego zdarzenia obliczonego na podstawie sieci bayesowskiej i danych. Zdarzenia analizowane w pracy [16] mają postać atrybut 1 = wartość 1 atrybut 2 = wartość 2... atrybut k = wartość k. (2.5) 13

15 Rysunek 2.3: Przykład sieci bayesowskiej opisującej proste zdarzenia probabilistyczne. Algorytm przedstawiony w [16] pozwala na znalezienie wszystkich takich zdarzeń, które są w zadanym minimalnym stopniu interesujące. Głównym problemem z zastosowaniem sieci bayesowskich jest wysoka złożoność obliczeniowa znajdowania konkretnych prawdopodobieństw brzegowych, niezbędnych w równaniu 2.4. Problem ten jest bowiem NP-zupełny, a w czasie pracy algorytmu konieczne jest obliczenie tysięcy takich rozkładów brzegowych. Problem został rozwiązany poprzez obliczanie bezpośrednio z sieci tylko rozkładów o dużej liczbie atrybutów i obliczanie mniejszych rozkładów przez bezpośrednie sumowanie. Dodatkowo w pracy [15] przedstawiono przybliżony algorytm probabilistyczny, który działa dla sieci o nawet tysiącach atrybutów, dając jednak gwarancje dobrej jakości rozwiązań. Szczegółowy opis tych algorytmów wykracza poza ramy niniejszej pracy, można go znaleźć w [16, 15]. Zmiany których dokonano aby dostosować metodę do obecnie rozpatrywanego problemu Przedstawione wyżej algorytmy znajdowania interesujących koniunkcji względem sieci bayesowskich wymagały pewnych modyfikacji. Problem pojawił się w sytuacji, gdy do wierzchołka skierowana była duża liczba krawędzi. Wynikał z tego bardzo duży (rosnący wykładniczo) rozmiar warunkowego rozkładu prawdopodobieństwa w tym wierzchołku, co powodowało problemy dwojakiego rodzaju. Pierwszym problemem była duża zajętość pamięci. Drugim, trudności w wiarygodnym oszacowaniu tak dużej liczby wartości prawdopodobieństw. Na szczęście, większość z tych prawdopodobieństw jest równa zeru, problem zajętości pamięci został więc rozwiązany poprzez reprezentację rozkładu warunkowego jako listy niezerowych prawdopodobieństw. Drugi problem został rozwiązany przez zastosowanie tzw. korekty Laplace a, to znaczy, zastosowanie jednostajnego rozkładu a-priori. Ważną zaletą tego podejścia jest to, że w jego wyniku otrzymujemy gotowy model probabilistyczny (sieć bayesowską), który możemy następnie wykorzystać do wnioskowania probabilistycznego. Sieć bayesowska jest na tyle elastyczna, że można z niej odczytać 14

16 Tablica 2.3: Krawędzie odpowiadające trywialnym, znanym a-priori zależnościom między atrybutami wynikającym ze sposobu agregacji danych i doboru atrybutów dodane do sieci przed uruchomieniem algorytmu. od do uzasadnienie pd1-il-pol ilosc-polaczen Ilość połączeń jest sumą ilości połączeń we pd2-il-pol ilosc-polaczen wszystkich porach dnia. pd3-il-pol ilosc-polaczen usl1-il-pol ilosc-polaczen usl2-il-pol ilosc-polaczen Ilość połączeń jest sumą ilości połączeń wszystkich usl3-il-pol ilosc-polaczen usług. usl4-il-pol ilosc-polaczen pd1-czas-pol czas-polaczen Czas połączeń jest sumą czasu połączeń we pd2-czas-pol czas-polaczen wszystkich porach dnia. pd3-czas-pol czas-polaczen usl2-czas-pol czas-polaczen Czas połączeń jest sumą czasu połączeń wszystkich usl3-czas-pol czas-polaczen usług. usl4-czas-pol czas-polaczen usl2-il-pol usl2-czas-pol usl3-il-pol usl3-czas-pol usl4-il-pol usl4-czas-pol pd1-il-pol pd1-czas-pol Ilość połączeń wpływa na czas połączeń. pd2-il-pol pd2-czas-pol pd3-il-pol pd3-czas-pol ilosc-polaczen sr-dlug-pol Średnią długość połączeń można wyznaczyć na czas-polaczen sr-dlug-pol podstawie sumarycznej długości połączeń i liczby połączeń. praktycznie dowolne parametry modelu. Wykorzystano to w rozdziale poniżej do szacowania prawdopodobieństw akceptacji przez klienta usługi w ofercie cross-sellingowej Budowa sieci Bayesowskiej Opiszemy teraz przebieg budowy sieci bayesowskiej na podstawie zbioru treningowego. Przed pierwszym uruchomieniem algorytmu do sieci zostały dodane krawędzie odpowiadające trywialnym, znanym a-priori zależnościom między atrybutami wynikającym ze sposobu agregacji danych i doboru atrybutów. Krawędzie te zostały wymienione w tabeli 2.3. Zauważmy, że sieć bayesowska dobrze modeluje zależności między tymi atrybutami. Np. ilości połączeń w poszczególnych porach dnia są od siebie w przybliżeniu niezależne. Jeśli jednak znana jest całkowita ilość połączeń, to stają się one zależne, dokładnie tak, jak to interpretuje sieć. Poniższe tabele ilustrują proces budowy sieci Bayesowskiej opisującej zachowanie klientów. Każda nowa tabela przedstawia kolejne uruchomienie algorytmu i najbardziej 15

17 interesujące zdarzenie/zdarzenia (w sensie probabilistycznym), które zostały znalezione. Zdarzenia mają formę atrybut 1 = wartość 1 atrybut 2 = wartość 2... atrybut k = wartość k. Opis kolumn tabel: atrybuty atrybuty najbardziej interesującego zdarzenia, wartości wartości odpowiadające atrybutom w zdarzeniu, Inter. stopień w jakim zdarzenie jest interesujące, P BN prawdopodobieństwo zdarzenia obliczone na podstawie sieci bayesowskiej, P D prawdopodobieństwo zdarzenia w danych, wnioski interpretacja i wyjaśnienie zdarzenia, modyfikacje w sieci bayesowskiej dokonane na podstawie zdarzenia. pierwsze uruchomienie algorytmu najbardziej interesujące zdarzenia atrybuty wartości Inter. P BN P D wnioski iloscpolaczen, 2,N,N,N Ilość połączeń wpływa na usługi dodatkowe klientów. Klienci, którzy rl, tpg, mało dzwonią nie korzystają z tpws tych usług. Dodano krawędzie od ilosc-polaczen do rl, tpg, tpws. kolejne uruchomienie algorytmu najbardziej interesujące zdarzenia atrybuty wartości Inter. P BN P D wnioski pd2-czaspol, 1,2,N,N,N Powiązanie tych zmiennych wy- taryfa, daje się zgodne z intuicją. Aby rl, tpg, lepiej zrozumieć naturę tych zależności, tpws sprawdzono najbardziej in- teresujące pary atrybutów: sr-dlugpol, rl sr-dlugpol, rl 4,N Klienci prowadzący długie rozmowy, mają większe prawdopodobieństwo włączonej 3,N usługi rozmowy lokalne. Wniosek uznano za wiarygodny i dodano krawędź od sr-dlug-pol do rl. kolejne uruchomienie algorytmu 16

18 najbardziej interesujące zdarzenia atrybuty wartości Inter. P BN P D wnioski pd2- czas-pol, taryfa, rl, tpg, tpws butów: usl4-il-pol, rl taryfa, pd2-czaspol 1,2,N,N,N Wzorzec ten ponownie był najbardziej interesującym, jednak ponownie sprawdzono pary atry- 2,T Wpływ ilości rozmów stacjonarnych na włączoną usługę rozmowy lokalne wydaje się wiarygodny. Dodano krawędź od usl4-il-pol do rl 1, Zależność czasu rozmów w ciągu dnia i taryfy. Dodano krawędź pd2-czas-pol do taryfa kolejne uruchomienie algorytmu najbardziej interesujące zdarzenia atrybuty wartości Inter. P BN P D wnioski taryfa, rl, 1,N,N,N Wpływ taryfy na włączone usługi. tpg, tpws Klienci z tanią taryfą mało korzystają z telefonu, więc nie mają włączonych usług. Dodano krawędzie od taryfa do rl, tpg i tpws. kolejne uruchomienie algorytmu najbardziej interesujące zdarzenia atrybuty wartości Inter. P BN P D wnioski sr-dlug-pol, tpg, tpws 4,N,N Klienci prowadzący długie rozmowy mają włączoną którąś z usług tpg lub tpws. Dodano krawędzie od sr-dlug-pol do tpg i tpws. kolejne uruchomienie algorytmu najbardziej interesujące zdarzenia atrybuty wartości Inter. P BN P D wnioski iloscpolaczen, pd2-il-pol, 2,2,N,N,N Pora dnia 2 odpowiada za połączenia w ciągu dnia, więc mówi dużo o profilu klienta. Dodano krawędzie: rl, tpg, od pd2-il-pol do rl, tpg i tpws tpws. Sieć bayesowska powstała ostatecznie po zastosowaniu algorytmu została przedstawiona na rys

19 pd_2-il-pol usl_1-il-pol pd_1-il-pol pd_3-il-pol usl_2-il-pol usl_3-il-pol usl_4-il-pol pd_2-czas-pol ilosc-polaczen pd_1-czas-pol pd_3-czas-pol usl_2-czas-pol usl_3-czas-pol usl_4-czas-pol czas-polaczen 18 taryfa sr-dlug-pol tpws tpg rl Rysunek 2.4: Sieć bayesowska skonstruowana na podstawie analizy danych o zachowaniu klientów. Kolorem czarnym oznaczono znane a-priori zależności, wynikające ze sposobu agregacji danych, kolorem czerwonym zależności odkryte przy pomocy algorytmu.

20 2.4.3 Testowanie rozwiązania Rzetelne przetestowanie jakości systemu cross-sellingowego w warunkach off-line owych jest trudne. Prawdziwy test powinien polegać na wysłaniu testowej grupie klientów ofert rekomendowanych przez system, a następnie zbadaniu, ilu z nich odpowiedziało na ofertę pozytywnie. Procedurę należy powtórzyć dla innej grupy klientów z ofertami wybranymi losowo (lub np. inną dotychczas używaną metodą). Wyniki obu grup są następnie porównywane, aby stwierdzić, czy system uzyskał wyniki lepsze od losowych (lub uzyskanych dotychczas stosowanymi metodami). Wykonanie podobnego testu w ramach pracy nie było, niestety, możliwe. Zastosowano więc symulację przybliżającą warunki rzeczywistego testu. Uznajemy, że oryginalny zestaw usług każdego użytkownika ze zbioru testowego obejmuje usługi, które użytkownik już ma aktywne, lub które byłby skłonny aktywować w wyniku kampanii reklamowej (zbiór A). Dla każdego klienta usuwano losowo część usług, z których korzystał (każda z usług była usuwana z 50% prawdopodobieństwem). Ten nowy zbiór (zbiór B) jest traktowany jako zbiór usług, które użytkownik ma aktywne już przed kampanią reklamową, nie należy mu ich więc oferować. Następnie, obliczano na podstawie sieci Bayesa prawdopodobieństwa, że dany klient będzie miał aktywowaną każdą z usług, z których nie korzystał (nie były elementami zbioru B). Usługa o największym prawdopodobieństwie była wybierana jako oferta dla klienta. Dla porównania wybierano też losowo jedną z ofert, której klient nie miał (spoza zbioru B). Oferta została uznana za przyjętą, jeśli znajdowała się w zbiorze A danego klienta (tzn. jeśli była aktywna u klienta w zbiorze testowym przed jej usunięciem). Na zbiorze testowym obliczono następnie procent ofert, które zostały przyjęte znajdowały się w zbiorze A danego klineta. Wyniki przedstawione są w tabeli poniżej: procent ofert na podstawie sieci Bayesa 22.84% procent przyjętych ofert losowych 12.83% Widać więc, że sieć Bayesa zapewniła prawie dwukrotnie wyższą skuteczność niż składanie losowych ofert. Należy też zaznaczyć, że w zbiorze testowym 53.59% klientów nie miało aktywnej żadnej z ofert, co w naszym teście odpowiada odrzuceniu przez klienta każdej możliwej oferty. Ponieważ ponad 50% ofert musiało się zakończyć odrzuceniem, skuteczność ponad 22% należy uznać za bardzo wysoką. 2.5 Cross-selling oparty na klasyfikatorach W niniejszym punkcie przedstawione zostanie drugie podejście do cross-sellingu oparte na klasyfikatorach. Dla każdej z usług, które chcemy promować, budowany jest model klasyfikacyjny, który szacuje prawdopodobieństwo, że dany klient posiada tą usługę. Jak już pisano wyżej, nie jest to optymalne rozwiązanie problemu. Potencjalni nowi klienci mogą być zupełnie niepodobni do klientów już korzystających z usługi. Lepszym rozwiązaniem byłoby wysłanie oferty pilotowej i budowa klasyfikatora na podstawie jej 19

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Projekt Sieci neuronowe

Projekt Sieci neuronowe Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

9.9 Algorytmy przeglądu

9.9 Algorytmy przeglądu 14 9. PODSTAWOWE PROBLEMY JEDNOMASZYNOWE 9.9 Algorytmy przeglądu Metody przeglądu dla problemu 1 r j,q j C max były analizowane między innymi w pracach 25, 51, 129, 238. Jak dotychczas najbardziej elegancka

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

komputery? Andrzej Skowron, Hung Son Nguyen  Instytut Matematyki, Wydział MIM, UW Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Prawdopodobieństwo czerwonych = = 0.33

Prawdopodobieństwo czerwonych = = 0.33 Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

Wykład z Technologii Informacyjnych. Piotr Mika

Wykład z Technologii Informacyjnych. Piotr Mika Wykład z Technologii Informacyjnych Piotr Mika Uniwersalna forma graficznego zapisu algorytmów Schemat blokowy zbiór bloków, powiązanych ze sobą liniami zorientowanymi. Jest to rodzaj grafu, którego węzły

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2 Metody teorii gier ALP520 - Wykład z Algorytmów Probabilistycznych p.2 Metody teorii gier Cel: Wyprowadzenie oszacowania dolnego na oczekiwany czas działania dowolnego algorytmu losowego dla danego problemu.

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Porównywanie populacji

Porównywanie populacji 3 Porównywanie populacji 2 Porównywanie populacji Tendencja centralna Jednostki (w grupie) według pewnej zmiennej porównuje się w ten sposób, że dokonuje się komparacji ich wartości, osiągniętych w tej

Bardziej szczegółowo

Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych

Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych Konferencja Systemy Czasu Rzeczywistego 2012 Kraków, 10-12 września 2012 Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych Piotr Szwed AGH University

Bardziej szczegółowo

5.1 Stopa Inflacji - Dyskonto odpowiadające sile nabywczej

5.1 Stopa Inflacji - Dyskonto odpowiadające sile nabywczej 5.1 Stopa Inflacji - Dyskonto odpowiadające sile nabywczej Stopa inflacji, i, mierzy jak szybko ceny się zmieniają jako zmianę procentową w skali rocznej. Oblicza się ją za pomocą średniej ważonej cząstkowych

Bardziej szczegółowo

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

7.4 Automatyczne stawianie prognoz

7.4 Automatyczne stawianie prognoz szeregów czasowych za pomocą pakietu SPSS Następnie korzystamy z menu DANE WYBIERZ OBSERWACJE i wybieramy opcję WSZYSTKIE OBSERWACJE (wówczas wszystkie obserwacje są aktywne). Wreszcie wybieramy z menu

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Sprawozdanie z zadania Modele predykcyjne (2)

Sprawozdanie z zadania Modele predykcyjne (2) Maciej Karpus, 131529 Tomasz Skarżyński, 131618 19.04.2013r. Sprawozdanie z zadania Modele predykcyjne (2) 1. Wprowadzenie 1.1. Informacje wstępne Dane dotyczą wyników badań mammograficznych wykonanych

Bardziej szczegółowo

Laboratorium 11. Regresja SVM.

Laboratorium 11. Regresja SVM. Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Raport Porównanie oferty abonamentowej operatorów. telefonii komórkowej dla typowego uŝytkownika. Łukasz Idrian Analityk Rynku ICT

Raport Porównanie oferty abonamentowej operatorów. telefonii komórkowej dla typowego uŝytkownika. Łukasz Idrian Analityk Rynku ICT Raport Porównanie oferty abonamentowej operatorów telefonii komórkowej dla typowego uŝytkownika Łukasz Idrian Analityk Rynku ICT Grzegorz Bernatek Kierownik Działu Analiz Audytel S.A. (Maj 2009) Audytel

Bardziej szczegółowo

Klasyfikacja LDA + walidacja

Klasyfikacja LDA + walidacja Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

Wojny Coli - czyli siła reklamy na rynku oligopolicznym

Wojny Coli - czyli siła reklamy na rynku oligopolicznym Wojny Coli (Cola wars) - czyli siła reklamy na rynku oligopolicznym Maja Włoszczowska Promotor: Dr Rafał Weron Wydział Podstawowych Problemów Techniki Politechnika Wrocławska Wrocław, 26 stycznia 2008

Bardziej szczegółowo

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład

Bardziej szczegółowo

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych. mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

Metody eksploracji danych. Reguły asocjacyjne

Metody eksploracji danych. Reguły asocjacyjne Metody eksploracji danych Reguły asocjacyjne Analiza podobieństw i koszyka sklepowego Analiza podobieństw jest badaniem atrybutów lub cech, które są powiązane ze sobą. Metody analizy podobieństw, znane

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie

Bardziej szczegółowo

Strategie VIP. Opis produktu. Tworzymy strategie oparte o systemy transakcyjne wyłącznie dla Ciebie. Strategia stworzona wyłącznie dla Ciebie

Strategie VIP. Opis produktu. Tworzymy strategie oparte o systemy transakcyjne wyłącznie dla Ciebie. Strategia stworzona wyłącznie dla Ciebie Tworzymy strategie oparte o systemy transakcyjne wyłącznie dla Ciebie Strategie VIP Strategia stworzona wyłącznie dla Ciebie Codziennie sygnał inwestycyjny na adres e-mail Konsultacje ze specjalistą Opis

Bardziej szczegółowo

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego

Bardziej szczegółowo

Instytut Informatyki Uniwersytet Wrocławski. Dane w sieciach. (i inne historie) Marcin Bieńkowski

Instytut Informatyki Uniwersytet Wrocławski. Dane w sieciach. (i inne historie) Marcin Bieńkowski Dane w sieciach (i inne historie) Marcin Bieńkowski Jak przechowywać dane w sieciach (strony WWW, bazy danych, ) tak, żeby dowolne ciągi odwołań do (części) tych obiektów mogły być obsłużone małym kosztem?

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

System prognozowania rynków energii

System prognozowania rynków energii System prognozowania rynków energii STERMEDIA Sp. z o. o. Software Development Grupa IT Kontrakt ul. Ostrowskiego13 Wrocław Poland tel.: 0 71 723 43 22 fax: 0 71 733 64 66 http://www.stermedia.eu Piotr

Bardziej szczegółowo

Podstawy Sztucznej Inteligencji (PSZT)

Podstawy Sztucznej Inteligencji (PSZT) Podstawy Sztucznej Inteligencji (PSZT) Paweł Wawrzyński Uczenie maszynowe Sztuczne sieci neuronowe Plan na dziś Uczenie maszynowe Problem aproksymacji funkcji Sieci neuronowe PSZT, zima 2013, wykład 12

Bardziej szczegółowo

Programowanie liniowe

Programowanie liniowe Programowanie liniowe Maciej Drwal maciej.drwal@pwr.wroc.pl 1 Problem programowania liniowego min x c T x (1) Ax b, (2) x 0. (3) gdzie A R m n, c R n, b R m. Oznaczmy przez x rozwiązanie optymalne, tzn.

Bardziej szczegółowo

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań TABELA ODNIESIEŃ EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA PROGRAMU KSZTAŁCENIA DO EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA OBSZARU KSZTAŁCENIA I PROFILU STUDIÓW PROGRAM KSZTAŁCENIA: POZIOM KSZTAŁCENIA: PROFIL KSZTAŁCENIA:

Bardziej szczegółowo

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Zmienność. Co z niej wynika?

Zmienność. Co z niej wynika? Zmienność. Co z niej wynika? Dla inwestora bardzo ważnym aspektem systemu inwestycyjnego jest moment wejścia na rynek (moment dokonania transakcji) oraz moment wyjścia z rynku (moment zamknięcia pozycji).

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa. GLM (Generalized Linear Models) Data Mining Wykład 6 Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesa jest klasyfikatorem statystycznym -

Bardziej szczegółowo

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2 Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł

Bardziej szczegółowo

Porównanie opłacalności kredytu w PLN i kredytu denominowanego w EUR Przykładowa analiza

Porównanie opłacalności kredytu w PLN i kredytu denominowanego w EUR Przykładowa analiza Porównanie opłacalności kredytu w PLN i kredytu denominowanego w EUR Przykładowa analiza Opracowanie: kwiecień 2016r. www.strattek.pl strona 1 Spis 1. Parametry kredytu w PLN 2 2. Parametry kredytu denominowanego

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania Prognozowanie i Symulacje. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Szeregi czasowe 1 Szeregi czasowe 2 3 Szeregi czasowe Definicja 1 Szereg czasowy jest to proces stochastyczny z czasem dyskretnym

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

ANALIZA SYSTEMU POMIAROWEGO (MSA)

ANALIZA SYSTEMU POMIAROWEGO (MSA) StatSoft Polska, tel. 1 484300, 601 414151, info@statsoft.pl, www.statsoft.pl ANALIZA SYSTEMU POMIAROWEGO (MSA) dr inż. Tomasz Greber, Politechnika Wrocławska, Instytut Organizacji i Zarządzania Wprowadzenie

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta www.michalbereta.pl W tej części: Zachowanie wytrenowanego modelu w celu późniejszego użytku Filtrowanie danych (brakujące etykiety

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

ZAGADNIENIE TRANSPORTOWE

ZAGADNIENIE TRANSPORTOWE ZAGADNIENIE TRANSPORTOWE ZT jest specyficznym problemem z zakresu zastosowań programowania liniowego. ZT wykorzystuje się najczęściej do: optymalnego planowania transportu towarów, przy minimalizacji kosztów,

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcja homograficzna. Definicja. Funkcja homograficzna jest to funkcja określona wzorem f() = a + b c + d, () gdzie współczynniki

Bardziej szczegółowo