utrzymania swoich obecnych klientów i dowiedzia la sie, że metody data mining moga

Podobne dokumenty
Previously on CSCI 4622

Wyk lad 8: Leniwe metody klasyfikacji

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Helena Boguta, klasa 8W, rok szkolny 2018/2019

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Wprowadzenie do technologii informacyjnej.

CLUSTERING. Metody grupowania danych

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

Agnieszka Nowak Brzezińska Wykład III

Algorytmy klasyfikacji

Agnieszka Nowak Brzezińska Wykład III

Systemy decyzyjne Wyk lad 4: Drzewa decyzyjne

Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

Statystyka w analizie i planowaniu eksperymentu

A Zadanie

Statystyka w analizie i planowaniu eksperymentu

SG-MICRO... SPRĘŻYNY GAZOWE P.103

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

Zmiany techniczne wprowadzone w wersji Comarch ERP Altum

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Hard-Margin Support Vector Machines

Installation of EuroCert software for qualified electronic signature

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

deep learning for NLP (5 lectures)

Mail: Pokój 214, II piętro

Laboratorium 4. Naiwny klasyfikator Bayesa.

GRY EDUKACYJNE I ICH MOŻLIWOŚCI DZIĘKI INTERNETOWI DZIŚ I JUTRO. Internet Rzeczy w wyobraźni gracza komputerowego

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Statystyka w analizie i planowaniu eksperymentu

Laboratorium 6. Indukcja drzew decyzyjnych.

HAPPY ANIMALS L01 HAPPY ANIMALS L03 HAPPY ANIMALS L05 HAPPY ANIMALS L07

HAPPY ANIMALS L02 HAPPY ANIMALS L04 HAPPY ANIMALS L06 HAPPY ANIMALS L08

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Revenue Maximization. Sept. 25, 2018

METODY INŻYNIERII WIEDZY

REGU LY ASOCJACYJNE. Nguyen Hung Son. 25 lutego i 04 marca Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski.

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2016/2017. Forma studiów: Stacjonarne Kod kierunku: 11.

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski

Egzamin maturalny z języka angielskiego na poziomie dwujęzycznym Rozmowa wstępna (wyłącznie dla egzaminującego)

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Paradygmaty programowania

DO MONTAŻU POTRZEBNE SĄ DWIE OSOBY! INSTALLATION REQUIRES TWO PEOPLE!

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

OpenPoland.net API Documentation

tum.de/fall2018/ in2357

Agnieszka Nowak Brzezińska

POLITECHNIKA ŚLĄSKA INSTYTUT AUTOMATYKI ZAKŁAD SYSTEMÓW POMIAROWYCH

USB firmware changing guide. Zmiana oprogramowania za przy użyciu połączenia USB. Changelog / Lista Zmian

Instrukcja obsługi User s manual

Uczenie nienadzorowane

Testowanie hipotez statystycznych

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

POLITYKA PRYWATNOŚCI / PRIVACY POLICY

Drzewa decyzyjne i lasy losowe

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

DODATKOWE ĆWICZENIA EGZAMINACYJNE

METODY INŻYNIERII WIEDZY

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

data mining machine learning data science

Baza danych dla potrzeb zgłębiania DMX

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Analiza danych i data mining.

CPX Cisco Partner Excellence CSPP program partnerski


Rev Źródło:

REGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008

RADIO DISTURBANCE Zakłócenia radioelektryczne

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Rodzaj obliczeń. Data Nazwa klienta Ref. Napędy z pasami klinowymi normalnoprofilowymi i wąskoprofilowymi 4/16/ :53:55 PM

Statystyka w analizie i planowaniu eksperymentu

Inżynieria biomedyczna

Statystyka w analizie i planowaniu eksperymentu

ep do obliczeniowej biologii molekularnej (J. Tiuryn, wykĺady nr. 12 i 13; 25 stycznia 2006) 8 Konstrukcja drzew filogenetycznych

PROCESORY ARM TRUDNO ZNALEŹĆ PROCESORY O TAK LICZNYCH, ORYGINALNYCH, NOWYCH, POMYSŁOWYCH ROZWIĄZANIACH!

New Roads to Cryptopia. Amit Sahai. An NSF Frontier Center

Rolki i arkusze stosowane w handlu Commercial rolls and sheets. ko-box.pl


ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Teoria obliczeń i złożoność obliczeniowa

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

RADIO DISTURBANCE Zakłócenia radioelektryczne

FORMULARZ APLIKACYJNY CERTYFIKACJI STANDARDU GLOBALG.A.P. CHAIN OF CUSTODY GLOBALG.A.P. CHAIN OF CUSTODY APPLICATION FORM

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Metody probabilistyczne klasyfikatory bayesowskie

Transkrypt:

Imiȩ i nazwisko: Nr indeksu: Egzamin z Wyk ladu Monograficznego p.t. DATA MINING 1. (6 pkt.) Firma X jest dostawca us lug po l aczeń bezprzewodowych (wireless) w USA, która ma 34.6 milionów klientów. Firma szacuje, że średnio 2% klientów rezygnuje ze us lug tej firmy miesiecznie, i koszt pozyskania nowego klienta wynosi od 320 USD do 360 USD. Firma X decyduje sie na strategie utrzymania swoich obecnych klientów i dowiedzia la sie, że metody data mining moga być używane do (1) odkrywania różnych grup klientów z różnymi wzorcami zachowania i zapotrzebowania oraz do (2) wspomagania podejmowania decyzji marketingowych. Jako konsultant rozwiazań data mining owych, prosze pomóc firmie X przy wyborze w laściwych technik: (a) Do identyfikacji wzorca zachowań klientów, firma X powinna stosować technike: (i) Klasyfikacji (ii) Grupowania (clustering) (iii) Regu ly asocjacji (iv) Regresji liniowej (v) Żadna z tych metod (vi) Wszystkie (b) Do wykrywania docelowej grupy klientów dla wybranego produktu, firma X powinna stosować technike: (i) Klasyfikacji (ii) Grupowania (clustering) (iii) Regu ly asocjacji (iv) Regresji liniowej (v) Żadna z tych metod (vi) Wszystkie (c) Do znalezienia najlepszego planu taryfowego dla każdego klienta, firma X powinna stosować technike: (i) Klasyfikacji (ii) Grupowania (clustering) (iii) Regu ly asocjacji (iv) Żadna z tych metod (v) Wszystkie 2. (10 pkt.) Przedstawiona tablica decyzyjna zawiera przyk lady klasyfikacji ludzi na 3 klasy: normalna, niedowaga i nadwaga. Imie Waga Wzrost Klasa Kristina 160 lb 1.6 m Normalna Jim 210 lb 2.0 m Normalna Maggie 207 lb 1.9 m Normalna Martha 130 lb 1.8 m Niedowaga Stephanie 221 lb 1.7 m Nadwaga Bob 215 lb 1.8 m Normalna Kathy 178 lb 1.6 m Normalna Dave 138 lb 1.7 m Niedowaga Worth 160 lb 2.2 m Niedowaga Steven 190 lb 2.1 m Normalna Debbie 234 lb 1.8 m Nadwaga Todd 285 lb 1.9 m Nadwaga Kim 135 lb 1.9 m Niedowaga Amy 198 lb 1.8 m Normalna Lynette 289 lb 1.7 m Nadwaga Sklasyfikuj nowe przypadki za pomoca algorytmu 5 najbliższych sasiadów (można wybrać optymalna dla siebie funkcje odleg lości i/lub stworzyć nowe atrybuty z istniejacych):

(a) John [185 lb, 2.0 m] (b) Kelly [165 lb, 1.5 m] (c) Sam [180 lb, 2.4 m] (d) Laura [195 lb, 1.8 m] (e) Mike [220 lb, 1.7 m] 3. (6 pkt.) (a) Skonstruuj drzewo decyzyjne za pomoca miary entropii z nastepuj acej tablicy decyzyjnej. Narysuj wynikowe drzewo. (b) Naszkicuj drzewo decyzyjne otrzymane w wyniku zastosowania algorytmu przycinania (pruning), przy dopuszczalnym b l edzie w liściach = 75%, na drzewie otrzymanym w poprzednim kroku. 4. (6 pkt.) Dana jest tablica decyzyjna: (a) Oblicz rozk lady prawdopodobieństwa zmiennych losowych, potrzebnych do klasyfikacji nowych przypadków metoda naiwnego Bayesa. (b) Sklasyfikuj przypadek [F,T,F] metoda naiwnego Bayesa na podstawie zadanej tablicy. 5. (6 pkt.) Skonstruuj binarne drzewo decyzyjne za pomoc a miary rozróżnialności. Naszkicuj drzewo wynikowe:

Age Income Class 30 high no 40 medium yes 40 low yes 40 low no 35 low yes 30 medium no 30 low yes 30 medium yes 35 medium yes 40 medium no 6. (10 pkt.) Znaleźć wszystkie cz este zbiory na podstawie przedstawionego drzewa FP-tree (przy minimalnym wsparciu = 2): 7. (6 pkt.) Dany jest zbiór liczb {1, 2, 3, 4, 5, 6, 10, 20, 30, 40, 50, 60}. Chcemy znaleźć 4 klastry algorytmem k-centroidów minimalizujac sume kwadratów b l edów. Zainicjowano 4 pierwsze cetroidy {2}, {5}, {20}, {50}. (a) Podaj centroidy otrzymane w kolejnych krokach algorytmu. (b) Podaj sum e kwadratów b l edów wynikowych klastrów. Odpowiedzi: 1. Max. 6 punktów (a) (ii) 2pkt; (iii) 1pkt. II - using information about customers transactions a clustering algorithm can reveal customer groups with common usage patterns. (b) (i) 2pkt; I - The task above requires assigning a customer into one of two groups: likely or not likely to terminate contract. This is a classification task, hence in order to identify which customers should be targeted a classification algorithm can be applied to predict whether or not a customer is likely to terminate his/her contract.

(c) (i) 2pkt; I - The task of assigning a customer into one of a set of plans is also a classification task. 2. (10 pkt.) po 2 punkty za każda poprawna odpowiedź; (a) John [185 lb, 2.0 m]: Normalna Ratio = 185 / 2.0 = 92.5 Nearest neighbors are: Steven [90.5, Average], Kristina [100, Average], Dave [81.2, Underweight], Jim [105, Average] and Maggie [108.9, Average]. By simple majority voting, John should be labeled Average. (b) Kelly [165 lb, 1.5 m]: Normalna Ratio = 165 / 1.5 = 110.0 Nearest neighbors are: Amy [110, Average], Maggie [108.9, Average], Jim [105, Average] and Bob [119.4, Average]. By simple majority voting, Kelly should be labeled Average. (c) Sam [180 lb, 2.4 m] Niedowaga Ratio = 180 / 2.4 = 75.0 Nearest neighbors are: Worth [72.7, Underweight], Martha [72.2, Underweight], Kim [71.1, Underweight], Dave [81.2, Underweight] and Steven [90.5, Average]. By simple majority voting, Sam should be labeled Underweight. (d) Laura [195 lb, 1.8 m]: Normalna Ratio = 195 / 1.8 = 108.3 Nearest neighbors are: Maggie [108.9, Average], Amy [110, Average], Kathy [111.3, Average], Jim [105, Average] and Kristina [100.0, Average]. By simple majority voting, Laura should be labeled Average. (e) Mike [220 lb, 1.7 m]: Nadwaga Ratio = 220 / 1.7 = 129.4 Nearest neighbors are: Debbie [130, Overweight], Stephanie [130, Overweight], Bob [119.4, Average], Kathy [111.3, Average] and Amy [110, Average]. By simple majority voting, Mike should be labeled Average. However, if we follow weighted voting, Mike should be labeled Overweight.

3. (6 pkt.) a1 a2 N1 (T) N2 (F) N1 (T) N2 (F) + 0 5 + 3 2-4 1-2 3 Entropy(N1) = 0 Entropy(N1) = 0.97 Entropy(N2) = 0.65 Entropy(N1) = 0.97 4. (6 pkt.) a) P(X +) = 2 + (5)(1/5) / 5 + 5 = 3 / 10 P(X -) = 3 + (5)(1/5) / 5 + 5 = 4 / 10 P(Y +) = 1 + (5)(1/5) / 5 + 5 = 2 / 10 P(Y -) = 2 + (5)(1/5) / 5 + 5 = 3 / 10 P(Z +) = 3 + (5)(1/5) / 5 + 5 = 4 / 10 P(Z -) = 0 + (5)(1/5) / 5 + 5 = 1 / 10 b) P(+ X,Y,Z ) = P(X +) * P (Y +) * P(Z +) * P(+) / P(X ) * P(Y) * P(Z ) P(- X,Y,Z ) = P(X -) * P (Y -) * P(Z -) * P(-) / P(X ) * P(Y) * P(Z ) Since the denominators are same, we can compare these values by just comparing the numerators. P(+ X,Y,Z ) ~= (3/10) * (2/10) * (4/10) * (5/10) = 120 / 10000 P(- X, Y, Z ) ~= (4/10) * (3/10) * (1/10) * (5/10) = 60 / 10000 Since, P(+ X, Y, Z ) > P(- X, Y, Z ), hence the instance should be classified as +. 5. (6 pkt.) Skonstruuj binarne drzewo decyzyjne za pomoca miary rozróżnialności. Naszkicuj drzewo wynikowe: Age Income Class 30 high no 40 medium yes 40 low yes 40 low no 35 low yes 30 medium no 30 low yes 30 medium yes 35 medium yes 40 medium no

6. (10 pkt.) B(8) C(7) A(6) D(2) E(2) AE(2) BE(2) BAE(2) BD(2) CA(4) BCA(2) BC(5) BA(4) a) Consider the stage shown in Figure 1. We first project the full tree on the item E. We output E(2), and since only one path remains in the FPTree for E, we output all frequent combinations: AE(2), BE(2), BAE(2). Next project on D(2). Only remaining frequent items is B, so we get BD(2). Next Project on C(7). In the new tree, first project on A(4), to get CA(4), and BCA(2). Next project on B(5) and output BC(5). Project on A(6), to get BA(4). Finally output B(8). 7. (6 pkt.) Initial centroids: 2, 5, 20, 50 1, 2, 3, 4, 5, 6, 10, 20, 30 and 40, 50, 60. 2 6.25 25 50 (1,2, 3, 4) (5,6,10) (20, 30) (40, 50, 60) 2.5 7 25 50