Odkrywanie wiedzy klasyfikacyjnej inne metody oraz metodyka oceny

Wielkość: px
Rozpocząć pokaz od strony:

Download "Odkrywanie wiedzy klasyfikacyjnej inne metody oraz metodyka oceny"

Transkrypt

1 Odkrywanie wiedzy klasyfikacyjnej inne metody oraz metodyka oceny Wykład HiED dla specjal. TWO JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska Poznań Poznań, grudzien 2010

2 Wiedza o klasyfikacji obserwacji uczenie nadzorowane Problem określania zasad przydziału obiektów / obserwacji do znanych wstępnie klas na podstawie analizy danych o przykładach klasyfikacji. Obiekty opisane poprzez zbiór atrybutów Wiek Zawód dochód Decyzja Prac. fiz. Menedżer Nie kupi Kupuje Algorytm 44 Inżynier 2600 Kupuje 23 Student 1100 Kupuje Nauczyciel Lekarz Nie kupi Nie kupi Reprezentacja wiedzy: np. reguły R1. Jeżeli student to kupuje komputer R2. Jeżeli dochód > Student 800 Kupuje Przykłady uczące

3 Podstawowe metody (klasyfikacyjne) Metody symboliczne (drzewa i reguły decyzyjne), Metody oparte na logice matematycznej Teoria zbiorów przybliżonych Indukcyjne programowanie w logice (ILP) Sztuczne sieci neuronowe, Metody k-najbliższych sąsiadów, Klasyfikacja bayesowska (Naive Bayes), Analiza dyskryminacyjna (statystyczna), Metody wektorów wspierających (SVM), Regresja logistyczna, Klasyfikatory genetyczne.... Podejścia złożone i hybrydowe Rodziny klasyfikatorów

4 Drzewa decyzyjne Wybór miar podziału (entropia, Gini indeks) i redukcja rozmiarów drzewa (pruning), Algorytmy: ID3 i C4.5; CART;, + VFDT J.R.Quinlan Age Car Type Risk 20 Combi High 18 Sports High 40 Sports High 50 Family Low 35 Minivan Low 30 Combi High 32 Family Low 40 Combi Low High Age < 31 Car Type is sports Leo Breiman High Low

5 Reguły decyzyjne Sequential covering vs. richer search Algorytmy: AQfamily, CN2 PRISM, LEM, MODLEM IREP, GROW, RIPPER, PART training data Ryszard Michalski Uporządkowana lista vs. nieuporządkowany zbiór reguł Age Car Type Risk 20 Combi High 18 Sports High 40 Sports High 50 Family Low 35 Minivan Low 30 Combi High 32 Family Low 40 Combi Low if age < 31 or Car Type =Sports then Risk = High

6 General schema of inducing minimal set of rules The procedure conducts a general to specific (greedy) search for the best rules (learn-one-rule) guided by the evaluation measures. At each stage add to the current condition part next elementary tests that optimize possible rule s evaluation (no backtracking). Procedure Sequential covering (K j Class; A attributes; E examples, τ - acceptance threshold); begin R := ; {set of induced rules} r := learn-one-rule(y j Class; A attributes; E examples) while evaluate(r,e) >τ do begin R := R r; E := E \[R]; {remove positive examples covered by R} r := learn-one-rule(kj Class; A attributes; E examples); end; return R end.

7 Przykład indukcji reguł (1) No Age m sr m Job u p p Period Income Purpose K S M Dec. r r d Class (Decision = r) E = {1, 2, 6, 7, 12, 14, 17} List of candidates st sr m sr m sr st m m sr m p p u b p p e u b p b D M W D D W D D M S D d p r r p d p p r p r (Age=m) {1,6,12,14,17+; 3,8,11,16-} (Age=sr) {2,7+; 5,9,13-} (Job=u) {1,6+; 11-} (Job=p) {2+, 3,4,8,9,13,15,16-} (Job=b) {7,12,14,17+; } (Pur=K) {1,17+; } (Pur=S) {2+;13,15-} {Pur=W} {6+, 9-} {Pur=D} {7,14+; 4,8,10,11-} {Pur=M} {12+;5,16-} 15 st p S d 16 m p M d 17 m b K r

8 Przykład (2) Numerical attributes: Income (Income < 1050) {1,6,7,12,14,17+; } (Income < 1250) {1,6,7,12,14,17+;10-} (Income < 1450) {1,2,6,7,12,14,17+;8,10-} Period (Period < 1) {1,6,7,14,17+;10,11-} (Period < 2.5) {1,2,6,7,12,14,17+;10,11-}

9 Przykład (3) - the minimal set of induced rule 1. if (Income<1050) then (Dec=r) [6] 2. if (Age=sr) and (Period<2.5) then (Dec=r) [2] 3. if (Period [3.5,12.5)) then (Dec=d) [2] 4. if (Age=st) and (Job=p) then (Dec=d) [3] 5. if (Age=m) and (Income [1050,2550)) then (Dec=p) [2] 6. if (Job=e) then (Dec=p) [1] 7. if (Age=sr) and (Period 12.5) then (Dec=p) [2] For inconsistent data: Approximations of decision classes (rough sets) Rule post-processing (a kind of post-pruning) or extra testing and earlier acceptance of rules.

10 Priority decision list (C4.5 rules)

11 Specific solution RIPPER (Mushroom data)

12 CN2 unordered rule set

13 Klasyfikacja podejście statystyczne { p ( ) } N i ci xi R, ci { C1,... Ck} i D = x, = 1 y = y = f ( x i f ( x i f ( x, w) ) > T ) < T x x i i C C 1 2 sir Ronald Fisher x x x x o x x x x x o o o o o o o x o o o o o Binarna klasyfikacja (uogólnienie na więcej klas) Poszukiwanie przybliżenia granicy decyzyjnej ang. decision boundary Obserwacje ponad linią przydziel do klasy x Obserwacje pod linią przydziel do klasy o Przykłady: Fisher-owska analiza dyskryminacyjna, SVM, ANN

14 Porównanie rozwiązań LDA i QDA Wybrany zbiór danych Iris (za Hastie et al. Elements of Statistical Learning)

15 Klasyfikacja minimalno-odległościowa k-nn Nearest Neighbours Przykłady punkty w przestrzeni n-wymiarowej Najbliżsi sąsiedzi definiowani funkcją odległości Euklidesowa metryka, HVDM, i inne Pojęcie docelowe wyrażane dyskretnie lub liczbą rzeczywistą k-nn zwraca najczęstsza z decyzji dla k przykładów najbliższych xq + +. xq _ + _ +

16 Klasyfikacja Bayesowska Dla zbioru uczącego D, prawdopodobięnstwo posteriori hipotezy h, P(h D) wynika z twierdzenia Bayes a: P ( h D) = P( D h) P( h) P( D) MAP (maximum posteriori) hypothesis: h MAP argmaxp( h D) = argmaxp( D h) P( h h H h H Praktyka: założenie znajomości prawdo-podobieństw apriori, duże koszty obliczeniowe. ).

17 Naiwny klasyfikator bayesowski (I) Założenie upraszczające: niezależność warunkowa atrybutów a j (j=1..n): Znacznie obniża wymogido do estymacji prawdopodobieństw apriori, niższe koszty obliczeniowe. = = n i j i j j C v C C P P V P 1 ) ( ) ( ) (

18 Naiwny klasyfikator bayesowski (II) Dla danego przykładu, można obliczyć prawdopodobieństwa Outlook P N Humidity P N sunny 2/9 3/5 high 3/9 4/5 overcast 4/9 0 normal 6/9 1/5 rain 3/9 2/5 Tempreature W indy hot 2/9 2/5 true 3/9 3/5 mild 4/9 2/5 false 6/9 2/5 cool 3/9 1/5

19 Sieci Neuronowe Zalety Często wysoka trafność klasyfikacji Odporne na zaszumione dane Wyjście może być dyskretne, liczbą rzeczywistą, lub wektorem dyskretnym / liczbowym Po nauczeniu, względnie szybki klasyfikator. Krytycyzm Długi i złożony proces uczenia Pozyskana wiedza niemożliwa do wyjaśnienia (wagi). Trudno uwzględniać wiedzę dziedzinową

20 Neuron - µ k x 0 w 0 x 1 w 1 f output y x n w n Input vector x weight vector w weighted sum Activation function n-wymiarowy wektor x jest odwzorowywany w zmienną y za pomocą iloczynu skalarnego i nieliniowej funkcji przejścia

21 Multi Layer Perceptron Output vector Output nodes Hidden nodes Input nodes S i p = σ ( v p m α m w l m = h α m= 1 m n f ( ( x l= 1 v m p ) σ ( x) i l 1 = 1 + e w f ( x) :: = δ ( x) m l ) x x e = e x r + m e e ) x x Input vector: x i

22 Dostępne narzędzia, implementacje metod Open source lub freeware WEKA Waikato MOA Datastreams Waikato Rapid Miner (YALE) Orange Lubljana KNIME Konstanz MLC++ Stanford SSNN Stutgart ROSE i inne (PP Poznań) Systemy komercyjne SAS Institute: Enterprise Miner Statistica Data Miner SPSS : Clementine Oracle 9i Miner IBM: QUEST and Intelligent Miner Silicon Graphics: MineSet Review 10 Top Data Mining Tools Edler

23 Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Dalsza część wykładu Perspektywy odkrywania wiedzy Predykcja klasyfikacji przewidywanie przydziału nowych obiektów do klas / reprezentacja wiedzy wykorzystywana jako tzw. klasyfikator (ocena zdolności klasyfikacyjnej na ogół jedno wybrane kryterium). Opis klasyfikacji obiektów wyszukiwanie wzorców charakteryzujących właściwości danych i prezentacja ich użytkownikowi w zrozumiałej formie (ocena wielokryterialna i bardziej subiektywna). Jak ocenić praktyczną przydatność tworzonych klasyfikatorów

24 Predykcja nowych faktów - klasyfikatory Poszukiwanie reprezentacji wiedzy o przydziale obiektów do klas na podstawie opisu obiektów za pomocą wartości atrybutów (zbiór uczący). Predykcja klasyfikacji nowych obiektów (zbiór testowy) Zbiór uczący S <x,c> Algorytm uczenia LA Klasyfikator Kl decyzja <x,y> { x c, x, c, L,, } 1, 2 x Przykłady S = 1 2 n c n x i =<x i1,x i2,,x im > opisywane przez m atrybutów Atrybuty różnego typu c i etykieta jednej z klas {C 1,,C K } <x,?> Miara oceny, np: trafność klasyfikowania η = Ν N Eksperymentalna ocena Cross validation c t

25 Kryteria oceny metod klasyfikacyjnych Trafność klasyfikacji (Classification / Predictive accuracy) Szybkość i skalowalność: czas uczenia się, szybkość samego klasyfikowania Odporność (Robustness) szum (noise), missing values, Zdolności wyjaśniania: np. drzewa decyzyjne vs. sieci neuronowe Złożoność struktury, np. rozmiar drzew decyzyjnego, miary oceny reguły

26 Tworzenie i ocena klasyfikatorów Jest procesem trzyetapowym: 1. Konstrukcja modelu w oparciu o zbiór danych wejściowych (przykłady uczące). Przykładowe modele - klasyfikatory: drzewa decyzyjne, reguły (IF.. THEN..), sieci neuronowe. 2. Ocena modelu (przykłady testujące) 3. Użycie modelu (np. klasyfikowanie nowych faktów lub interpretacja regularności)

27 Proces Klasyfikowania (I) Uczenie się Zbiór Uczący Algorytm uczenia się NAME INCOME AGE Rating Mike low 30 no Mary high 36 yes Bill high 45 yes Jim medium 50 yes Dave medium 27 no Anne low 28 no Wiedza o klasyfikacji IF income = high OR age > 35 THEN rating = yes

28 Proces Klasyfikowania obiektów Klasyfikator Dane Testowe NAME INCOME AGE RATING Tom low 24 no Merlisa medium 33 no George high 33 yes Joseph low 40 yes Nowe dane (Jeff, high, 40) Rating?

29 Trafność klasyfikowania Użyj przykładów testowych nie wykorzystanych w fazie indukcji klasyfikatora: N t liczba przykładów testowych N c liczba poprawnie sklasyfikowanych przykładów testowych Trafność klasyfikowania (classification accuracy): η = Ν N t Alternatywnie błąd klasyfikowania. ε = Inne możliwości analizy: macierz pomyłek (ang. confusion matrix), koszty pomyłek i klasyfikacja binarna, miary Sensitivity i Specificity / krzywa ROC N t c N t Ν c

30 Macierz pomyłek Analiza pomyłek w przydziale do różnych klas przy pomocy tzw. macierz pomyłek (ang. confusion matrix) Macierz r r, gdzie wiersze odpowiadają poprawnym klasom decyzyjnym, a kolumny decyzjom przewidywanym przez klasyfikator; na przecięciu wiersza i oraz kolumny j - liczba przykładów n-ij należących oryginalnie do klasy i-tej, a zaliczonej do klasy j-tej Przykład: Oryginalne klasy Przewidywane klasy decyzyjne K 1 K 2 K K 3 K K

31 WEKA Classifier panel

32 Jak szacować wiarygodnie? Zależy od perspektywy użycia wiedzy: Predykcja klasyfikacji albo opisowa Ocena na zbiorze uczącym nie jest wiarygodna jeśli rozważamy predykcję nowych faktów! Nowe obserwacje najprawdopodobniej nie będą takie same jak dane uczące! Choć zasada reprezentatywności próbki uczącej Problem przeuczenia (ang. overfiting) Nadmierne dopasowanie do specyfiki danych uczących powiązane jest najczęściej z utratą zdolności uogólniania (ang. generalization) i predykcji nowych faktów!

33 Podejście empiryczne Zasada Train and test Gdy nie ma podziału zadanego przez nauczyciela, to wykorzystaj losowe podziały. Nadal pytanie jak szacować wiarygodnie?

34 Empiryczne metody estymacji Techniki podziału: hold-out Użyj dwóch niezależnych zbiorów: uczącego (2/3), testowego (1/3) Jednokrotny podział losowy stosuje się dla dużych zbiorów (hold-out) Cross-validation - Ocena krzyżowa Podziel losowo dane w k podzbiorów (równomierne lub warstwowe) Użyj k-1 podzbiorów jako części uczącej i pozostałej jako testującej ( k-fold cross-validation). Oblicz wynik średni. Stosowane dla danych o średnich rozmiarach (najczęściej k = 10) Uwaga opcja losowania warstwowego (ang. stratified sampling). Leaving-one-out Dla małych rozmiarów danych. Leaving-one-out jest szczególnym przypadkiem, dla którego liczba iteracji jest równa liczbie przykładów

35 Jednokrotny podział (hold-out) duża liczba przykładów (> tysięcy) Wszystkie przykłady 66.7% Podziel losowo 33.3% Training Set Buduj klasyfikator Testing Set Oszacowanie miar, np. trafności

36 Mniejsza liczba przykładów (od 100 do kilku tysięcy) * cross-validation Powtórz k razy Dostępne przykłady Np. 90% (k=10) 10% Zbiór uczący Zbuduj k niezależnych klasyfikatorów Zbiór testowy Estymuj średnią ocenę

37 Krzywe uczenia się -learning curve Klasyfikacja tekstów przez Naive Bayes 20 Newsgroups dataset - [McCallum & Nigam, 1998]

38 Perspektywa opisowa Trudniejsza niż ocena zdolności klasyfikacyjnych. Rozważmy przykład reguł: Klasyfikacyjne (decyzyjne). Asocjacyjne. Pojedyncza reguła oceniana jako potencjalny reprezentant interesującego wzorca z danych W literaturze propozycje tzw. ilościowych miar oceny reguł oraz sposoby definiowania interesujących reguł, także na podstawie wymagań podawanych przez użytkownika.

39 Opisowe miary oceny reguł Miary dla reguły r (jeżeli P to Q) definiowane na podstawie zbioru przykładów U, z którego została wygenerowana. Tablica kontyngencji dla reguły jeżeli P to Q : Q Q P n PQ n P Q n P P n PQ n P Q n P n Q n Q n Przegląd różnych miar, np.: Yao Y.Y, Zhong N.: An analysis of quantitative measures associated with rules, w: Proc. of the Third Pacific-Asia Conference on Knowledge Discovery and Data Mining, LNAI 1574, Springer, 1999, s Także rozprawa habilitacyjna J.Stefanowski: Algorytmy indukcji reguł w odkrywaniu wiedzy.

40 Popularne miary oceny reguł Wsparcie reguły (ang. support) zdefiniowane jako: G( P Q) = n PQ n Dokładność (ang. accuracy) / wiarygodność (ang. confidence) reguły (bezwzględne wsparcie konkluzji Q przez przesłankę P): AS ( Q P) = n n PQ P Względne pokrycie (ang. coverage) reguły zdefiniowane jako: AS ( P Q) = n n PQ Q

41 Inne zaawansowane zagadnienia Klasyfikactory złożone (ang. ensembles) Uczenie się z niezrównoważonych danych (ang. class imbalanced)

42 Why could we integrate classifiers? Typical research create and evaluate a single learning algorithm; compare performance of some algorithms. Empirical observations or applications a given algorithm may outperform all others for a specific subset of problems There is no one algorithm achieving the best accuracy for all situations! [No free lunch] A complex problem can be decomposed into multiple subproblems that are easier to be solved. Growing research interest in combining a set of learning algorithms / classifiers into one system Multiple learning systems try to exploit the local different behavior of the base learners to enhance the accuracy of the overall learning system - G. Valentini, F. Masulli

43 Multiple classifiers / ensembles - definitions Multiple classifier a set of classifiers whose individual predictions are combined in some way to classify new examples. Various names: ensemble methods, committee, classifier fusion, combination, aggregation, Integration should improve predictive accuracy. CT example x... Final decision y Classifier C1

44 Bagging [L.Breiman, 1996] Bagging = Bootstrap aggregation Generates individual classifiers on bootstrap samples of the training set As a result of the sampling-with-replacement procedure, each classifier is trained on the average of 63.2% of the training examples. For a dataset with N examples, each example has a probability of 1-(1-1/N) N of being selected at least once in the N samples. For N, this number converges to (1-1/e) or [Bauer and Kohavi, 1999] Bagging traditionally uses component classifiers of the same type (e.g., decision trees), and combines prediction by a simple majority voting across.

45 More about Bagging Bootstrap aggregating L.Breiman [1996] input S learning set, T no. of bootstrap samples, LA learning algorithm output C* - multiple classifier for i=1 to T do begin S i :=bootstrap sample from S; C i :=LA(S i ); end; * C ( x) = argmax y = 1( Ci ( x) = T i y)

46 Bagging Empirical Results Misclassification error rates [Percent] Data Single Bagging Decrease waveform % heart % breast cancer % ionosphere % diabetes % glass % soybean % Breiman Bagging Predictors Berkeley Statistics Department TR#421, 1994

47 Uczenie się klasyfikatorów z niezrównoważonych danych Zadajmy pytanie o rozkład przykładów w klasach w zbiorze uczącym Standardowe założenie: Dane są zrównoważone rozkłady liczności przykładów w klasach względnie podobne Przykład: A database of sick and healthy patients contains as many examples of sick patients as it does of healthy ones. Czy takie założenie jest realistyczne?

48 Przykład danych medycznych Chawla et al. SMOTE 2002

49 Niezrównoważenie rozkładu w klasach Dane są niezrównoważone jeśli klasy nie są w przybliżeniu równo liczne Klasa mniejszościowa (minority class) zawiera wyraźnie mniej przykładów niż inne klasy Przykłady z klasy mniejszościowej są często najważniejsze i ich poprawne rozpoznawanie jest głównym celem. Rozpoznawanie rzadkiej, niebezpiecznej choroby CLASS IMBALANCE powoduje trudności w fazie uczenia i obniża zdolność predykcyjną Class imbalance is not the same as COST sensitive learning. In general cost are unknown!

50 Przykłady niezrównoważonych problemów Niezrównoważenie jest naturalne w : Medical problems rare but dangerous illness. Helicopter Gearbox Fault Monitoring Discrimination between Earthquakes and Nuclear Explosions Document Filtering Direct Marketing Detection of Oil Spills Detection of Fraudulent Telephone Calls Przegląd innych problemów i zastosowań Japkowicz N., Learning from imbalanced data. AAAI Conf., Weiss G.M., Mining with rarity: a unifying framework. ACM Newsletter,2004. Chawla N., Data mining for imbalanced datasets: an overview. In The Data mining and knowledge discovery handbook, Springer He H, Garcia, Mining imbalanced data. IEEE Trans. Data and Knowledge 2009.

51 Miary oceny Jak oceniać klasyfikatory Standardowa trafność bezużyteczna Wyszukiwanie informacji (klasa mniejszościowa 1%) ogólna trafność klasyfikowania 100%, lecz źle rozpoznawana wybrana klasa Miary powinny być z klasą mniejszościową Analiza binarnej macierzy pomyłek confusion matrix Sensitivity i specificity, ROC curve analysis. Actual class Yes No Yes Predicted class TP: True positive FP: False positive No FN: False negative TN: True negative Klasyczne miary: Error Rate: (FP + FN)/N Accuracy Rate: (TP + TN) /N TP Sensitivity = TP + FN TN Specificity = TN + FP

52 Miary oceny wynikające z macierzy pomyłek G-mean F-miara

53 Analiza krzywej ROC Każda technika budowy klasyfikatora może być scharakteryzowana poprzez pewne wartości miar sensitivity i specificity. Graficznie można je przedstawić na wykresie sensitivity vs. 1 specificity. Sensitivity 1.0 Sieć neuronowa z param. learning rate = 0.05 Sieć neuronowa z param. learning rate = 0.1 Dlaczego! Specificity

54 Probabilistyczne podstawy ROC

55 W czym tkwi trudność? Standardowe algorytmy uczące zakłada się w przybliżeniu zrównoważenie klas Typowe strategie przeszukiwania optymalizują globalne kryteria (błąd, miary entropii, itp.) Przykłady uczące są liczniej reprezentowane przy wyborze hipotez Metody redukcji (pruning) faworyzują przykłady większościowe Strategie klasyfikacyjne ukierunkowane na klasy większościowe

56 Reguły i niezrównoważenie klas zbiór uczący Ecoli: 336 ob. i 35 ob. w klasie M ; 7 atr. liczbowych MODLEM (noprune) 18 reguł, w tym 7 dla Minority class r1.(a7<0.62)&(a5>=0.11) => (Dec=O); [230,76.41%, 100%] r2.(a1<0.75)&(a6>=0.78)&(a5<0.57) => (Dec=O); [27,8.97%, 100%] r3.(a1<0.46) => (Dec=O); [148, 148, 49.17%, 100%] r4.(a1<0.75)&(a5<0.63)&(a2 [0.49,0.6]) => (Dec=O); [65, 21.59%, 100%] r5.(a1<0.75)&(a7<0.74)&(a2>=0.46) => (Dec=O); [135, 44.85%, 100%] r6.(a2>=0.45)&(a6>=0.75)&(a1<0.69) => (Dec=O); [34, 11.3%, 100%]... r12.(a7>=0.62)&(a6<0.78)&(a2<0.49)&(a1 [0.57,0.68]) => (Dec=M) [6, 17.14%, 100%] r13.(a7>=0.62)&(a6<0.76)&(a5<0.65)&(a1 [0.73,0.82]) => (Dec=M)[7, 20%, 100%] r14.(a7>=0.74)&(a1>=0.47)&(a2>=0.45)&(a6<0.75)&(a5>=0.59) => (Dec=M); [3, 8.57%, 100%] r15.(a5>=0.56)&(a1>=0.49)&(a2 [0.42,0.44]) => (Dec=M); [3, 8.57%, 100%] r16.(a7>=0.74)&(a2 [0.53,0.54]) => (Dec=M); [2, 5.71%, 100%]... A strategia klasyfikacyjna: Niejednoznaczne wielokrotne dopasowanie? Głosowanie większościowe Brak dopasowania? reguły najbliższe

57 Na czym polega trudność? Łatwiejszy problem Trudniejszy Źródła trudności: Zbyt mało przykładów z klasy mniejszościowej, Zaburzenia brzegu klas, Segmentacja klasy Przeglądowe prace: Klasa większ. nakłada się na mniejszościowe: Niejednoznaczne przykłady brzegowe Wpływ szumu (noisy examples) Japkowicz N., Learning from imbalanced data. AAAI Conf., Weiss G.M., Mining with rarity: a unifying framework. ACM Newsletter,2004.

58 Czy zawsze niezrównoważenie jest trudnością? Przeanalizuj studia eksperymentalne N.Japkowicz lub przeglądy G.Weiss. Japkowicz The minority class contains small disjuncts sub-clusters of interesting examples surrounded by other examples Niektóre prace eksperymentalne z dysuksją źródeł trudności, e.g: T. Jo, N. Japkowicz. Class imbalances versus small disjuncts. SIGKDD Explorations 6:1 (2004) V. García, R.A. Mollineda, J.S. Sánchez. On the k-nn performance in a challenging scenario of imbalance and overlapping. Pattern Anal Applic (2008) 11: Stefanowski J et al. Learning from imbalanced data in presence of noisy and borderline examples. RSCTC 2010.

59 Podstawowe metody Prace przeglądowe Weiss G.M., Mining with rarity: a unifying framework. ACM Newsletter, Chawla N., Data mining for imbalanced datasets: an overview. In The Data mining and knowledge discovery handbook, Springer He H, Garcia, Mining imbalanced data. IEEE Trans. Data and Knowledge Dwa podstawowe kierunki działanie Modyfikacje danych (preprocessing) Modyfikacje algorytmów Najbardziej popularne grupy metod Re-sampling or re-weighting, Zmiany w strategiach uczenia się, użycie nowych miar oceny (np. AUC) Nowe strategie eksploatacji klasyfikatora (classification strategies) Ensemble approaches (najczęściej adaptacyjne klasyfikatory złożone typu boosting) Specjalizowane systemy hybrydowe One-class-learning Transformacje do zadania cost-sensitive learning

60 Metody modyfikujące zbiór uczący Zmiana rozkładu przykładów w klasach przed indukcją klasyfikatora: Proste techniki losowe Over-sampling klasa mniejszościowe Under-sampling - klasa mniejszościowa Specjalizowane nadlosowanie Cluster-oversampling (Japkowicz) Ukierunkowane transformacje Klasa większościowe One-side-sampling (Kubat, Matwin) z Tomek Links Laurikkala s edited nearest neighbor rule Klasa mniejszościowe SMOTE Chawla et al. Borderline SMOTE, Safe Level, Surrounding SMOTE, Podejścia łączone (hybrydowe) SPIDER SMOTE i undersampling Powiązanie z budową klasyfikatorów złożonych

61 Resampling modyfikacja zbioru uczącego przed budową klasyfikatora Resampling pre-processing; celowa zmiana rozkładu przykładów; balansowanie liczności klas po to aby w kolejnej fazie móc lepiej nauczyć klasyfikator Brak teoretycznej gwarancji znalezienia optymalnej postaci rozkładu Raczej heurystyka ukierunkowana na to add or remove examples with the hope of reaching better distribution of the training examples and thus, realizing the potential ability of classifiers [F.Herrera 2010]. Supervised sample (imbalanced dataset selection (balanced dataset

62 Resampling the original data sets Undersampling vs oversampling # examples # examples + under-sampling # examples # examples + # examples over-sampling # examples +

63 Losowe równoważenie klas - dyskusja Random oversampling Kopiowanie przykładów mniejszościowych Czy proporcja 1:1 jest optymalna? Ryzyko przeuczenia Random undersampling: Usuwanie przykładów większośćiowych Utrata informacji

64 Ukierunkowane modyfikacje danych Focused resampling (Informed approaches): przetwarzaj tylko trudne obszary Czyszczenie borderline, redundant examples: Tomek links i one-side sampling Czyszczenie szumu i borderline: NCR Metoda SPIDER (J.Stefanowski, Sz.Wilk) SMOTE i jej rozszerzenia Czy są to typowe tricki losowania?

65 SMOTE - Synthetic Minority Oversampling Technique Wprowadzona przez Chawla, Hall, Kegelmeyer 2002 Dla każdego przykładu p z klasy mniejszościowej Znajdź jego k-najbliższych sąsiadów (także z klasy mniejszościowej!) Losowo wybierz j powyższych sąsiadów Losowo stwórz sztuczny przykład wzdłuż lini łączącej p z wybranym losowo jego sąsiadem (j - the amount of oversampling desired) Porównując z simple random oversampling SMOTE rozszerza regiony klasy mniejszościowej starając się robić je mniej specyficzne, paying attention to minority class samples without causing overfitting. SMOTE uznawana za bardzo skuteczną zwłaszcza w połączeniu z odpowiednim undersampling (wyniki Chawla, 2003).

66 Oversampling klasy mniejszościowej w SMOTE SMOTE analiza WYŁĄCZNIE klasy mniejszościowej : Przykład kl. mniejszościowej : syntetyczny przykład : Przykład kl. większościowej

67 SMOTE przykład oceny AUC

68 SMOTE zbiorcza ocena K=5 sąsiadów, różny stopień nadlosowania (np. 100% to dwukrotne zwiększenie liczności klasy mniejszościowej)

69 Kilka uwag na koniec Odkrywanie wiedzy z danych Potrzeby informacyjne We are drowning in the deluge of data that are being collected world-wide, while starving for knowledge at the same time * Rozwój KDD i pośrednio ML dostarczył wiele metod Badania (tak) choć nadal wiele otwartych problemów, Jak wyglądają zastosowania biznesowe? Rzadkie pojęcia słabo reprezentowane (<10%?) lecz mogą znacząco i negatywnie wpływać na dane zadanie * J. Naisbitt, Megatrends: Ten New Directions Transforming Our Lives.

70 Uwagi do źródeł Przygotowując wykład korzystałem m.in. z książek: S.Weiss, C.Kulikowski: Computer Systems That Learn: Classification and Prediction Methods from Statistics, Neural Nets, Machine Learning and Expert Systems, Morgan Kaufmann K.Krawiec, J.Stefanowski: Uczenie maszynowe i sieci neuronowe, WPP J.Han, M.Kember: Data mining. Adison Wesley Opis pakietu WEKA oraz inspiracji ze slajdów wykładów nt. data mining następujących osób: J.Han; G.Piatetsky-Shapiro; Materiały związane z WEKA i prezentacji W.Kotłowski nt. oceny systemów uczących się.

71 Dziękuję za uwagę Pytania lub komentarze? Więcej informacji w moich artykułach! Kontakt: Jerzy.Stefanowski@cs.put.poznan.pl Jerzy.Stefanowski@wsb.poznan.pl

Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska

Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska Wykład dla spec. Mgr TWO Poznań 2010 dodatek 1 Ocena wiedzy klasyfikacyjnej wykład dla

Bardziej szczegółowo

Zaawansowana eksploracja danych: Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska

Zaawansowana eksploracja danych: Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska Zaawansowana eksploracja danych: Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska Wykład dla spec. Mgr TPD Poznań 2008 popr. 2010 1 Ocena

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

Rozszerzenia klasyfikatorów złożonych dla danych niezrównoważonych

Rozszerzenia klasyfikatorów złożonych dla danych niezrównoważonych klasyfikatorów złożonych dla danych niezrównoważonych Marcin Szajek Politechnika Poznańska, Instytut Informatyki 23.04.2013 Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 1 / 30 Plan prezentacji

Bardziej szczegółowo

Odkrywanie wiedzy klasyfikacyjnej z niezrównoważonych danych

Odkrywanie wiedzy klasyfikacyjnej z niezrównoważonych danych Odkrywanie wiedzy klasyfikacyjnej z niezrównoważonych danych Learning classifiers from imbalanced data Wpływ niezrównoważenia klas na klasyfikator Wykład ZED dla specjal. TPD JERZY STEFANOWSKI Instytut

Bardziej szczegółowo

A Zadanie

A Zadanie where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona

Bardziej szczegółowo

Łączenie indukcji reguł i uczenia z przykładów dla niezrównoważonych klas. Krystyna Napierała Jerzy Stefanowski

Łączenie indukcji reguł i uczenia z przykładów dla niezrównoważonych klas. Krystyna Napierała Jerzy Stefanowski Łączenie indukcji reguł i uczenia z przykładów dla niezrównoważonych klas Krystyna Napierała Jerzy Stefanowski Plan prezentacji Źródła trudności w uczeniu z danych niezrównoważonych (przypomnienie) Indukcja

Bardziej szczegółowo

9. Praktyczna ocena jakości klasyfikacji

9. Praktyczna ocena jakości klasyfikacji Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład III bogumil.konopka@pwr.edu.pl 2016/2017 Wykład III - plan Regresja logistyczna Ocena skuteczności klasyfikacji Macierze pomyłek Krzywe

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta  1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów Wprowadzenie do programu RapidMiner, część 2 Michał Bereta www.michalbereta.pl 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów Zaimportuj dane pima-indians-diabetes.csv. (Baza danych poświęcona

Bardziej szczegółowo

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej Adam Żychowski Definicja problemu Każdy z obiektów może należeć do więcej niż jednej kategorii. Alternatywna definicja Zastosowania

Bardziej szczegółowo

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Laboratorium 4. Naiwny klasyfikator Bayesa.

Laboratorium 4. Naiwny klasyfikator Bayesa. Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Laboratorium 6. Indukcja drzew decyzyjnych.

Laboratorium 6. Indukcja drzew decyzyjnych. Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Mail: Pokój 214, II piętro

Mail: Pokój 214, II piętro Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

Multiklasyfikatory z funkcją kompetencji

Multiklasyfikatory z funkcją kompetencji 3 stycznia 2011 Problem klasyfikacji Polega na przewidzeniu dyskretnej klasy na podstawie cech obiektu. Obiekt jest reprezentowany przez wektor cech Zbiór etykiet jest skończony x X Ω = {ω 1, ω 2,...,

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Rozpoznawanie twarzy metodą PCA Michał Bereta   1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów Rozpoznawanie twarzy metodą PCA Michał Bereta www.michalbereta.pl 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów Wiemy, że możemy porównywad klasyfikatory np. za pomocą kroswalidacji.

Bardziej szczegółowo

Wprowadzenie. Data Science Uczenie się pod nadzorem

Wprowadzenie. Data Science Uczenie się pod nadzorem Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych

Bardziej szczegółowo

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja

Bardziej szczegółowo

Hard-Margin Support Vector Machines

Hard-Margin Support Vector Machines Hard-Margin Support Vector Machines aaacaxicbzdlssnafiyn9vbjlepk3ay2gicupasvu4iblxuaw2hjmuwn7ddjjmxm1bkcg1/fjqsvt76fo9/gazqfvn8y+pjpozw5vx8zkpvtfxmlhcwl5zxyqrm2vrg5zw3vxmsoezi4ogkr6phieky5crvvjhriqvdom9l2xxftevuwcekj3lktmhghgniauiyutvrwxtvme34a77kbvg73gtygpjsrfati1+xc8c84bvraowbf+uwnipyehcvmkjrdx46vlykhkgykm3ujjdhcyzqkxy0chur6ax5cbg+1m4bbjptjcubuz4kuhvjoql93hkin5hxtav5x6yyqopnsyuneey5ni4keqrxbar5wqaxbik00icyo/iveiyqqvjo1u4fgzj/8f9x67bzmxnurjzmijtlybwfgcdjgfdtajwgcf2dwaj7ac3g1ho1n4814n7wwjgjmf/ys8fenfycuzq==

Bardziej szczegółowo

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Mateusz Kobos, 10.12.2008 Seminarium Metody Inteligencji Obliczeniowej 1/46 Spis treści Działanie algorytmu Uczenie Odtwarzanie/klasyfikacja

Bardziej szczegółowo

MATLAB Neural Network Toolbox przegląd

MATLAB Neural Network Toolbox przegląd MATLAB Neural Network Toolbox przegląd WYKŁAD Piotr Ciskowski Neural Network Toolbox: Neural Network Toolbox - zastosowania: przykłady zastosowań sieci neuronowych: The 1988 DARPA Neural Network Study

Bardziej szczegółowo

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie

Bardziej szczegółowo

Wyk lad 8: Leniwe metody klasyfikacji

Wyk lad 8: Leniwe metody klasyfikacji Wyk lad 8: Leniwe metody Wydzia l MIM, Uniwersytet Warszawski Outline 1 2 lazy vs. eager learning lazy vs. eager learning Kiedy stosować leniwe techniki? Eager learning: Buduje globalna hipoteze Zaleta:

Bardziej szczegółowo

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria Wrocław University of Technology WYKŁAD 7 Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria autor: Maciej Zięba Politechnika Wrocławska Testowanie modeli klasyfikacyjnych Dobór odpowiedniego

Bardziej szczegółowo

Badania w zakresie systemów uczących się w Zakładzie ISWD. Politechnika Poznańska Instytut Informatyki

Badania w zakresie systemów uczących się w Zakładzie ISWD. Politechnika Poznańska Instytut Informatyki Badania w zakresie systemów uczących się w Zakładzie ISWD Politechnika Poznańska Instytut Informatyki Seminarium ML - Poznań, 3 04 2013 Informacje ogólne Politechnika Poznańska Wydział Informatyki, Instytut

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych

Bardziej szczegółowo

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec Wybrane zagadnienia uczenia maszynowego Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec Przygotowane na podstawie T. Mitchell, Machine Learning S.J. Russel, P. Norvig, Artificial Intelligence

Bardziej szczegółowo

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Metody klasyfikacji i rozpoznawania wzorców.  Najważniejsze rodzaje klasyfikatorów Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej

Bardziej szczegółowo

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne Reprezentacja wiedzy w postaci drzew decyzyjnych entropia, przyrost informacji algorytmy ID3, C4.5 problem przeuczenia wyznaczanie reguł rzykładowe drzewo decyzyjne

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Klasyfikacja i regresja Wstęp do środowiska Weka

Klasyfikacja i regresja Wstęp do środowiska Weka Klasyfikacja i regresja Wstęp do środowiska Weka 19 listopada 2015 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików pdf sformatowanych podobnie do tego dokumentu.

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

Adrian Horzyk

Adrian Horzyk Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561

Bardziej szczegółowo

Laboratorium 5. Adaptatywna sieć Bayesa.

Laboratorium 5. Adaptatywna sieć Bayesa. Laboratorium 5 Adaptatywna sieć Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>.

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych

Bardziej szczegółowo

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych Mateusz Kobos, 25.11.2009 Seminarium Metody Inteligencji Obliczeniowej 1/25 Spis treści Dolne ograniczenie na wsp.

Bardziej szczegółowo

Budowa modeli klasyfikacyjnych o skośnych warunkach

Budowa modeli klasyfikacyjnych o skośnych warunkach Budowa modeli klasyfikacyjnych o skośnych warunkach Marcin Michalak (Marcin.Michalak@polsl.pl) III spotkanie Polskiej Grupy Badawczej Systemów Uczących Się Wrocław, 17 18.03.2014 Outline 1 Dwa podejścia

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab Linear Classification and Logistic Regression Pascal Fua IC-CVLab 1 aaagcxicbdtdbtmwfafwdgxlhk8orha31ibqycvkdgpshdqxtwotng2pxtvqujmok1qlky5xllzrnobbediegwcap4votk2kqkf+/y/tnphdschtadu/giv3vtea99cfma8fpx7ytlxx7ckns4sylo3doom7jguhj1hxchmy/irhrlgh67lxb5x3blis8jjqynmedqujiu5zsqqagrx+yjcfpcrydusshmzeluzsg7tttiew5khhcuzm5rv0gn1unw6zl3gbzlpr3liwncyr6aaqinx4wnc/rpg6ix5szd86agoftuu0g/krjxdarph62enthdey3zn/+mi5zknou2ap+tclvhob9sxhwvhaqketnde7geqjp21zvjsfrcnkfhtejoz23vq97elxjlpbtmxpl6qxtl1sgfv1ptpy/yq9mgacrzkgje0hjj2rq7vtywnishnnkzsqekucnlblrarlh8x8szxolrrxkb8n6o4kmo/e7siisnozcfvsedlol60a/j8nmul/gby8mmssrfr2it8lkyxr9dirxxngzthtbaejv

Bardziej szczegółowo

Laboratorium 11. Regresja SVM.

Laboratorium 11. Regresja SVM. Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 8

Indukowane Reguły Decyzyjne I. Wykład 8 Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne

Bardziej szczegółowo

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:

Bardziej szczegółowo

Elementy inteligencji obliczeniowej

Elementy inteligencji obliczeniowej Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego

Bardziej szczegółowo

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 5 T 7 T 5 T 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator ZeroR będzie zawsze odpowiadał T niezależnie

Bardziej szczegółowo

Eksploracja danych medycznych oraz metody sztucznej inteligencji

Eksploracja danych medycznych oraz metody sztucznej inteligencji Eksploracja danych medycznych oraz metody sztucznej inteligencji JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska ZIM UM 2011/12 Plan wykładu 1. Motywacje dlaczego nowe metody? 2. Rola metod

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Wprowadzenie do klasyfikacji

Wprowadzenie do klasyfikacji Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Przykład eksploracji danych Case 1.X

Przykład eksploracji danych Case 1.X Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD Zaawansowana eksploracja danych edycja 2009/2010 Plan 1. Przykładowe studium przypadki 2. Analiza opisu przypadku 3. Ustalenie celu analizy i

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 16 listopada 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):

Bardziej szczegółowo

Metody indukcji reguł

Metody indukcji reguł Metody indukcji reguł Indukcja reguł Grupa metod charakteryzująca się wydobywaniem reguł ostrych na podstawie analizy przypadków. Dane doświadczalne składają się z dwóch części: 1) wejściowych X, gdzie

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka. Eksploracja danych OCENA KLASYFIKATORÓW Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika

Bardziej szczegółowo

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych Mateusz Kobos, 07.04.2010 Seminarium Metody Inteligencji Obliczeniowej Spis treści Opis algorytmu i zbioru

Bardziej szczegółowo

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa. GLM (Generalized Linear Models) Data Mining Wykład 6 Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesa jest klasyfikatorem statystycznym -

Bardziej szczegółowo

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

2. Ocena dokładności modelu klasyfikacji:

2. Ocena dokładności modelu klasyfikacji: Spis treści: 1. Klasyfikacja... 1 2. Ocena dokładności modelu klasyfikacji:...1 2.1. Miary dokładności modelu...2 2.2. Krzywe oceny...2 3. Wybrane algorytmy...3 3.1. Naiwny klasyfikator Bayesa...3 3.2.

Bardziej szczegółowo

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta Wprowadzenie do programu RapidMiner, część 3 Michał Bereta www.michalbereta.pl 1. W programie RapidMiner mamy do dyspozycji kilka dyskryminacyjnych modeli liniowych jako operatory: a. LDA Linear Discriminant

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Automatyczne wyodrębnianie reguł

Automatyczne wyodrębnianie reguł Automatyczne wyodrębnianie reguł Jedną z form reprezentacji wiedzy jest jej zapis w postaci zestawu reguł. Ta forma ma szereg korzyści: daje się łatwo interpretować, można zrozumieć sposób działania zbudowanego

Bardziej szczegółowo

INDUKCJA DRZEW DECYZYJNYCH

INDUKCJA DRZEW DECYZYJNYCH INDUKCJA DRZEW DECYZYJNYCH 1. Pojęcia podstawowe. 2. Idea algorytmów TDIT. 3. Kryteria oceny atrybutów entropia. 4. "Klasyczna" postać algorytmu ID3. 5. Przykład ilustracyjny. 6. Transformacja drzewa do

Bardziej szczegółowo

data mining machine learning data science

data mining machine learning data science data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe

Bardziej szczegółowo

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,

Bardziej szczegółowo

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis Machine Learning for Data Science (CS4786) Lecture11 5 Random Projections & Canonical Correlation Analysis The Tall, THE FAT AND THE UGLY n X d The Tall, THE FAT AND THE UGLY d X > n X d n = n d d The

Bardziej szczegółowo

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 9: Inference in Structured Prediction 1 intro (1 lecture) Roadmap deep learning for NLP (5 lectures) structured prediction

Bardziej szczegółowo

Widzenie komputerowe (computer vision)

Widzenie komputerowe (computer vision) Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja

Bardziej szczegółowo

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout Machine Learning for Data Science (CS4786) Lecture 24 Differential Privacy and Re-useable Holdout Defining Privacy Defining Privacy Dataset + Defining Privacy Dataset + Learning Algorithm Distribution

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych

Bardziej szczegółowo

tum.de/fall2018/ in2357

tum.de/fall2018/ in2357 https://piazza.com/ tum.de/fall2018/ in2357 Prof. Daniel Cremers From to Classification Categories of Learning (Rep.) Learning Unsupervised Learning clustering, density estimation Supervised Learning learning

Bardziej szczegółowo

Wprowadzenie do technologii informacyjnej.

Wprowadzenie do technologii informacyjnej. Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja

Bardziej szczegółowo

DRZEWA REGRESYJNE I LASY LOSOWE JAKO

DRZEWA REGRESYJNE I LASY LOSOWE JAKO DRZEWA REGRESYJNE I LASY LOSOWE JAKO NARZĘDZIA PREDYKCJI SZEREGÓW CZASOWYCH Z WAHANIAMI SEZONOWYMI Grzegorz Dudek Instytut Informatyki Wydział Elektryczny Politechnika Częstochowska www.gdudek.el.pcz.pl

Bardziej szczegółowo

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber Drzewa decyzyjne Inteligentne Obliczenia Wydział Mechatroniki Politechniki Warszawskiej Anna Sztyber INO (IAiR PW) Drzewa decyzyjne Anna Sztyber / Drzewa decyzyjne w podstawowej wersji algorytm klasyfikacji

Bardziej szczegółowo

Baza danych dla potrzeb zgłębiania DMX

Baza danych dla potrzeb zgłębiania DMX Baza danych dla potrzeb zgłębiania DMX ID Outlook Temperature Humidity Windy PLAY 1 sunny hot high false N 2 sunny hot high true N 3 overcast hot high false T 4rain mild high false T 5rain cool normal

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo