Clasification 1 PROBLEM KLASYFIKACJI. Nguyen Hung Son.
|
|
- Kajetan Barański
- 6 lat temu
- Przeglądów:
Transkrypt
1 1 PROBLEM KLASYFIKACJI Nguyen Hung Son
2 Plan wykładu ion 2 Wprowadzenie do klasyfikacji Leniwe klasyfikatory k-nn Naive Bayes Przegląd metod klasyfikacji Ocena klasyfikatorów Drzewo decyzyjne
3 Co to jest problem klasyfikacji? ion 3 Dany jest zbiór obiektów (training set) Każdy obiekt jest opisany zbiorem atrybutów zwanych atrybutami warunkowymi Wyróżniony jest jeden atrybut, zwany atrybutem decyzyjnym Cel: wyznaczyć klasę, do której należy nowy nieznany rekord. Jak? Znaleźć zależność (funkcyjną) między atrybutem decyzyjnym a warunkowymi atrybutami.
4 Przykład ion 4 Chcemy nauczyć się pojęcia człowieka o średniej budowie ciała. Dane czyli osoby są reprezentowane przez punkty (waga(kg),wzrost(cm)) i są etykietowane przez + dla pozytywnych przykładów i dla negatywnych. Dodatkowa wiedza: szukane pojęcie można wyrazić za pomocą PROSTOKĄTA Na przykład dany jest etykietowany zbiór: {((84, 184),+), ((70, 170),+), ((75, 163), ), ((80,180),+), ((81, 195), ), ((63, 191), ), ((77, 187), ), ((68, 168),+)} Znajdź etykietę ((79, 183,?)
5 Zastosowania w BI ion 5 Analiza i zarządzanie: Przewidywanie zainteresowania klientów, Zatrzymywanie klientów, Analiza konkurencji, Ulepszenie ubezpieczenia Detekcja oszustw: Ubezpieczenie samochodowe: detekcja grup ludzi, którzy wyłudzą piedządze z ubezpieczenia Pranie pieniędzy: detekcja podejrzanych transakcji pieniędzy (US Treasury's Financial Crimes Enforcement Network) Ubezpieczenie medyczne: detekcja profesjonalnych pacjentów i okręgu doktorów z nimi pracujących, następnie rozszerzyć okrąg podejrzanych pacjentów I inne.
6 Dwuetapowy proces klasyfikacji ion 6 Tworzenie modelu: opisywanie klas decyzyjnych (wyznaczonych przez atrybut decyzyjny). Każdy obiekt z tablicy decyzyjnej należy do jednej z klas decyzyjnych. Klasyfikator: algorytm określenia klasy decyzyjnej obiektów za pomocą ich wartości na atrybutach warunkowych. Klasyfikatory mogą być opisane za pomocą formuł logicznych, drzew decyzyjnych lub formuł matematycznych. Korzystanie z modelu: do przypisanie nowych nieznanych obiektów do odpowiedniej klasy. Problem: Jak oceniać model?
7 Ogólne podejście ion 7
8 Leniwe i gorliwe metody klasyfikacji ion 8 krótki czas treningu długi Lazy Eager 1. Uczenia się: Brak. Nie generuje się modelu (hipotezy) dla funkcji docelowej 2. Klasyfikacja: Odpowiedź jest kombinowana bezpośrednio ze danych treningowych 1. Uczenie się: Buduje się pełny model opisujący funkcję docelującą 2. Klasyfikacja: Odpowiedź jest oparte na generowanym modelu
9 Leniwe i gorliwe metody klasyfikacji ion 9 Gorliwa metoda Leniwa metoda
10 Przegląd metod ion 10 K najbliższych sąsiadów (k-nn classifier) Klasyfikacja w oparciu o przykłady (case-based reasoning) Metoda Naive Bayes ; Algorytm genetyczny Podejście zbiorów przybliżonych Podejście zbiorów rozmytych
11 Klasyfikator knn ion 13 Najczęściej wykorzystany dla danych z atrybutami numerycznymi Wymagania: Zbiór treningowy Funkcja odległości między obiektami Wartość parametru k, liczba rozpatrywanych sąsiadów Podczas klasyfikacji: Wyznaczanie k najbliższych sąsiadów Wyznaczenie klasy decyzyjnej nowego obiektu na podstawie klas decyzyjnych najbliższych sąsiadów (np. przez głosowanie).
12 Klasyfikator knn ion 14 Jeśli k = 1, możemy ilustrować granice klas decyzyjnych za pomocą diagramu Voronoi. _. _ _. + _ + xq.. Odległość euklidesowa d ( x, y) ( x1 y1 ) ( x2 y2 )... ( x k yk ) Odległość ważona Ważenie atrybutów, w = 1/d 2 Ważenie głosów wzg. odległości Inne metryki: metryka miasta (city-block (Manhattan) metric)
13 Uwagi na temat k-nn ion 15 Jest to przykład metody leniwej, gdyż Nie buduje jawnego modelu wiedzy Proces klasyfikacji może być czasochłonny Jeśli k jest za mała, klasyfikator będzie wrażliwa na drobne szumy w danych Jeśli k jest zbyt duża Wysoka złożoność obliczeniowa Otoczenia mogą zawierać obiekty z innych klas Algorytm k-nn dla ciągłej decyzji Wystarczy obliczyć średnią z decyzji najbliższych sąsiadów
14 Uwagi na temat k-nn (c.d.) ion 16 Problemy z funkcją odległości Problem skalowania atrybutów Np. opis człowieka: (Wzrost [m], Waga [kg], Klasa) Wzrost odchyla się od 1.5 m do 1.85 m Waga może mieć wartość od 45 kg do 120 kg Odległość euklidesowa jest bardziej wrażliwa na różnicę wag niż różnicę wzrostu. Przekleństwo wymiarów Może produkować wyniki niezgodne z intuicją (np. klasyfikacji dokumentów) Rozwiązanie: Normalizacja Sąsiedzi ważeni względem odległości Wpływ sąsiada x i na obiekt testowy x q jest ważony przez Bliżsi sąsiedzi mają większy wpływ w 1 d ( xq, x i ) 2
15 Klasyfikator Bayesowski ion 17 Probabilistic learning: Calculate explicit probabilities for hypothesis, among the most practical approaches to certain types of learning problems Incremental: Each training example can incrementally increase/decrease the probability that a hypothesis is correct. Prior knowledge can be combined with observed data. Probabilistic prediction: Predict multiple hypotheses, weighted by their probabilities Standard: Even when Bayesian methods are computationally intractable, they can provide a standard of optimal decision making against which other methods can be measured
16 Twierdzenie Bayesa ion 18 Dany jest zbiór treningowy D, prawdopodobieństwo posteriori hipotezy h P(h D) można liczyć wzorem Bayesa P( h D) P( D h) P( h) P( D) MAP (maximum posteriori) hypothesis h MAP argmax P( h D) argmax P( D h) P( h hh hh Trudności: ta metoda wymaga znajomości wielu rozkładów prawdopodobieństw wysoki koszt obliczeniowy ).
17 Klasyfikator Bayesa ion 19 Klasyfikacja obiektu opisanego przez x P( decc x) P( x decc) P( decc) P( x) P(x) jest wspólna dla wszystkich hipotez P(dec = c) częstość występowania klasy c Znaleźć c t., że P(dec = c x) było maksymalne, czyli P(x dec=c) P(dec=c) is maximum Problem: obliczenie P(x dec=c) jest czasochłonne!
18 Klasyfikator Naive Bayes ion 20 Naiwne założenie: atrybuty są warunkowo niezależne! Wówczas Czyli P(x 1,,x k C) = P(x 1 C) P(x k C) P( d c x) j P( d i1 To założenie znacznie obniża złożoność obliczeniowy. c j ) n P( x i d c j )
19 Przykład Pacjent poddał się testowi na pewną chorobę i wynik okazał ion 21 się pozytywny. Wiadomo, że ten test jest poprawny w 98% przypadków kiedy wynik był pozytywnych, i poprawny w 97% przypadków kiedy wynik był negatywnych. Wiemy również, że ok. 0.8% społeczeństwa choruje na tą chorobę. P(cancer) =.008 P(cancer) =.992 P(+ cancer) =.98 P( cancer) =.02 P(+ cancer) =.03 P( cancer) =.97 P(+) = P(cancer +) = P(+ c r) P(c r) + P(+ c r) P(c r) =.0376 P( cancer) P( cancer) P( ) =.209
20 Ćwiczenie ion 22 Załóżmy, że drugi test też daje pozytywny wynik. Jak się zmienia prawdopodobieństwo posteriori P(cancer) = P(+ cancer) = P(cancer) = P( cancer) = P(+ cancer) =.03 P( cancer) = P( ) = P( c r) P(c r) + P( c r) P(c r) = P( 1 2 cancer ) P( cancer ) P(cancer ) = =.896 P( ) 1 2
21 Inny przykład: play tennis ion 23 Outlook Temperature Humidity Windy Class sunny hot high false N sunny hot high true N overcast hot high false P rain mild high false P rain cool normal false P rain cool normal true N overcast cool normal true P sunny mild high false N sunny cool normal false P rain mild normal false P sunny mild normal true P overcast mild high true P overcast hot normal false P rain mild high true N P(p) = 9/14 P(n) = 5/14 outlook P(sunny p) = 2/9 P(sunny n) = 3/5 P(overcast p) = 4/9 P(overcast n) = 0 P(rain p) = 3/9 P(rain n) = 2/5 temperature P(hot p) = 2/9 P(hot n) = 2/5 P(mild p) = 4/9 P(mild n) = 2/5 P(cool p) = 3/9 P(cool n) = 1/5 humidity P(high p) = 3/9 P(high n) = 4/5 P(normal p) = 6/9 P(normal n) = 2/5 windy P(true p) = 3/9 P(true n) = 3/5 P(false p) = 6/9 P(false n) = 2/5
22 Przykład: play tennis (c.d.) ion 24 Nowy obiekt X = <rain, hot, high, false> P(X p) P(p) = = P(rain p) P(hot p) P(high p) P(false p) P(p) = 3/9 2/9 3/9 6/9 9/14 = P(X n) P(n) = = P(rain n) P(hot n) P(high n) P(false n) P(n) = 2/5 2/5 4/5 2/5 5/14 = X jest klasyfikowany do klasy n (don t play)
23 Założenie o niezależności ion 25 powoduje, że obliczenia staje się możliwe mamy optymalny klasyfikator o ile ono jest prawdziwe ale warunek bardzo rzadko spełniony w praktyce (atrybuty są często korelowane). Próby pokonania te ograniczenia: Sieci Bayesowskie, that combine Bayesian reasoning with causal relationships between attributes Drzewa decyzyjne, that reason on one attribute at the time, considering most important attributes first
24 Bayesian Belief Networks (I) ion 26 Family History Smoker (FH, S) (FH, ~S)(~FH, S) (~FH, ~S) LC LungCancer Emphysema ~LC The conditional probability table for the variable LungCancer PositiveXRay Dyspnea Bayesian Belief Networks
25 Bayesian Belief Networks (II) ion 27 Bayesian belief network allows a subset of the variables conditionally independent A graphical model of causal relationships Several cases of learning Bayesian belief networks Given both network structure and all the variables: easy Given network structure but only some variables When the network structure is not known in advance
26 Example ion 28 Age Buy X Occ Income Age, Occupation and Income decides whether a costumer buys a product If a costumer buys a product then his Interest in insurance is independent with Age, Occupation, Income. Interested in Insurance P(Age, Occ, Inc, Buy, Ins ) = = P(Age)P(Occ)P(Inc) P(Buy Age,Occ,Inc)P(Int Buy)
27 ion 29 Basic formula P( x,... x M ) P( x Pa, M 1 n i i Pa i n i1 parent ( x i ) )
28 The case of naive Bayes ion 30 h e1 e2. en P(e1, e2, en, h ) = P(h) P(e1 h).p(en h)
29 31 CZĘŚĆ II OCENA KLASYFIKATORÓW
30 Metody oceniania klasyfikatorów ion 32 Znane metody oceniania: Skuteczność predykcji Łączny koszt (gdy różne typy błędów powoduje różne koszty) Krzywy Lift i ROC Błędy przy predykcji wartości rzeczywistych. Jak wiarygodne są te miary?
31 Błąd klasyfikacji ion 33 error rate = l.błędów / l. obieków testowych Sukces: gdy obiekt jest prawidłowo klasyfikowany Błąd: gdy obiekt jest źle klasyfikowany Error rate: odsetka błędów podczas klasyfikacji Błąd klasyfikacji na zbiorze: zbyt optymistyczny! Powinniśmy sprawdzić na losowych danych.
32 ion 34 Classification Step 1: Split data into train and test sets THE PAST Results Known Training set Data + Testing set
33 ion 35 Classification Step 2: Build a model on a training set THE PAST Results Known Training set Data + Model Builder Testing set
34 Classification Step 3: ion 36 Evaluate on test set (Re-train?) Results Known Training set Data + Testing set Model Builder Y N Evaluate Predictions
35 A note on parameter tuning ion 37 It is important that the test data is not used in any way to create the classifier Some learning schemes operate in two stages: Stage 1: builds the basic structure Stage 2: optimizes parameter settings The test data can t be used for parameter tuning! Proper procedure uses three sets: training data, validation data, and test data Validation data is used to optimize parameters
36 Making the most of the data ion 38 Once evaluation is complete, all the data can be used to build the final classifier Generally, the larger the training data the better the classifier (but returns diminish) The larger the test data the more accurate the error estimate
37 Evaluation on LARGE data ion 39 If many (thousands) of examples are available, including several hundred examples from each class, then a simple evaluation is sufficient Randomly split data into training and test sets (usually 2/3 for train, 1/3 for test) Build a classifier using the train set and evaluate it using the test set.
38 ion 40 Classification: Train, Validation, Test split Data Results Known Training set Model Builder Evaluate Predictions Model Builder Validation set Y N Final Test Set Final Model Final Evaluation
39 Handling unbalanced data ion 41 Sometimes, classes have very unequal frequency Attrition prediction: 97% stay, 3% attrite (in a month) medical diagnosis: 90% healthy, 10% disease ecommerce: 99% don t buy, 1% buy Security: >99.99% of Americans are not terrorists Similar situation with multiple classes Majority class classifier can be 97% correct, but useless
40 Balancing unbalanced data ion 42 With two classes, a good approach is to build BALANCED train and test sets, and train model on a balanced set randomly select desired number of minority class instances add equal number of randomly selected majority class Generalize balancing to multiple classes Ensure that each class is represented with approximately equal proportions in train and test
41 *Predicting performance ion 43 Assume the estimated error rate is 25%. How close is this to the true error rate? Depends on the amount of test data Prediction is just like tossing a biased (!) coin Head is a success, tail is an error In statistics, a succession of independent events like this is called a Bernoulli process Statistical theory provides us with confidence intervals for the true underlying proportion!
42 *Przedział ufności ion 44 We can say: p lies within a certain specified interval with a certain specified confidence Example: S=750 successes in N=1000 trials Estimated success rate: 75% How close is this to true success rate p? Answer: with 80% confidence p[73.2,76.7] Another example: S=75 and N=100 Estimated success rate: 75% With 80% confidence p[69.1,80.1]
43 *Wartość średnia i wariancja ion 45 Mean and variance for a Bernoulli trial: p, p (1 p) Expected success rate f=s/n Mean and variance for f : p, p (1 p)/n For large enough N, f follows a Normal distribution c% confidence interval [ z X z] for random variable with 0 mean is given by: Pr[ z X z] With a symmetric distribution: Pr[ z X c z] 1 2Pr[ X z]
44 *Granice ufności ion 46 Idea: Sprowadzamy wszytskie problemy do rozkładu normalnego N(0,1): Pr[X z] z 0.1% % % % % % % Pr[ 1.65 X 1.65] 90% Dla zmiennej X o rozkładzie N(0,1)
45 *Dla rozkładu Bernouliego ion 47 Wartość oczekiwana i wariancję dla f : p, p (1 p)/n Normalizacja zm. f: Mamy równanie na p: Rozwiązanie dla p: N p p p f ) / 1 ( c z N p p p f z ) / (1 Pr N z N z N f N f z N z f p
46 *Przykład ion 48 f = 75%, N = 1000, c = 80% (so that z = 1.28): f = 75%, N = 100, c = 80% (so that z = 1.28): p[0.732,0.767] p[0.691,0.801] Note that normal distribution assumption is only valid for large N (i.e. N > 100) f = 75%, N = 10, c = 80% (so that z = 1.28): (should be taken with a grain of salt) p[0.549,0.881]
47 Ocena małych zbiorów danych ion 49 Metoda podziału na trening i test: Zwykle: 1/3 na test, 2/3 na trening Jeśli zbiór danych jest zbyt mały, zbiory treningowe i testowe nie są reprezentatywne: Próbki muszą zawierać obiekty z każdej klasy Stratified sample: advanced version of balancing the data Make sure that each class is represented with approximately equal proportions in both subsets
48 Repeated holdout method ion 50 Holdout estimate can be made more reliable by repeating the process with different subsamples In each iteration, a certain proportion is randomly selected for training (possibly with stratification) The error rates on the different iterations are averaged to yield an overall error rate This is called the repeated holdout method Still not optimum: the different test sets overlap Can we prevent overlapping?
49 Cross-validation ion 51 Cross-validation avoids overlapping test sets First step: data is split into k subsets of equal size Second step: each subset in turn is used for testing and the remainder for training This is called k-fold cross-validation Often the subsets are stratified before the crossvalidation is performed The error estimates are averaged to yield an overall error estimate
50 Cross-validation: Losowy podział zbioru danych na k grup Zatrzymamy jedną grupę do testu a reszty używamy do treningu Test Powtarzamy Clasific ation 52 52
51 More on cross-validation ion 53 Standard method for evaluation: stratified ten-fold crossvalidation Why ten? Extensive experiments have shown that this is the best choice to get an accurate estimate Stratification reduces the estimate s variance Even better: repeated stratified cross-validation E.g. ten-fold cross-validation is repeated ten times and results are averaged (reduces the variance) witten & eibe
52 Leave-One-Out cross-validation ion 54 Leave-One-Out: przypadek szczególny cross-validation Liczba grup = liczba przykładów Tzn., dla n obiektów budujemy klasyfikator n razy Najlepiej ocenia klasyfikatora Obliczeniowo kosztowna metoda (wyjątek: NN)
53 Leave-One-Out-CV and stratification ion 55 Disadvantage of Leave-One-Out-CV: stratification is not possible It guarantees a non-stratified sample because there is only one instance in the test set! Przykład ekstremalny: dane są podzielone losowo na 2 równe zbiory: Głosowanie większościowe jest najlepszym klasyfikatorem. Na nowych zbiorach danych - 50% skuteczności Leave-One-Out-CV oszacuje, że jest 100% błędu!
54 *The bootstrap ion 56 CV uses sampling without replacement The same instance, once selected, can not be selected again for a particular training/test set Metoda bootstrap próbkuje ze zwracaniem, żeby stworzyć zbiory treningowe i testowe Próbkuje ze zwracaniem n razy Wybrane obiekty tworzą zbiór treningowy Reszta zbiór testowy.
55 *The bootstrap ion 57 Obiekt nie zostanie wybrany do zbioru treningowego z prawdopodobieństwem 1 1/n Prawdopodobieństwo tego, że pozostaje w zbiorze testu: n 1 1 e n To oznacza, że zbiór treningowy zawiera ok. 63.2% przykładów
56 *Estimating error with the bootstrap ion 58 The error estimate on the test data will be very pessimistic Trained on just ~63% of the instances Therefore, combine it with the resubstitution error: err 0.632e 0. e test instances 368 training instances The resubstitution error gets less weight than the error on the test data Repeat process several times with different replacement samples; average the results
57 *More on the bootstrap ion 59 Probably the best way of estimating performance for very small datasets However, it has some problems Consider the random dataset from above A perfect memorizer will achieve 0% resubstitution error and ~50% error on test data Bootstrap estimate for this classifier: err % % 31.6% True expected error: 50%
58 Comparing data mining schemes ion 60 Frequent situation: we want to know which one of two learning schemes performs better Note: this is domain dependent! Obvious way: compare 10-fold CV estimates Problem: variance in estimate Variance can be reduced using repeated CV However, we still don t know whether the results are reliable witten & eibe
59 Direct Marketing Paradigm ion 61 Find most likely prospects to contact Not everybody needs to be contacted Number of targets is usually much smaller than number of prospects Typical Applications retailers, catalogues, direct mail (and ) customer acquisition, cross-sell, attrition prediction...
60 Direct Marketing Evaluation ion 62 Accuracy on the entire dataset is not the right measure Approach develop a target model score all prospects and rank them by decreasing score select top P% of prospects for action How to decide what is the best selection?
61 Cost Sensitive Learning ion 63 There are two types of errors Actual class Yes No Yes Predicted class TP: True positive FP: False positive No FN: False negative TN: True negative Machine Learning methods usually minimize FP+FN Direct marketing maximizes TP
62 ion 64 Model-Sorted List Use a model to assign score to each customer Sort customers by decreasing score Expect more targets (hits) near the top of the list No Score Target CustID Age Y N Y Y N N N hits in top 5% of the list If there 15 targets overall, then top 5 has 3/15=20% of targets
63 Gain chart CPH (Cumulative Pct Hits) CPH(P,M) = % of all targets in the first P% of the list scored by model M CPH frequently called Gains Cumulative % Hits Random 5% of random list have 5% of targets Pct list Q: What is expected value for CPH(P,Random)? A: Expected value for CPH(P,Random) = P
64 CPH: Random List vs Model-ranked list Cumulative % Hits % of random list have 5% of targets, but 5% of model ranked list have 21% of targets CPH(5%,model)=21%. Random Model Pct list
65 Lift Lift (at 5%) 4,5 Lift(P,M) = CPH(P,M) / P = 21% / 5% = 4.2 better than random 4 3,5 3 2,5 2 Lift 1,5 1 Note: Some (including Witten & Eibe) use Lift for what we call CPH. 0,5 0 P -- percent of the list
66 Lift Properties ion 68 Q: Lift(P,Random) = A: 1 (expected value, can vary) Q: Lift(100%, M) = A: 1 (for any model M) Q: Can lift be less than 1? A: yes, if the model is inverted (all the non-targets precede targets in the list) Generally, a better model has higher lift
67 *ROC curves ion 69 ROC curves are similar to gains charts Stands for receiver operating characteristic Used in signal detection to show tradeoff between hit rate and false alarm rate over noisy channel Differences from gains chart: y axis shows percentage of true positives in sample rather than absolute number x axis shows percentage of false positives in sample rather than sample size
68 *A sample ROC curve ion 70 Jagged curve one set of test data Smooth curve use cross-validation
69 *Cross-validation and ROC curves ion 71 Simple method of getting a ROC curve using crossvalidation: Collect probabilities for instances in test folds Sort instances according to probabilities This method is implemented in WEKA However, this is just one possibility The method described in the book generates an ROC curve for each fold and averages them
70 *ROC curves for two schemes ion 72 For a small, focused sample, use method A For a larger one, use method B In between, choose between A and B with appropriate probabilities
71 *The convex hull ion 73 Given two learning schemes we can achieve any point on the convex hull! TP and FP rates for scheme 1: t 1 and f 1 TP and FP rates for scheme 2: t 2 and f 2 If scheme 1 is used to predict 100q % of the cases and scheme 2 for the rest, then TP rate for combined scheme: q t 1 +(1-q) t 2 FP rate for combined scheme: q f 2 +(1-q) f 2 witten & eibe
72 Different Costs ion 74 In practice, true positive and false negative errors often incur different costs Examples: Medical diagnostic tests: does X have leukemia? Loan decisions: approve mortgage for X? Web mining: will X click on this link? Promotional mailing: will X buy the product?
73 Cost-sensitive learning ion 75 Most learning schemes do not perform cost-sensitive learning They generate the same classifier no matter what costs are assigned to the different classes Example: standard decision tree learner Simple methods for cost-sensitive learning: Re-sampling of instances according to costs Weighting of instances according to costs Some schemes are inherently cost-sensitive, e.g. naïve Bayes
74 KDD Cup 98 a Case Study ion 76 Cost-sensitive learning/data mining widely used, but rarely published Well known and public case study: KDD Cup 1998 Data from Paralyzed Veterans of America (charity) Goal: select mailing with the highest profit Evaluation: Maximum actual profit from selected list (with mailing cost = $0.68) Sum of (actual donation-$0.68) for all records with predicted/ expected donation > $0.68 More in a later lesson
75 *Measures in information retrieval ion 77 Percentage of retrieved documents that are relevant: precision=tp/(tp+fp) Percentage of relevant documents that are returned: recall =TP/(TP+FN) Precision/recall curves have hyperbolic shape Summary measures: average precision at 20%, 50% and 80% recall (three-point average recall) F-measure=(2recallprecision)/(recall+precision)
76 *Summary of measures ion 78 Domain Plot Explanation Lift chart Marketing TP Subset size ROC curve Communications TP rate FP rate Recallprecision curve Information retrieval Recall Precision TP (TP+FP)/(TP+FP+TN+FN) TP/(TP+FN) FP/(FP+TN) TP/(TP+FN) TP/(TP+FP)
Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów
Wprowadzenie do programu RapidMiner, część 2 Michał Bereta www.michalbereta.pl 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów Zaimportuj dane pima-indians-diabetes.csv. (Baza danych poświęcona
Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów
Rozpoznawanie twarzy metodą PCA Michał Bereta www.michalbereta.pl 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów Wiemy, że możemy porównywad klasyfikatory np. za pomocą kroswalidacji.
Hard-Margin Support Vector Machines
Hard-Margin Support Vector Machines aaacaxicbzdlssnafiyn9vbjlepk3ay2gicupasvu4iblxuaw2hjmuwn7ddjjmxm1bkcg1/fjqsvt76fo9/gazqfvn8y+pjpozw5vx8zkpvtfxmlhcwl5zxyqrm2vrg5zw3vxmsoezi4ogkr6phieky5crvvjhriqvdom9l2xxftevuwcekj3lktmhghgniauiyutvrwxtvme34a77kbvg73gtygpjsrfati1+xc8c84bvraowbf+uwnipyehcvmkjrdx46vlykhkgykm3ujjdhcyzqkxy0chur6ax5cbg+1m4bbjptjcubuz4kuhvjoql93hkin5hxtav5x6yyqopnsyuneey5ni4keqrxbar5wqaxbik00icyo/iveiyqqvjo1u4fgzj/8f9x67bzmxnurjzmijtlybwfgcdjgfdtajwgcf2dwaj7ac3g1ho1n4814n7wwjgjmf/ys8fenfycuzq==
Agenda. WEKA Podstawowe pojęcia. Przykład danych
Agenda WEKA Podstawowe pojęcia dr inŝ. Jacek Grekow Klasyfikacja Metody ewaluacji UŜycie klasyfikatorów z linii komend, parametry Wizualizacja rezultatów klasyfikacji Zbiór danych wejściowych jest przybliŝonym
Linear Classification and Logistic Regression. Pascal Fua IC-CVLab
Linear Classification and Logistic Regression Pascal Fua IC-CVLab 1 aaagcxicbdtdbtmwfafwdgxlhk8orha31ibqycvkdgpshdqxtwotng2pxtvqujmok1qlky5xllzrnobbediegwcap4votk2kqkf+/y/tnphdschtadu/giv3vtea99cfma8fpx7ytlxx7ckns4sylo3doom7jguhj1hxchmy/irhrlgh67lxb5x3blis8jjqynmedqujiu5zsqqagrx+yjcfpcrydusshmzeluzsg7tttiew5khhcuzm5rv0gn1unw6zl3gbzlpr3liwncyr6aaqinx4wnc/rpg6ix5szd86agoftuu0g/krjxdarph62enthdey3zn/+mi5zknou2ap+tclvhob9sxhwvhaqketnde7geqjp21zvjsfrcnkfhtejoz23vq97elxjlpbtmxpl6qxtl1sgfv1ptpy/yq9mgacrzkgje0hjj2rq7vtywnishnnkzsqekucnlblrarlh8x8szxolrrxkb8n6o4kmo/e7siisnozcfvsedlol60a/j8nmul/gby8mmssrfr2it8lkyxr9dirxxngzthtbaejv
Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout
Machine Learning for Data Science (CS4786) Lecture 24 Differential Privacy and Re-useable Holdout Defining Privacy Defining Privacy Dataset + Defining Privacy Dataset + Learning Algorithm Distribution
Revenue Maximization. Sept. 25, 2018
Revenue Maximization Sept. 25, 2018 Goal So Far: Ideal Auctions Dominant-Strategy Incentive Compatible (DSIC) b i = v i is a dominant strategy u i 0 x is welfare-maximizing x and p run in polynomial time
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Previously on CSCI 4622
More Naïve Bayes aaace3icbvfba9rafj7ew423vr998obg2gpzkojyh4rcx3ys4lafzbjmjifdototmhoilml+hf/mn3+kl+jkdwtr64gbj+8yl2/ywklhsfircg/dvnp33s796mhdr4+fdj4+o3fvywvorkuqe5zzh0oanjakhwe1ra5zhaf5xvgvn35f62rlvtcyxpnm50awundy1hzwi46jbmgprbtrrvidrg4jre4g07kak+picee6xfgiwvfaltorirucni64eeigkqhpegbwaxglabftpyq4gjbls/hw2ci7tr2xj5ddfmfzwtazj6ubmyddgchbzpf88dmrktfonct6vazputos5zakunhfweow5ukcn+puq8m1ulm7kq+d154pokysx4zgxw4nwq6dw+rcozwnhbuu9et/tgld5cgslazuci1yh1q2ynca/u9ais0kukspulds3xxegvtyfycu8iwk1598e0z2xx/g6ef94ehbpo0d9ok9yiowsvfskh1ix2zcbpsdvaxgww7wj4zdn+he2hogm8xz9s+e7/4cuf/ata==
Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis
Machine Learning for Data Science (CS4786) Lecture11 5 Random Projections & Canonical Correlation Analysis The Tall, THE FAT AND THE UGLY n X d The Tall, THE FAT AND THE UGLY d X > n X d n = n d d The
Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2
Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2 aaaklnictzzjb9tgfmcnadpg7oy0lxa9edva9kkapdarhyk2k7gourinlwsweyzikuyiigvyleiv/cv767fpf/5crc1xt9va5mx7w3m/ecuqw1kuztpx/rl3/70h73/w4cog9dhhn3z62d6jzy+yzj766txpoir9nzszisjynetqr+rvlfvyoozu5xbybpsxb1wahul8phczdt2v4zgchb7uecwphlyigrgkjcyiflfyci0kxnmr4z6kw0jsokvot8isntpa3gbknlcufiv/h+hh+eur4fomd417rvtfjoit5pfju6yxiab2fmwk0y/feuybobqk+axnke8xzjjhfyd8kkpl9zdoddkazd5j6bzpemjb64smjb6vb4xmehysu08lsrszopxftlzee130jcb0zjxy7r5wa2f1s2off2+dyatrughnrtpkuprlcpu55zlxpss/yqe2eamjkcf0jye8w8yas0paf6t0t2i9stmcua+inbi2rt01tz22tubbqwidypvgz6piynkpobirkxgu54ibzoti4pkw2i5ow9lnuaoabhuxfxqhvnrj6w15tb3furnbm+scyxobjhr5pmj5j/w5ix9wsa2tlwx9alpshlunzjgnrwvqbpwzjl9wes+ptyn+ypy/jgskavtl8j0hz1djdhzwtpjbbvpr1zj7jpg6ve7zxfngj75zee0vmp9qm2uvgu/9zdofq6r+g8l4xctvo+v+xdrfr8oxiwutycu0qgyf8icuyvp/sixfi9zxe11vp6mrjjovpmxm6acrtbia+wjr9bevlgjwlz5xd3rfna9g06qytaoofk8olxbxc7xby2evqjmmk6pjvvzxmpbnct6+036xp5vdbrnbdqph8brlfn/n/khnfumhf6z1v7h/80yieukkd5j0un82t9mynxzmk0s/bzn4tacdziszdhwrl8x5ako8qp1n1zn0k6w2em0km9zj1i4yt1pt3xiprw85jmc2m1ut2geum6y6es2fwx6c+wlrpykblopbuj5nnr2byygfy5opllv4+jmm7s6u+tvhywbnb0kv2lt5th4xipmiij+y1toiyo7bo0d+vzvovjkp6aoejsubhj3qrp3fjd/m23pay8h218ibvx3nicofvd1xi86+kh6nb/b+hgsjp5+qwpurzlir15np66vmdehh6tyazdm1k/5ejtuvurgcqux6yc+qw/sbsaj7lkt4x9qmtp7euk6zbdedyuzu6ptsu2eeu3rxcz06uf6g8wyuveznhkbzynajbb7r7cbmla+jbtrst0ow2v6ntkwv8svnwqnu5pa3oxfeexf93739p93chq/fv+jr8r0d9brhpcxr2w88bvqbr41j6wvrb+u5dzjpvx+veoaxwptzp/8cen+xbg==
Tychy, plan miasta: Skala 1: (Polish Edition)
Tychy, plan miasta: Skala 1:20 000 (Polish Edition) Poland) Przedsiebiorstwo Geodezyjno-Kartograficzne (Katowice Click here if your download doesn"t start automatically Tychy, plan miasta: Skala 1:20 000
Wyk lad 8: Leniwe metody klasyfikacji
Wyk lad 8: Leniwe metody Wydzia l MIM, Uniwersytet Warszawski Outline 1 2 lazy vs. eager learning lazy vs. eager learning Kiedy stosować leniwe techniki? Eager learning: Buduje globalna hipoteze Zaleta:
SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like
SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1 I SSW1.1, HFW Fry #65, Zeno #67 Benchmark: Qtr.1 like SSW1.2, HFW Fry #47, Zeno #59 Benchmark: Qtr.1 do SSW1.2, HFW Fry #5, Zeno #4 Benchmark: Qtr.1 to SSW1.2,
Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)
Zakopane, plan miasta: Skala ok. 1:15 000 = City map (Polish Edition) Click here if your download doesn"t start automatically Zakopane, plan miasta: Skala ok. 1:15 000 = City map (Polish Edition) Zakopane,
Helena Boguta, klasa 8W, rok szkolny 2018/2019
Poniższy zbiór zadań został wykonany w ramach projektu Mazowiecki program stypendialny dla uczniów szczególnie uzdolnionych - najlepsza inwestycja w człowieka w roku szkolnym 2018/2019. Składają się na
MaPlan Sp. z O.O. Click here if your download doesn"t start automatically
Mierzeja Wislana, mapa turystyczna 1:50 000: Mikoszewo, Jantar, Stegna, Sztutowo, Katy Rybackie, Przebrno, Krynica Morska, Piaski, Frombork =... = Carte touristique (Polish Edition) MaPlan Sp. z O.O Click
Laboratorium 4. Naiwny klasyfikator Bayesa.
Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition) Robert Respondowski Click here if your download doesn"t start automatically Wojewodztwo Koszalinskie:
STATISTICAL METHODS IN BIOLOGY
STATISTICAL METHODS IN BIOLOGY 1. Introduction 2. Populations and samples 3. Hypotheses testing and parameter estimation 4. Experimental design for biological data 5. Most widely used statistical tests
Agnostic Learning and VC dimension
Agnostic Learning and VC dimension Machine Learning Spring 2019 The slides are based on Vivek Srikumar s 1 This Lecture Agnostic Learning What if I cannot guarantee zero training error? Can we still get
Stargard Szczecinski i okolice (Polish Edition)
Stargard Szczecinski i okolice (Polish Edition) Janusz Leszek Jurkiewicz Click here if your download doesn"t start automatically Stargard Szczecinski i okolice (Polish Edition) Janusz Leszek Jurkiewicz
Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering
Machine Learning for Data Science (CS4786) Lecture 11 Spectral Embedding + Clustering MOTIVATING EXAMPLE What can you say from this network? MOTIVATING EXAMPLE How about now? THOUGHT EXPERIMENT For each
Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019
Poniższy zbiór zadań został wykonany w ramach projektu Mazowiecki program stypendialny dla uczniów szczególnie uzdolnionych - najlepsza inwestycja w człowieka w roku szkolnym 2018/2019. Tresci zadań rozwiązanych
Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)
Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2) Click here if your download doesn"t start automatically Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2) Emilka szuka swojej gwiazdy / Emily
OpenPoland.net API Documentation
OpenPoland.net API Documentation Release 1.0 Michał Gryczka July 11, 2014 Contents 1 REST API tokens: 3 1.1 How to get a token............................................ 3 2 REST API : search for assets
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition) Robert Respondowski Click here if your download doesn"t start automatically Wojewodztwo Koszalinskie:
Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science
Proposal of thesis topic for mgr in (MSE) programme 1 Topic: Monte Carlo Method used for a prognosis of a selected technological process 2 Supervisor: Dr in Małgorzata Langer 3 Auxiliary supervisor: 4
Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)
Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition) J Krupski Click here if your download doesn"t start automatically Karpacz, plan miasta 1:10 000: Panorama
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition) Robert Respondowski Click here if your download doesn"t start automatically Wojewodztwo Koszalinskie:
Baza danych dla potrzeb zgłębiania DMX
Baza danych dla potrzeb zgłębiania DMX ID Outlook Temperature Humidity Windy PLAY 1 sunny hot high false N 2 sunny hot high true N 3 overcast hot high false T 4rain mild high false T 5rain cool normal
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition) Robert Respondowski Click here if your download doesn"t start automatically Wojewodztwo Koszalinskie:
Laboratorium 6. Indukcja drzew decyzyjnych.
Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL
Read Online and Download Ebook ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL DOWNLOAD EBOOK : ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA Click link bellow and free register
Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)
Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition) Piotr Maluskiewicz Click here if your download doesn"t start automatically Miedzy
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)
Katowice, plan miasta: Skala 1:20 000 = City map = Stadtplan (Polish Edition) Polskie Przedsiebiorstwo Wydawnictw Kartograficznych im. Eugeniusza Romera Click here if your download doesn"t start automatically
Data Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Maximum A Posteriori Chris Piech CS109, Stanford University
Maximum A Posteriori Chris Piech CS109, Stanford University Previously in CS109 Game of Estimators Estimators Maximum Likelihood Non spoiler alert: this didn t happen in game of thrones aaab7nicbva9swnbej2lxzf+rs1tfomqm3anghywarvlcoydkjpsbfasjxt7x+6cei78cbslrwz9pxb+gzfjfzr4yodx3gwz84jecoou++0u1ty3nrek26wd3b39g/lhucveqwa8ywiz605adzdc8sykllytae6jqpj2ml6d+e0nro2i1qnoeu5hdkhekbhfk7u7j1lvne/75ypbc+cgq8tlsqvynprlr94gzmneftjjjel6boj+rjukjvm01esntygb0yhvwqpoxi2fzc+dkjordegya1skyvz9pzhryjhjfnjoiolilhsz8t+vm2j47wdcjslyxralwlqsjmnsdziqmjoue0so08lestiiasrqjlsyixjll6+s1kxnc2ve/wwlfpphuyqtoiuqehafdbidbjsbwrie4rxenmr5cd6dj0vrwclnjuepnm8fuskpig==
TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction
TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 9: Inference in Structured Prediction 1 intro (1 lecture) Roadmap deep learning for NLP (5 lectures) structured prediction
Zarządzanie sieciami telekomunikacyjnymi
SNMP Protocol The Simple Network Management Protocol (SNMP) is an application layer protocol that facilitates the exchange of management information between network devices. It is part of the Transmission
tum.de/fall2018/ in2357
https://piazza.com/ tum.de/fall2018/ in2357 Prof. Daniel Cremers From to Classification Categories of Learning (Rep.) Learning Unsupervised Learning clustering, density estimation Supervised Learning learning
TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2
TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 8: Structured PredicCon 2 1 Roadmap intro (1 lecture) deep learning for NLP (5 lectures) structured predic+on (4 lectures)
Pielgrzymka do Ojczyzny: Przemowienia i homilie Ojca Swietego Jana Pawla II (Jan Pawel II-- pierwszy Polak na Stolicy Piotrowej) (Polish Edition)
Pielgrzymka do Ojczyzny: Przemowienia i homilie Ojca Swietego Jana Pawla II (Jan Pawel II-- pierwszy Polak na Stolicy Piotrowej) (Polish Edition) Click here if your download doesn"t start automatically
Zmiany techniczne wprowadzone w wersji Comarch ERP Altum
Zmiany techniczne wprowadzone w wersji 2018.2 Copyright 2016 COMARCH SA Wszelkie prawa zastrzeżone Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci
A Zadanie
where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona
Laboratorium 5. Adaptatywna sieć Bayesa.
Laboratorium 5 Adaptatywna sieć Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>.
utrzymania swoich obecnych klientów i dowiedzia la sie, że metody data mining moga
Imiȩ i nazwisko: Nr indeksu: Egzamin z Wyk ladu Monograficznego p.t. DATA MINING 1. (6 pkt.) Firma X jest dostawca us lug po l aczeń bezprzewodowych (wireless) w USA, która ma 34.6 milionów klientów. Firma
Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)
Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition) Piotr Maluskiewicz Click here if your download doesn"t start automatically Miedzy
Planning and Cabling Networks
Planning and Cabling Networks Network Fundamentals Chapter 10 Version 4.0 1 Projektowanie okablowania i sieci Podstawy sieci Rozdział 10 Version 4.0 2 Objectives Identify the basic network media required
Convolution semigroups with linear Jacobi parameters
Convolution semigroups with linear Jacobi parameters Michael Anshelevich; Wojciech Młotkowski Texas A&M University; University of Wrocław February 14, 2011 Jacobi parameters. µ = measure with finite moments,
ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.
ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS. Strona 1 1. Please give one answer. I am: Students involved in project 69% 18 Student not involved in
Wprowadzenie do programu RapidMiner, część 5 Michał Bereta
Wprowadzenie do programu RapidMiner, część 5 Michał Bereta www.michalbereta.pl 1. Przekształcenia atrybutów (ang. attribute reduction / transformation, feature extraction). Zamiast wybierad częśd atrybutów
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie
Patients price acceptance SELECTED FINDINGS
Patients price acceptance SELECTED FINDINGS October 2015 Summary With growing economy and Poles benefiting from this growth, perception of prices changes - this is also true for pharmaceuticals It may
Indukowane Reguły Decyzyjne I. Wykład 8
Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne
Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
Wprowadzenie do programu RapidMiner, część 3 Michał Bereta
Wprowadzenie do programu RapidMiner, część 3 Michał Bereta www.michalbereta.pl 1. W programie RapidMiner mamy do dyspozycji kilka dyskryminacyjnych modeli liniowych jako operatory: a. LDA Linear Discriminant
Prices and Volumes on the Stock Market
Prices and Volumes on the Stock Market Krzysztof Karpio Piotr Łukasiewicz Arkadiusz Orłowski Warszawa, 25-27 listopada 2010 1 Data selection Warsaw Stock Exchange WIG index assets most important for investors
Wybrzeze Baltyku, mapa turystyczna 1: (Polish Edition)
Wybrzeze Baltyku, mapa turystyczna 1:50 000 (Polish Edition) Click here if your download doesn"t start automatically Wybrzeze Baltyku, mapa turystyczna 1:50 000 (Polish Edition) Wybrzeze Baltyku, mapa
Poland) Wydawnictwo "Gea" (Warsaw. Click here if your download doesn"t start automatically
Suwalski Park Krajobrazowy i okolice 1:50 000, mapa turystyczno-krajoznawcza =: Suwalki Landscape Park, tourist map = Suwalki Naturpark,... narodowe i krajobrazowe) (Polish Edition) Click here if your
Inverse problems - Introduction - Probabilistic approach
Inverse problems - Introduction - Probabilistic approach Wojciech Dȩbski Instytut Geofizyki PAN debski@igf.edu.pl Wydział Fizyki UW, 13.10.2004 Wydział Fizyki UW Warszawa, 13.10.2004 (1) Plan of the talk
Warsztaty Ocena wiarygodności badania z randomizacją
Warsztaty Ocena wiarygodności badania z randomizacją Ocena wiarygodności badania z randomizacją Każda grupa Wspólnie omawia odpowiedź na zadane pytanie Wybiera przedstawiciela, który w imieniu grupy przedstawia
January 1st, Canvas Prints including Stretching. What We Use
Canvas Prints including Stretching Square PRCE 10 x10 21.00 12 x12 30.00 18 x18 68.00 24 x24 120.00 32 x32 215.00 34 x34 240.00 36 x36 270.00 44 x44 405.00 Rectangle 12 x18 50.00 12 x24 60.00 18 x24 90.00
Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards
INSPIRE Conference 2010 INSPIRE as a Framework for Cooperation Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards Elżbieta Bielecka Agnieszka Zwirowicz
Dealing with continuous-valued attributes
Dealing with continuous-valued attributes An alternative measure: gain ratio Handling incomplete training data Handling attributes with different costs Ensemble of Classifiers Why Ensemble Works? Some
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy
Leba, Rowy, Ustka, Slowinski Park Narodowy, plany miast, mapa turystyczna =: Tourist map = Touristenkarte (Polish Edition)
Leba, Rowy, Ustka, Slowinski Park Narodowy, plany miast, mapa turystyczna =: Tourist map = Touristenkarte (Polish Edition) FotKart s.c Click here if your download doesn"t start automatically Leba, Rowy,
Knovel Math: Jakość produktu
Knovel Math: Jakość produktu Knovel jest agregatorem materiałów pełnotekstowych dostępnych w formacie PDF i interaktywnym. Narzędzia interaktywne Knovel nie są stworzone wokół specjalnych algorytmów wymagających
Gradient Coding using the Stochastic Block Model
Gradient Coding using the Stochastic Block Model Zachary Charles (UW-Madison) Joint work with Dimitris Papailiopoulos (UW-Madison) aaacaxicbvdlssnafj3uv62vqbvbzwarxjsqikaboelgzux7gcaeywtsdp1mwsxeaepd+ctuxcji1r9w5984bbpq1gmxdufcy733bcmjutn2t1fawl5zxsuvvzy2t7z3zn29lkwyguktjywrnqbjwigntuuvi51uebqhjlsdwfxebz8qiwnc79uwjv6mepxgfcoljd88uiox0m1hvlnzwzgowymjn7tjyzertmvpareju5aqkndwzs83thawe64wq1j2httvxo6eopirccxnjekrhqae6wrkuuykl08/gmnjryqwsoqurubu/t2ro1jkyrzozhipvpz3juj/xjdt0ywxu55mina8wxrldkoetukairuekzbubgfb9a0q95fawonqkjoez/7lrdi6trzbcm7pqvwrio4yoarh4aq44bzuwq1ogcba4be8g1fwzjwzl8a78tfrlrnfzd74a+pzb2h+lzm=
Financial support for start-uppres. Where to get money? - Equity. - Credit. - Local Labor Office - Six times the national average wage (22000 zł)
Financial support for start-uppres Where to get money? - Equity - Credit - Local Labor Office - Six times the national average wage (22000 zł) - only for unymployed people - the company must operate minimum
Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)
Dolny Slask 1:300 000, mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition) Click here if your download doesn"t start automatically Dolny Slask 1:300 000, mapa turystyczno-samochodowa: Plan Wroclawia
Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)
Dolny Slask 1:300 000, mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition) Click here if your download doesn"t start automatically Dolny Slask 1:300 000, mapa turystyczno-samochodowa: Plan Wroclawia
Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska
Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska Wykład dla spec. Mgr TWO Poznań 2010 dodatek 1 Ocena wiedzy klasyfikacyjnej wykład dla
9. Praktyczna ocena jakości klasyfikacji
Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)
Klasyfikacja i regresja Wstęp do środowiska Weka
Klasyfikacja i regresja Wstęp do środowiska Weka 19 listopada 2015 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików pdf sformatowanych podobnie do tego dokumentu.
Jak zasada Pareto może pomóc Ci w nauce języków obcych?
Jak zasada Pareto może pomóc Ci w nauce języków obcych? Artykuł pobrano ze strony eioba.pl Pokazuje, jak zastosowanie zasady Pareto może usprawnić Twoją naukę angielskiego. Słynna zasada Pareto mówi o
Probability definition
Probability Probability definition Probability of an event P(A) denotes the frequency of it s occurrence in a long (infinite) series of repeats P( A) = A Ω Ω A 0 P It s s represented by a number in the
Metody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
Few-fermion thermometry
Few-fermion thermometry Phys. Rev. A 97, 063619 (2018) Tomasz Sowiński Institute of Physics of the Polish Academy of Sciences Co-authors: Marcin Płodzień Rafał Demkowicz-Dobrzański FEW-BODY PROBLEMS FewBody.ifpan.edu.pl
Testy jednostkowe - zastosowanie oprogramowania JUNIT 4.0 Zofia Kruczkiewicz
Testy jednostkowe - zastosowanie oprogramowania JUNIT 4.0 http://www.junit.org/ Zofia Kruczkiewicz 1. Aby utworzyć test dla jednej klasy, należy kliknąć prawym przyciskiem myszy w oknie Projects na wybraną
How to translate Polygons
How to translate Polygons Translation procedure. 1) Open polygons.img in Imagine 2) Press F4 to open Memory Window 3) Find and edit tlumacz class, edit all the procedures (listed below) 4) Invent a new
Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)
Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition) J Krupski Click here if your download doesn"t start automatically Karpacz, plan miasta 1:10 000: Panorama
Czy mogę podjąć gotówkę w [nazwa kraju] bez dodatkowych opłat? Asking whether there are commission fees when you withdraw money in a certain country
- General Czy mogę podjąć gotówkę w [nazwa kraju] bez dodatkowych opłat? Asking whether there are commission fees when you withdraw money in a certain country Jakie opłaty obowiązują za korzystanie z obcych
deep learning for NLP (5 lectures)
TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 6: Finish Transformers; Sequence- to- Sequence Modeling and AJenKon 1 Roadmap intro (1 lecture) deep learning for NLP (5
Estimation and planing. Marek Majchrzak, Andrzej Bednarz Wroclaw, 06.07.2011
Estimation and planing Marek Majchrzak, Andrzej Bednarz Wroclaw, 06.07.2011 Story points Story points C D B A E Story points C D 100 B A E Story points C D 2 x 100 100 B A E Story points C D 2 x 100 100
European Crime Prevention Award (ECPA) Annex I - new version 2014
European Crime Prevention Award (ECPA) Annex I - new version 2014 Załącznik nr 1 General information (Informacje ogólne) 1. Please specify your country. (Kraj pochodzenia:) 2. Is this your country s ECPA
PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński
PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR Wojciech Zieliński Katedra Ekonometrii i Statystyki SGGW Nowoursynowska 159, PL-02-767 Warszawa wojtek.zielinski@statystyka.info
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)
Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition) J Krupski Click here if your download doesn"t start automatically Karpacz, plan miasta 1:10 000: Panorama
y = The Chain Rule Show all work. No calculator unless otherwise stated. If asked to Explain your answer, write in complete sentences.
The Chain Rule Show all work. No calculator unless otherwise stated. If asked to Eplain your answer, write in complete sentences. 1. Find the derivative of the functions y 7 (b) (a) ( ) y t 1 + t 1 (c)
CEE 111/211 Agenda Feb 17
CEE 111/211 Agenda Feb 17 Tuesday: SW for project work: Jetstream, MSP, Revit, Riuska, POP, SV On R: drive; takes time to install Acoustics today: \\cife server\files\classes\cee111\presentations Thursday:
OSTC GLOBAL TRADING CHALLENGE MANUAL
OSTC GLOBAL TRADING CHALLENGE MANUAL Wrzesień 2014 www.ostc.com/game Po zarejestrowaniu się w grze OSTC Global Trading Challenge, zaakceptowaniu oraz uzyskaniu dostępu to produktów, użytkownik gry będzie
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Configuring and Testing Your Network
Configuring and Testing Your Network Network Fundamentals Chapter 11 Version 4.0 1 Konfigurowanie i testowanie Twojej sieci Podstawy sieci Rozdział 11 Version 4.0 2 Objectives Define the role of the Internetwork
Wroclaw, plan nowy: Nowe ulice, 1:22500, sygnalizacja swietlna, wysokosc wiaduktow : Debica = City plan (Polish Edition)
Wroclaw, plan nowy: Nowe ulice, 1:22500, sygnalizacja swietlna, wysokosc wiaduktow : Debica = City plan (Polish Edition) Wydawnictwo "Demart" s.c Click here if your download doesn"t start automatically
Automatyczne generowanie testów z modeli. Bogdan Bereza Automatyczne generowanie testów z modeli
Automatyczne generowanie testów z modeli Numer: 1 (33) Rozkmina: Projektowanie testów na podstawie modeli (potem można je wykonywać ręcznie, lub automatycznie zwykle chce się automatycznie) A ja mówię
SubVersion. Piotr Mikulski. SubVersion. P. Mikulski. Co to jest subversion? Zalety SubVersion. Wady SubVersion. Inne różnice SubVersion i CVS
Piotr Mikulski 2006 Subversion is a free/open-source version control system. That is, Subversion manages files and directories over time. A tree of files is placed into a central repository. The repository