2. Ocena dokładności modelu klasyfikacji:

Wielkość: px
Rozpocząć pokaz od strony:

Download "2. Ocena dokładności modelu klasyfikacji:"

Transkrypt

1 Spis treści: 1. Klasyfikacja Ocena dokładności modelu klasyfikacji: Miary dokładności modelu Krzywe oceny Wybrane algorytmy Naiwny klasyfikator Bayesa Drzewa decyzyjne Kryteria wyboru atrybutu Ocena jakości drzewa Algorytmy klasyfikacji Wykorzystanie Oracle Data Miner do klasyfikacji Klasyfikacja z wykorzystaniem algorytmu NCB Klasyfikacja z wykorzystaniem drzewa decyzyjnego Wykorzystanie Rapid Miner a do klasyfikacji Klasyfikacja Wartości atrybutu decyzyjnego dzielą zbiór krotek na predefiniowane klasy, składające się z krotek o tej samej wartości atrybutu decyzyjnego Klasyfikator służy do predykcji wartości atrybutu decyzyjnego (klasy) krotek, dla których wartość atrybutu decyzyjnego, tj. przydział do klasy, nie jest znany Etap 1:...budowa modelu (klasyfikatora) opisującego predefiniowany zbiór klas danych lub zbiór pojęć Etap 2: zastosowanie opracowanego modelu do klasyfikacji nowych danych Model klasyfikacyjny (klasyfikator) jest budowany dwuetapowo: Uczenie (trening) klasyfikator jest budowany w oparciu o zbiór treningowy danych Testowanie dokładność (jakość) klasyfikatora jest weryfikowana w oparciu o zbiór testowy danych 2. Ocena dokładności modelu klasyfikacji: Do oceny jakości modelu wykorzystuje się macierz pomyłek/trafności (confusion matrix): TP FN 0 FP TN Gdzie: TP prawidłowe wskazanie wyróżnionej klasy TN prawidłowe wskazanie klasy niewyróżnionej FP - nieprawidłowe wskazanie wyróżnionej klasy FN niewskazanie klasy wyróżnionej -1-

2 2.1. Miary dokładności modelu Poprawnośc klasyfikacji ocenia się podając inne miary takie jak: współczynnik dokładności =(TP+TN)/(TP+FP+FN+TN), czułość = TP / ( TP + FN), specyficzność = TN / (TN + FP), Wartość predykcyjna dodatniego wyniku = TP / ( TP + FP) Wartość predykcyjna ujemnego wyniku = TN / (TN + FN) iloraz wiarygodności = (TP / ( TP + FN)) / (FP / (FP+TN)). Współczynnik dokładności (ang. accuracy rate) = % procent przykładów testowych poprawnie zaklasyfikowanych przez model Dla przykładów testowych, dla których znane są wartości atrybutu decyzyjnego, wartości te są porównywane z wartościami atrybutu decyzyjnego generowanymi dla tych przykładów przez klasyfikator Krzywe oceny Do porównań jakości różnych modeli oraz rozpatrywania różnych scenariuszy wykorzystania poszczególnych klasyfikatorów wykorzystuje się krzywe oceny. Krzywe te wykorzystują wcześniej opisane miary bazujące na tabeli trafności. krzywą Lift, krzywą ROC i inne (detektyw, TP) -2-

3 Wynik klasyfikacji można przedstawić w postaci: Reguły klasyfikacyjne postaci if - then Drzewa decyzyjne 3. Wybrane algorytmy 3.1. Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesa jest klasyfikatorem statystycznym - oparty na twierdzeniu Bayesa Niech X oznacza przykład, którego klasa nie jest znana. Każdy przykład jest reprezentowany w postaci n-wymiarowego wektora, X=(x1, x2,..., xn) P(C X) prawdopodobieństwo a-posteriori, że przykład X należy do klasy C Klasyfikacje przypadków opiera się na prawdopodobieństwie ich przynależności do poszczególnych klas. Naiwny klasyfikator Bayesa najczęściej jest wykorzystywany dla danych dyskretnych (w przypadku, gdy pewne wymiary przestrzeni są ciągłe, wtedy poddaje sie je dyskretyzacji). Można jednak dokonać oszacowania prawdopodobieństwa dla cech ciągłych, przy założeniu normalności rozkładu każdej z cech dla każdej klasy. -3-

4 3.2. Drzewa decyzyjne Drzewo decyzyjne jest strukturą złożoną z węzłów, z których wychodzą gałęzie prowadzące do innych węzłów lub liści oraz liści, z których nie wychodzą żadne gałęzie. Węzły odpowiadają testom przeprowadzonym na wartościach atrybutów przykładów, gałęzie odpowiadają możliwym wynikom testów zaś liście etykietom kategorii.. Kryteria optymalizacji można podzielić na: Globalne - średnie prawdopodobieństwo błędu - średnia długość ścieżki - liczba węzłów drzewa Lokalne - stopień zróżnicowania danych - przyrost informacji - współczynnik przyrostu informacji i inne Kryteria wyboru atrybutu Można wyróżnić następujące kryteria wyboru atrybutu:: o Przyrost informacji (IM information measure) o Współczynnik przyrostu informacji (GP gain ratio) o Stopień zróżnicowania danych (GINI index) o Statystyka 2. Kryteria wyboru atrybutu nie wpływają na błąd klasyfikacji; można otrzymać równie dobre drzewa wybierając atrybuty w węzłach losowo, Wybór miary ma y wpływ na rozmiary skonstruowanego drzewa (przed przycięciem); drzewa, dla których losowano atrybuty zawierają około dwa razy więcej węzłów; przeważnie korzystając z miary GR otrzymuje się najmniejsze drzewa a za pomocą 2 największe; Na błąd klasyfikacji ma wpływ przycinanie drzewa, które zapobiega nadmiernej specjalizacji drzewa Ocena jakości drzewa Rozmiar Mało węzłów Mała wysokość Mało liści Dokładność klasyfikacji na zbiorze trenującym Dokładność klasyfikacji na zbiorze testującym Q(T) = *rozmiar(t)+ *dokladnosc(t,p) Algorytmy klasyfikacji - C&RT - ID3 - C4.5-4-

5 - CHAID i inne 4. Wykorzystanie Oracle Data Miner do klasyfikacji 4.1. Klasyfikacja z wykorzystaniem algorytmu NCB Zaimportuj dane: mining_data_build_v mining_data_test_v mining_data_apply_v A. Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i polacz sie z serwerem bazy danych. 2. Z menu głównego wybierz Activity_Build. 3. Z listy Function Type wybierz Classification. Rozwiń listę Algorithm i wybierz z niej algorytm Naive Bayes. 4. Wskaż schemat DMUSER i tabele MINING_DATA_BUILD_V jako źródło danych do eksploracji. Jako klucz podstawowy wskaż atrybut CUST_ID. -5-

6 5. Jako atrybut decyzyjny zaznacz atrybut AFFINITY_CARD (pole radiowe w kolumnie Target). Upewnij się, że atrybuty CUST_ID i PRINTER_SUPPLIES są wyłączone z eksploracji (są bezwartościowe i nie niosą żadnej informacji). 6. Z listy rozwijanej wybierz wartość 1 jako preferowana wartość atrybutu decyzyjnego (jest to wartość, której poprawne przewidywanie jest najważniejsze, interesuje nas dokładna identyfikacja klientów, którzy prawdopodobnie skorzystają z oferowanej im karty lojalnościowej). Wprowadź nazwę i komentarz do procesu eksploracji. -6-

7 7. Kliknij przycisk Advanced Settings. Upewnij sie, że na zakładce Sample opcja próbkowania jest wyłączona (pole wyboru Enable Step jest odznaczone). Przejdź na zakładkę Discretize. Naiwny klasyfikator Bayesa wymaga, aby atrybuty numeryczne zostały poddane dyskretyzacji. Upewnij sie, czy automatyczna dyskretyzacja jest włączona. Przejdź na zakładkę Split i upewnij sie, że podział danych wejściowych na zbiór uczący i testujący jest wyłączony. Przejdź na zakładkę Build. Upewnij sie, że algorytm Będzie się starał osiągnąć maksymalna średnia dokładność (w polu Accuracy Goal wybierz opcję Maximum Average Accuracy). Kliknij na zakładkę Algorithm Settings. Wprowadź wartości parametrów: Singleton Threshold 0.1 i Pairwise Threshold Przejdź na zakładkę Test Metrics i wyłącz krok generowania miar oceny dokładności i jakości klasyfikatora. Kliknij przycisk OK. Upewnij sie, że opcja Run upon finish jest włączona. Kliknij przycisk Zakończ. -7-

8 8. Kliknij na odnośnik Results w bloku Build. Na liście rozwijanej Target Class (w lewym górnym rogu okna) wybierz wartość 1. Przeanalizuj prawdopodobieństwa warunkowe wartości poszczególnych atrybutów względem określonej wartości atrybutu decyzyjnego. 9. Kliknij przycisk Filter. Wskaż wartości graniczne prawdopodobieństwa od 0,5 do 1. Kliknij przycisk OK. -8-

9 10. Zamknij okno z wynikami budowy klasyfikatora i powróć do głównego okna. Z menu głównego wybierz Activity_Test. 11. Upewnij sie, że zaznaczone jest pole radiowe Build Activity. Rozwiń listę Classification i wybierz model NB_MINING_DATA_BUILD jako model do testowania. 12. Kliknij na odnośnik Select. Rozwiń węzeł odpowiadający Twojemu schematowi w bazie danych. Jako źródło danych do testowania klasyfikatora wskaż tabelę MINING_DATA_TEST_V. -9-

10 13. Jako preferowana wartość atrybutu decyzyjnego wybierz Wprowadź nazwę i opis procesu eksploracji. Upewnij sie, że zaznaczona jest opcja Run upon finish. 15. Kliknij na odnośnik Result. Na zakładce Predictive Confidence przedstawiona jest dokładność klasyfikatora liczona względem naiwnego klasyfikatora 0-R, który zawsze przewiduje najczęstszą wartość atrybutu decyzyjnego

11 16. Przejdź na zakładkę Accuracy. Zaznacz pole wyboru Show Cost. Kliknij przycisk More Detail. Przeanalizuj uzyskaną macierz pomyłek. 17. Przejdź na zakładkę ROC. Obejrzyj uzyskaną krzywą Receiver-OperatorCharacteristic przedstawiająca stosunek liczby poprawnie sklasyfikowanych instancji (przykładów z wartością atrybutu decyzyjnego 1) do liczby pomyłek (instancji sklasyfikowanych jako należące do klasy 1 podczas gdy w rzeczywistości należą do klasy 0). W dolnej części okna wpisz koszt pomyłki polegającej na niepoprawnym sklasyfikowaniu instancji jako należącej do klasy 1 (False Positive Cost) o wartości 1. Podaj koszt niepoprawnej klasyfikacji instancji jako należącej do klasy 0 (False Negative Cost) o wartości 2 (czyli dwukrotnie większy). Kliknij przycisk Compute Cost. Zobacz, jaka cześć zbioru testowego należałoby wziąć pod uwagę, aby przy tak zdefiniowanych kosztach pomyłek ogólny koszt błędu klasyfikatora był najmniejszy

12 18. Przejdź na zakładkę Lift. Zaznacz pole radiowe Cumulative Positive Cases. Jaki procent zbioru testowego należy rozważyć, aby znaleźć 80% wszystkich instancji należących do klasy 1? 19. Powróć do głównego okna programu. Z menu głównego wybierz Activity_Apply. 20. Upewnij się, że zaznaczone jest pole radiowe Build Activity. Rozwiń listę Classification i wskaż na model NB_MINING_DATA_BUILD jako na model do zastosowania. 21. Kliknij na odnośnik Select. Rozwiń węzeł odpowiadający Twojemu schematowi w bazie danych. Jako źródło danych do zastosowania klasyfikatora wskaż tabelę MINING_DATA_APPLY_V

13 22. Wskaż atrybuty, które powinny sie znaleźć w tabeli wynikowej po zastosowaniu klasyfikatora do danych. Upewnij sie, że zaznaczony jest klucz podstawowy CUST_ID. 23. Wskaż wykonany wcześniej proces eksploracji zawierający wynik testowania klasyfikatora. Zaznacz pole radiowe Test activity i z listy wybierz proces NB_MINING_DATA_TEST

14 24. Upewnij sie, że w kolejnym kroku wybrana jest opcja Most Probable Target Value Or Lowest Cost (dla każdej instancji w zbiorze wejściowym zostanie znaleziona jedna, najbardziej prawdopodobna wartość atrybutu decyzyjnego). 25. Podaj nazwę i opis procesu eksploracji. Upewnij sie, że zaznaczona jest opcja Run upon finish. Kliknij przycisk Zakończ

15 26. Kliknij odnośnik Results. Obejrzyj wynik zastosowania klasyfikatora do danych wejściowych. Dla każdej instancji wyświetlone są: przewidywana wartość atrybutu decyzyjnego, prawdopodobieństwo predykcji i koszt związany z predykcją Klasyfikacja z wykorzystaniem drzewa decyzyjnego Dane: mining_data_build_v mining_data_test_v mining_data_apply_v

16 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity_Build. 3. Z listy Function Type wybierz Classification. Rozwiń listę Algorithm i wybierz z niej algorytm Decision Tree. 4. Wskaż tabelę MINING_DATA_BUILD_V jako zródło danych do eksploracji. Jako klucz podstawowy wskaż atrybut CUST_ID. 5. Jako atrybut decyzyjny zaznacz atrybut AFFINITY_CARD (pole radiowe w kolumnie Target). Upewnij się, że atrybuty CUST_ID i PRINTER_SUPPLIES są wyłączone z eksploracji (są bezwartościowe i nie niosą żadnej informacji)

17 6. Z listy rozwijanej wybierz wartość 1 jako preferowaną wartość atrybutu decyzyjnego (jest to wartość, której poprawne przewidywanie jest najważniejsze, interesuje nas dokładna identyfikacja klientów, którzy prawdopodobnie skorzystają z oferowanej im karty lojalnościowej). Wprowadź nazwę (np. MINING_DATA_BUILD_DT) i komentarz do procesu eksploracji. 7. Kliknij przycisk Advanced Settings. Przejdź na zakładkę Split i podziel zbiór danych na zbiór uczący i zbiór testujący, w proporcjach 70/

18 Upewnij się, że na zakładce Sample opcja próbkowania jest wyłączona Przejdź na zakładkę Build. Upewnij sie, że algorytm będzie się starał osiągnąć maksymalną średnią dokładność (w polu Accuracy Goal wybierz opcje Maximum Average Accuracy). Kliknij na zakładkę Algorithm Settings. Wybierz metodę podziału węzła (w Homogeneity Metric wybierz metodę opartą na mierze zysku informacyjnego wykorzystującego entropię - Entropy). Pozostałe parametry pozostaw bez zmian. Przejdź na zakładkę Test Metrics i wyłącz krok generowania miar oceny dokładności i jakości klasyfikatora. Upewnij sie, że opcja Run upon finish jest włączona. Kliknij przycisk Zakończ. 8. Kliknij na odnośnik Results w bloku Build. Zakładka Tree przedstawia zbudowany klasyfikator. Zaznacz opcję Show Leaves Only. Przeanalizuj otrzymany model pod względem rozkładu wartości atrybutu decyzyjnego w liściach

19 9. Kliknij na odnośnik Results w bloku Test Metrics. Przeanalizuj parametry zbudowanego modelu. 10. Zamknij okno z wynikami budowy klasyfikatora i powróć do głównego okna. Z menu głównego wybierz Activity_Test. 11. Upewnij sie, że zaznaczone jest pole radiowe Build Activity. Rozwiń listę Classification i wybierz model MINING_DATA_BUILD_DT jako model do testowania

20 12. Kliknij na odnosnik Select. Rozwiń węzeł odpowiadający Twojemu schematowi w bazie danych. Jako zródło danych do testowania klasyfikatora wskaż tabele MINING_DATA_TEST_V. 13. Jako preferowana wartość atrybutu decyzyjnego wybierz Wprowadź nazwę i opis procesu eksploracji. Upewnij sie, że zaznaczona jest opcja Run upon finish. 15. Kliknij na odnośnik Result. Na zakładce Predictive Confidence przedstawiona jest dokładność klasyfikatora liczona względem naiwnego klasyfikatora 0-R, który zawsze przewiduje najczęstszą wartość atrybutu decyzyjnego. 16. Przejdź na zakładkę Accuracy. Zaznacz pole wyboru Show Cost. Kliknij przycisk More Detail. Przeanalizuj uzyskaną macierz pomyłek

21 17. Przejdź na zakładkę ROC. Obejrzyj uzyskana krzywa Receiver-OperatorCharacteristic przedstawiającą stosunek liczby poprawnie sklasyfikowanych instancji (przykładów z wartością atrybutu decyzyjnego 1) do liczby pomyłek (instancji sklasyfikowanych jako należące do klasy 1 podczas gdy w rzeczywistości należą do klasy 0). W dolnej części okna wpisz koszt pomyłki polegającej na niepoprawnym sklasyfikowaniu instancji jako należącej do klasy 1 (False Positive Cost) o wartosci 1. Podaj koszt niepoprawnej klasyfikacji instancji jako należącej do klasy 0 (False Negative Cost) o wartości 2 (czyli dwukrotnie większy). Kliknij przycisk Compute Cost. Zobacz, jaka cześć zbioru testowego należałoby wziąć pod uwagę, aby przy tak zdefiniowanych kosztach pomyłek ogólny koszt błędu klasyfikatora był najmniejszy. 18. Przejdź na zakładkę Lift. Zaznacz pole radiowe Cumulative Positive Cases. Jaki procent zbioru testowego należy rozważyć, aby znaleźć 80% wszystkich instancji należących do klasy 1?

22 19. Powróć do głównego okna programu. Z menu głównego wybierz Activity_Apply. Na ekranie powitalnym kliknij przycisk Dalej>. 20. Upewnij sie, że zaznaczone jest pole radiowe Build Activity. Rozwiń listę Classification i wskaż na model MINING_DATA_BUILD_DT jako na model do zastosowania. Kliknij przycisk Dalej>. 21. Kliknij na odnosnik Select. Rozwiń węzeł odpowiadający Twojemu schematowi w bazie danych. Jako zródło danych do zastosowania klasyfikatora wskaż tabelę MINING_DATA_APPLY_V. 22. Wskaż atrybuty, które powinny sie znaleźć w tabeli wynikowej po zastosowaniu klasyfikatora do danych. Upewnij sie, że zaznaczony jest klucz podstawowy CUST_ID. 23. Wskaż wykonany wcześniej proces eksploracji zawierający wynik testowania klasyfikatora. Zaznacz pole radiowe Test Activity i z listy wybierz właściwy proces

23 24. Upewnij sie, że w kolejnym kroku wybrana jest opcja Most Probable Target Value Or Lowest Cost (dla każdej instancji w zbiorze wejściowym zostanie znaleziona jedna najbardziej prawdopodobna wartość atrybutu decyzyjnego). 25. Podaj nazwę i opis procesu eksploracji. Upewnij się, że zaznaczona jest opcja Run upon finish. 26. Kliknij odnośnik Results. Obejrzyj wynik zastosowania klasyfikatora do danych wejściowych. Dla każdej instancji wyświetlone są: przewidywana wartość atrybutu decyzyjnego, prawdopodobieństwo predykcji i koszt związany z predykcją

24 5. Wykorzystanie Rapid Miner a do klasyfikacji - Dla pliku GOLF z przykładów wygeneruj macierz wykresów rozproszenia, wykres bąbelkowy

25 - Oceń, które atrybuty mają największy wpływ na możliwość podziału danych na klasy Yes/No. 1. Przygotuj diagram przepływu informacji zawierający operator Retrive i Blok walidacji (Edit->New Building Block) Parametry: Operator Retrive Golf Kliknij dwukrotnie na operatorze Validate

26 Sprawdź możliwe metody prezentacji wyników: Oceń jakość klasyfikatora na podstawie wyników:

27 2. Przygotuj diagram przepływu informacji:

28 Pametry operatorów: Retrive Golf Retrive 2 Golf Test Decision tree i ModelApplier domyślne parametry Uruchom przepływ danych. Sprawdź jak będą klasyfikowane dane z pliku Golf Test. Źródła: D.Larose, Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, PWN, 2006 D.Hand, H.Mannila, P.Smyth, Eksploracja danych, WNT, m#i ree.htm m#i

Laboratorium 4. Naiwny klasyfikator Bayesa.

Laboratorium 4. Naiwny klasyfikator Bayesa. Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Laboratorium 6. Indukcja drzew decyzyjnych.

Laboratorium 6. Indukcja drzew decyzyjnych. Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Laboratorium 5. Adaptatywna sieć Bayesa.

Laboratorium 5. Adaptatywna sieć Bayesa. Laboratorium 5 Adaptatywna sieć Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>.

Bardziej szczegółowo

Laboratorium 11. Regresja SVM.

Laboratorium 11. Regresja SVM. Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z

Bardziej szczegółowo

Laboratorium 7. Support Vector Machines (klasyfikacja).

Laboratorium 7. Support Vector Machines (klasyfikacja). Laboratorium 7 Support Vector Machines (klasyfikacja). 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij

Bardziej szczegółowo

Laboratorium 2. Określanie ważności atrybutów.

Laboratorium 2. Określanie ważności atrybutów. Laboratorium 2 Określanie ważności atrybutów. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization. Laboratorium 10 Odkrywanie cech i algorytm Non-Negative Matrix Factorization. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie

Bardziej szczegółowo

1. Odkrywanie asocjacji

1. Odkrywanie asocjacji 1. 2. Odkrywanie asocjacji...1 Algorytmy...1 1. A priori...1 2. Algorytm FP-Growth...2 3. Wykorzystanie narzędzi Oracle Data Miner i Rapid Miner do odkrywania reguł asocjacyjnych...2 3.1. Odkrywanie reguł

Bardziej szczegółowo

Laboratorium 3. Odkrywanie reguł asocjacyjnych.

Laboratorium 3. Odkrywanie reguł asocjacyjnych. Laboratorium 3 Odkrywanie reguł asocjacyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Tools SQL Worksheet. W górnym oknie wprowadź i wykonaj

Bardziej szczegółowo

Laboratorium 12. Odkrywanie osobliwości.

Laboratorium 12. Odkrywanie osobliwości. Laboratorium 12 Odkrywanie osobliwości. Odkrywanie osobliwości (ang. outliers) za pomocą algorytmu SVM zostanie w pierwszej części ćwiczenia przeprowadzone w środowisku SQL, a w drugiej części wykorzystamy

Bardziej szczegółowo

1. Grupowanie Algorytmy grupowania:

1. Grupowanie Algorytmy grupowania: 1. 1.1. 2. 3. 3.1. 3.2. Grupowanie...1 Algorytmy grupowania:...1 Grupowanie metodą k-średnich...3 Grupowanie z wykorzystaniem Oracle Data Miner i Rapid Miner...3 Grupowanie z wykorzystaniem algorytmu K-Means

Bardziej szczegółowo

9. Praktyczna ocena jakości klasyfikacji

9. Praktyczna ocena jakości klasyfikacji Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 8

Indukowane Reguły Decyzyjne I. Wykład 8 Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne

Bardziej szczegółowo

Laboratorium 13. Eksploracja danych tekstowych.

Laboratorium 13. Eksploracja danych tekstowych. Laboratorium 13 Eksploracja danych tekstowych. Eksploracja danych tekstowych oraz kroki wstępne przetwarzania tekstu zostaną wykonane zarówno w środowisku SQL, jak i za pomocą narzędzia Oracle Data Miner.

Bardziej szczegółowo

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 5 T 7 T 5 T 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator ZeroR będzie zawsze odpowiadał T niezależnie

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1 Klasyfikacja Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji Klasyfikacja wykład 1 Niniejszy wykład poświęcimy kolejnej metodzie eksploracji danych klasyfikacji. Na początek

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Wprowadzenie do klasyfikacji

Wprowadzenie do klasyfikacji Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator

Bardziej szczegółowo

Ćwiczenie 5. Eksploracja danych

Ćwiczenie 5. Eksploracja danych Ćwiczenie 5. Eksploracja danych 1. Uruchomienie i skonfigurowanie środowiska do ćwiczeń Czas trwania: 15 minut Zadaniem niniejszych ćwiczeń jest przedstawienie podstawowych zagadnień dotyczących wykorzystywania

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

Data Mining z wykorzystaniem programu Rapid Miner

Data Mining z wykorzystaniem programu Rapid Miner Data Mining z wykorzystaniem programu Rapid Miner Michał Bereta www.michalbereta.pl Program Rapid Miner jest dostępny na stronie: http://rapid-i.com/ Korzystamy z bezpłatnej wersji RapidMiner Community

Bardziej szczegółowo

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria Wrocław University of Technology WYKŁAD 7 Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria autor: Maciej Zięba Politechnika Wrocławska Testowanie modeli klasyfikacyjnych Dobór odpowiedniego

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład III bogumil.konopka@pwr.edu.pl 2016/2017 Wykład III - plan Regresja logistyczna Ocena skuteczności klasyfikacji Macierze pomyłek Krzywe

Bardziej szczegółowo

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka. Eksploracja danych KLASYFIKACJA I REGRESJA cz. 2 Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki

Bardziej szczegółowo

UONET+ moduł Dziennik

UONET+ moduł Dziennik UONET+ moduł Dziennik Sporządzanie ocen opisowych i diagnostycznych uczniów z wykorzystaniem schematów oceniania Przewodnik System UONET+ umożliwia sporządzanie ocen opisowych uczniów w oparciu o przygotowany

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Drzewa klasyfikacyjne algorytm podstawowy

Drzewa klasyfikacyjne algorytm podstawowy DRZEWA DECYZYJNE Drzewa klasyfikacyjne algorytm podstawowy buduj_drzewo(s przykłady treningowe, A zbiór atrybutów) { utwórz węzeł t (korzeń przy pierwszym wywołaniu); if (wszystkie przykłady w S należą

Bardziej szczegółowo

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne Reprezentacja wiedzy w postaci drzew decyzyjnych entropia, przyrost informacji algorytmy ID3, C4.5 problem przeuczenia wyznaczanie reguł rzykładowe drzewo decyzyjne

Bardziej szczegółowo

Porównanie systemów automatycznej generacji reguł działających w oparciu o algorytm sekwencyjnego pokrywania oraz drzewa decyzji

Porównanie systemów automatycznej generacji reguł działających w oparciu o algorytm sekwencyjnego pokrywania oraz drzewa decyzji Porównanie systemów automatycznej generacji reguł działających w oparciu o algorytm sekwencyjnego pokrywania oraz drzewa decyzji Wstęp Systemy automatycznego wyodrębniania reguł pełnią bardzo ważną rolę

Bardziej szczegółowo

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska

Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska Wykład dla spec. Mgr TWO Poznań 2010 dodatek 1 Ocena wiedzy klasyfikacyjnej wykład dla

Bardziej szczegółowo

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych

Bardziej szczegółowo

1. Cele eksploracyjnej analizy danych Rapid Miner zasady pracy i wizualizacja danych Oracle Data Miner -zasady pracy.

1. Cele eksploracyjnej analizy danych Rapid Miner zasady pracy i wizualizacja danych Oracle Data Miner -zasady pracy. Spis treści: 1. Cele eksploracyjnej analizy danych...1 2. Rapid Miner zasady pracy i wizualizacja danych...3 3. Oracle Data Miner -zasady pracy.12 3.1 ODM PL/SQL.......12 3.2 ODM JAVA API......12 3.2.1

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy

Bardziej szczegółowo

Krzywe ROC i inne techniki oceny jakości klasyfikatorów

Krzywe ROC i inne techniki oceny jakości klasyfikatorów Krzywe ROC i inne techniki oceny jakości klasyfikatorów Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego 20 maja 2009 1 2 Przykład krzywej ROC 3 4 Pakiet ROCR Dostępne metryki Krzywe

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo

Bardziej szczegółowo

Drzewa decyzyjne w SAS Enterprise Miner

Drzewa decyzyjne w SAS Enterprise Miner Drzewa decyzyjne w SAS Enterprise Miner Aneta Ptak-Chmielewska Instytut Statystyki i Demografii Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych www.sgh.waw.pl/zaklady/zahziaw 1 struktura ćwiczeń

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych. Inteligencja obliczeniowa stud. niestac. Laboratorium 4: Zadanie klasyfikacji poznanie trzech algorytmów klasyfikujących: knn, NaiveBayes, drzewo decyzyjne. Przy pomnijmy sobie bazę danych z irysami. Na

Bardziej szczegółowo

1 Wstęp. 2 Uruchomienie programu

1 Wstęp. 2 Uruchomienie programu 1 Wstęp Weka jest zestawem narzędzi związanych z uczeniem maszynowego. System został stowrzony i jest rozwijany przez Uniwersystet Waikato w Nowej Zelandii. Nazwa WEKA jest akronimem dla Waikato Environment

Bardziej szczegółowo

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych WEKA klasyfikacja z użyciem sztucznych sieci neuronowych 1 WEKA elementy potrzebne do zadania WEKA (Data mining software in Java http://www.cs.waikato.ac.nz/ml/weka/) jest narzędziem zawierającym zbiór

Bardziej szczegółowo

Ocena dokładności diagnozy

Ocena dokładności diagnozy Ocena dokładności diagnozy Diagnoza medyczna, w wielu przypadkach może być interpretowana jako działanie polegające na podjęciu jednej z dwóch decyzji odnośnie stanu zdrowotnego pacjenta: 0 pacjent zdrowy

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Przykład Rezygnacja z usług operatora

Przykład Rezygnacja z usług operatora Przykład Rezygnacja z usług operatora Zbiór CHURN Zbiór zawiera dane o 3333 klientach firmy telefonicznej razem ze wskazaniem, czy zrezygnowali z usług tej firmy Dane pochodzą z UCI Repository of Machine

Bardziej szczegółowo

Metody Eksploracji Danych. Klasyfikacja

Metody Eksploracji Danych. Klasyfikacja Metody Eksploracji Danych Klasyfikacja w wykładzie wykorzystano: 1. materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych Informatyka

Bardziej szczegółowo

Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9.

Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9. Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 lewandowski.marek@gmail.com zajęcia: środa, 9.00 Spis treści: 1 Wprowadzenie... 4 2 Dostępne dane... 5 3 Przygotowanie

Bardziej szczegółowo

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Jak sprawdzić normalność rozkładu w teście dla prób zależnych? Jak sprawdzić normalność rozkładu w teście dla prób zależnych? W pliku zalezne_10.sta znajdują się dwie zmienne: czasu biegu przed rozpoczęciem cyklu treningowego (zmienna 1) oraz czasu biegu po zakończeniu

Bardziej szczegółowo

Problemy techniczne SQL Server

Problemy techniczne SQL Server Problemy techniczne SQL Server Co zrobić, jeśli program Optivum nie łączy się poprzez sieć lokalną z serwerem SQL? Programy Optivum, które korzystają z bazy danych umieszczonej na serwerze SQL, mogą być

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania

Bardziej szczegółowo

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne Metody eksploracji danych Laboratorium 4 Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne Zbiory danych Podczas ćwiczeń będziemy przetwarzali dane tekstowe pochodzące z 5 książek

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2 Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo

Jak utworzyć plik SIO dla aktualnego spisu?

Jak utworzyć plik SIO dla aktualnego spisu? System Informacji Oświatowej Jak utworzyć plik SIO dla aktualnego spisu? Programy Arkusz Optivum, Kadry Optivum, Płace Optivum, Sekretariat Optivum oraz Księgowość Optivum dostarczają znaczną część danych

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 16 listopada 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

Klasyfikacja i regresja Wstęp do środowiska Weka

Klasyfikacja i regresja Wstęp do środowiska Weka Klasyfikacja i regresja Wstęp do środowiska Weka 19 listopada 2015 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików pdf sformatowanych podobnie do tego dokumentu.

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Barycentryczny układ współrzędnych

Barycentryczny układ współrzędnych SkaiWD Laboratorium 2 Barycentryczny układ współrzędnych Iwo Błądek 21 marca 2019 1 Barycentryczny układ współrzędnych Podstawowa wiedza została przekazana na wykładzie. W tej sekcji znajdują się proste

Bardziej szczegółowo

Sztuczna Inteligencja Projekt

Sztuczna Inteligencja Projekt Sztuczna Inteligencja Projekt Temat: Algorytm LEM2 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm LEM 2. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu LEM 2 wygenerować

Bardziej szczegółowo

Arkusz Optivum. Jak eksportować do SIO dane z Arkusza Optivum?

Arkusz Optivum. Jak eksportować do SIO dane z Arkusza Optivum? Arkusz Optivum Jak eksportować do SIO dane z Arkusza Optivum? W celu eksportowania danych z Arkusza Optivum do SIO należy wykonać następujące czynności: 1. W programie Arkusz Optivum zaktualizować arkusz

Bardziej szczegółowo

INSTRUKCJA OBSŁUGI KATALOGU NA CD KROK PO KROKU. v. 1.00. Copyright Gardinery Sp. z o.o.

INSTRUKCJA OBSŁUGI KATALOGU NA CD KROK PO KROKU. v. 1.00. Copyright Gardinery Sp. z o.o. INSTRUKCJA OBSŁUGI KATALOGU NA CD KROK PO KROKU v. 1.00 SCHEMAT REALIZACJI ZAMÓWIENIA KROK PO KROKU KROK 1 Uruchomienie katalogu KROK 2 Przeglądanie oferty KROK 3a Wyszukiwanie wg zawartości KROK 3b Wyszukiwanie

Bardziej szczegółowo

Przewodnik dla użytkownika do systemu STUDIO

Przewodnik dla użytkownika do systemu STUDIO Przewodnik dla użytkownika do systemu STUDIO Projekt egreen JOBS nr. 2013-1-PL1-LEO05-37623 Projekt egreen JOBS nr. 2013-1-PL1-LEO05-37623 Spis treści Flexilab 3 Wstęp 5 Wyjście z systemu 5 Korzystanie

Bardziej szczegółowo

Co to są drzewa decyzji

Co to są drzewa decyzji Drzewa decyzji Co to są drzewa decyzji Drzewa decyzji to skierowane grafy acykliczne Pozwalają na zapis reguł w postaci strukturalnej Przyspieszają działanie systemów regułowych poprzez zawężanie przestrzeni

Bardziej szczegółowo

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych PROJEKT: Analiza kluczowych parametrów turbin wiatrowych Projekt jest wykonywany z wykorzystaniem pakietu statystycznego STATISTICA. Praca odbywa się w grupach 2-3 osobowych. Aby zaliczyć projekt, należy

Bardziej szczegółowo

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu. Konwersatorium Matematyczne Metody Ekonomii Narzędzia matematyczne w eksploracji danych Indukcja drzew decyzyjnych Wykład 3 - część 2 Marcin Szczuka http://www.mimuw.edu.pl/ szczuka/mme/ Plan wykładu Generowanie

Bardziej szczegółowo

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

Przewodnik użytkownika (instrukcja) AutoMagicTest

Przewodnik użytkownika (instrukcja) AutoMagicTest Przewodnik użytkownika (instrukcja) AutoMagicTest 0.1.21.137 1. Wprowadzenie Aplikacja AutoMagicTest to aplikacja wspierająca testerów w testowaniu i kontrolowaniu jakości stron poprzez ich analizę. Aplikacja

Bardziej szczegółowo

WYDAWANIE CZYTNIKAMI BY CTI Instrukcja

WYDAWANIE CZYTNIKAMI BY CTI Instrukcja WYDAWANIE CZYTNIKAMI BY CTI Instrukcja 1 Spis treści 1. Opis programu...3 2. Nawiązanie połączenia...3 3. Logowanie do programu...5 4. Okno główne programu...6 5. Konfiguracja programu...6 6. Generowanie

Bardziej szczegółowo

Mikołaj Morzy, Marek Wojciechowski: "Integracja technik eksploracji danych z systemem zarządzania bazą danych na przykładzie Oracle9i Data Mining"

Mikołaj Morzy, Marek Wojciechowski: Integracja technik eksploracji danych z systemem zarządzania bazą danych na przykładzie Oracle9i Data Mining Mikołaj Morzy, Marek Wojciechowski: "Integracja technik eksploracji danych z systemem zarządzania bazą danych na przykładzie Oracle9i Data Mining" Streszczenie Eksploracja danych znajduje coraz szersze

Bardziej szczegółowo

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ; Algorytm LEM1 Oznaczenia i definicje: U - uniwersum, tj. zbiór obiektów; A - zbiór atrybutów warunkowych; d - atrybut decyzyjny; IND(B) = {(x, y) U U : a B a(x) = a(y)} - relacja nierozróżnialności, tj.

Bardziej szczegółowo

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka. Eksploracja danych OCENA KLASYFIKATORÓW Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika

Bardziej szczegółowo

Grupowanie stron WWW. Funkcje oceniające.

Grupowanie stron WWW. Funkcje oceniające. Eksploracja zasobów internetowych Wykład 6 Grupowanie stron WWW. Funkcje oceniające. mgr inż. Maciej Kopczyński Białystok 2015 Wstęp Rolą algorytmów grupujących jest pogrupowanie dokumentów na bazie ich

Bardziej szczegółowo

OPROGRAMOWANIE DEFSIM2

OPROGRAMOWANIE DEFSIM2 Politechnika Warszawska Wydział Elektroniki i Technik Informacyjnych OPROGRAMOWANIE DEFSIM2 Instrukcja użytkownika mgr inż. Piotr Trochimiuk, mgr inż. Krzysztof Siwiec, prof. nzw. dr hab. inż. Witold Pleskacz

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych WEKA klasyfikacja z użyciem sztucznych sieci neuronowych 1 WEKA elementy potrzebne do zadania WEKA (Data mining software in Java http://www.cs.waikato.ac.nz/ml/weka/) jest narzędziem zawierającym zbiór

Bardziej szczegółowo

Zaawansowane aplikacje internetowe laboratorium

Zaawansowane aplikacje internetowe laboratorium Zaawansowane aplikacje internetowe laboratorium Web Services (część 2). Celem ćwiczenia jest przygotowanie prostej aplikacji prezentującej technologię usług sieciowych (ang. Web Services). Przygotowana

Bardziej szczegółowo

Produkcja by CTI. Proces instalacji, ważne informacje oraz konfiguracja

Produkcja by CTI. Proces instalacji, ważne informacje oraz konfiguracja Produkcja by CTI Proces instalacji, ważne informacje oraz konfiguracja Spis treści 1. Ważne informacje przed instalacją...3 2. Instalacja programu...4 3. Nawiązanie połączenia z serwerem SQL oraz z programem

Bardziej szczegółowo

A Zadanie

A Zadanie where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Kadry Optivum, Płace Optivum. Jak przenieść dane na nowy komputer?

Kadry Optivum, Płace Optivum. Jak przenieść dane na nowy komputer? Kadry Optivum, Płace Optivum Jak przenieść dane na nowy komputer? Aby kontynuować pracę z programem Kadry Optivum lub Płace Optivum (lub z obydwoma programami pracującymi na wspólnej bazie danych) na nowym

Bardziej szczegółowo