Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9.

Wielkość: px
Rozpocząć pokaz od strony:

Download "Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9."

Transkrypt

1 Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9.00

2 Spis treści: 1 Wprowadzenie Dostępne dane Przygotowanie danych do eksploatacji Błędy znalezione w danych Oprogramowanie: Dyskretyzacja danych Badanie zależności między atrybutami Jednowymiarowe zależności między atrybutami Określanie ważności atrybutów Odkrywanie wiedzy w danych Opis zastosowanych algorytmów Drzewa decyzyjne Drzewa decyzyjne J48 z zastosowaniem cross - validation Adaptatywna sieć Bayes a Perceptron Wielowarstwowy Multilayer Perceptron Rezultaty Drzewa decyzyjne Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji, wersja cheap Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji, wersja cheap Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją, wersja cheap Drzewo decyzyjne dla atrybutu D2, dane przed dyskretyzacją, wersja cheap Adaptatywne sieci Bayes a Adaptatywna sieć Bayes a dla atrybutu D1, dane po dyskretyzacji Adaptatywna sieć Bayes a dla atrybutu D2, dane po dyskretyzacji Adaptatywna sieć Bayes a dla atrybutu D1, dane po dyskretyzacji, wersja cheap Adaptatywna sieć Bayes a dla atrybutu D2, dane po dyskretyzacji, wersja cheap Adaptatywna sieć Bayes a dla atrybutu D1, dane przed dyskretyzacją Adaptatywna sieć Bayes a dla atrybutu D2, dane przed dyskretyzacją Adaptatywna sieć Bayes a dla atrybutu D1, dane przed dyskretyzacją, wersja cheap Adaptatywna sieć Bayes a dla atrybutu D2, dane przed dyskretyzacją, wersja cheap Drzewa decyzyjne J48 z cross - validation Drzewo decyzyjne dla atrybutu D2, dane przed dyskretyzacją Drzewo decyzyjne dla atrybutu D2, dane przed dyskretyzacją, wersja cheap Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji, wersja cheap Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją, wersja cheap

3 Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji, wersja cheap Perceptron wielowarstwowy (Multilayer perceptron) Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane przed dyskretyzacją Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane przed dyskretyzacją, wersja cheap Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane przed dyskretyzacją Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane przed dyskretyzacją, wersja cheap Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane po dyskretyzacji Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane po dyskretyzacji, wersja cheap Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane po dyskretyzacji Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane po dyskretyzacji, wersja cheap Podsumowanie: Interpretacja wyników Reguły Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją, wersja bez wyników najdroższych pomiarów Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji, wersja bez wyników najdroższych pomiarów Atrybut decyzyjny D2, dane nie poddane dyskretyzacji Atrybut decyzyjny D2, dane nie poddane dyskretyzacji, wersja bez wyników najdroższych pomiarów Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji, wersja bez wyników najdroższych pomiarów Punkty podziału w korzeniach drzew Literatura

4 1 Wprowadzenie Pewne przedsiębiorstwo komunikacyjno transportowe wykorzystuje jeden podstawowy typ autobusów. Autobusy te podlegają regularnym przeglądom stanu technicznego. Zbiera się również dane o ich bieżącej eksploatacji. Na stanowisku diagnostycznym bada się przede wszystkim parametry układu napędowego, takie jak aktualna maksymalna moc silnika, moment obrotowy, osiągana prędkość maksymalna, ciśnienie sprężania w tłokach, zawartość elementów smołowatych w spalinach i inne. Dane eksploatacyjne dotyczą głównie zużycia paliwa i oleju w różnych okresach roku. Dane dotyczą autobusów tego samego typu eksploatowanych w podobnych warunkach. Zawierają one wartości następujących parametrów, będących symptomami stanu technicznego: s1 prędkość maksymalna [km/h], s2 ciśnienie sprężania [Mpa], s3 zawartość elementów smołowatych w spalinach wylotowych [%], s4 moment obrotowy silnika [Nm], s5 letnie zużycie paliwa [l/100km], s6 zimowe zużycie paliwa [l/100km], s7 zużycie oleju [l/1000km], s8 aktualna moc silnika [KM]. Dostępne są również dwa atrybuty decyzyjne: D1 atrybut klasyfikuje pojazdy na dwie klasy: sprawne ( 1 ) i niesprawne ( 2 ) D2 atrybut klasyfikuje pojazdy na trzy klasy: sprawne ( 1 ), wymagające drobnych napraw i obserwacji ( 2 ) oraz przeznaczone do remontu ( 3 ) Celem niniejszej analizy jest zbudowanie klasyfikatora stanu technicznego autobusów (względem podanych atrybutów decyzyjnych i wskazanych klas decyzyjnych) na podstawie udostępnionych przez przedsiębiorstwo komunikacyjno transportowe danych historycznych. 4

5 2 Dostępne dane Udostępnione zostały wartości pomiarów 80 autobusów: s1 s2 s3 s4 s5 s6 s7 s8 D1 D2 lp MaxSpeed Compr_preasure blacking torque summer_cons winter_cons oil_cons horsepower

6 n ? ,

7 3 Przygotowanie danych do eksploatacji 3.1 Błędy znalezione w danych - pomiar numer 10: brak separatora kolumn (uznano za błąd wprowadzania danych i dodano separator, ) - pomiar 77: wartość atrybutu D1 spoza dziedziny (pomiar odrzucono) - pomiar 78: wartość atrybutu s4 spoza dziedziny (pomiar odrzucono) - pomiar 79: wartość atrybutu s5 jeden rząd wielkości większa od średniej dla wszystkich pomiarów (uznano za błąd wprowadzania danych i zmieniono wartość 218 na 21.8) - pomiar 80: zmieniona wartość separatora części całkowitej od ułamkowej dla atrybutu s2 (uznano za błąd wprowadzania danych i zmieniono wartość 2,45 na 2.45) 3.2 Oprogramowanie: W trakcie procesu analizy danych wykorzystane zostały: pakiet Oracle Data Miner 10.2, baza danych Oracle 10g, Weka 3-5 oraz Microsoft Excel XP. Dane zostały wprowadzone do bazy danych Oracle 10g do tabeli zdefiniowanej w następujący sposób: create table autobusy ( A0 number(2), MaxSpeed number(3), Compr_preasure number(3,2), blacking number(2), torque number(4), summer_cons number(4,1), winter_cons number(4,1), oil_cons number(4,1), horsepower number(3), d1 number(1) check (d1 in (1, 2)), d2 number(1) check (d2 in (1, 2, 3)) ); a także do programu Weka 3-5 do pliku zdefiniowanego w poniższy LP MaxSpeed ComprPreasure blacking torque summer_cons winter_cons oil_cons horsepower d1 d2 {1,2,3} 7

8 3.3 Dyskretyzacja danych Zgodnie z propozycją eksperta od diagnostyki samochodowej przyjęto następujące granice przedziałów: s1 : (-, 74>, (74, 79>, (79, 85>, (85, ) s2 : (-, 2.2>, (2.2, 2.4>, (2.4, ) s3 : (-, 59>, (59, ) s4 : (-, 441>, (441, ) s5 : (-, 22>, (22, ) s6 : (-, 25.2>, (25.2, ) s7 : (-, 1.2>, (1.2, ) s8 : (-, 119>, (119, ) Dane po dyskretyzacji zostały zapisane w perspektywie bazy danych (do analizy przez Oracle Data Miner) oraz w pliku (do analizy w programie Weka) o następującej LP maxspeed ComprPreasure Blacking torque summer_cons winter_cons oil_cons horsepower d1 d2 8

9 4 Badanie zależności między atrybutami 4.1 Jednowymiarowe zależności między atrybutami Poniższa tabela przedstawia wartości współczynników korelacji Pearsona obliczonych dla każdej pary atrybutów (dane nie poddane dyskretyzacji). MaxSpeed Compr_preasure blacking torque summer_cons winter_cons oil_cons horsepower 1 0, , ,932-0, , , , MaxSpeed 1-0, ,8906-0, , , ,89333 Compr_preasure 1-0,901 0, , , , blacking 1-0, , , , torque 1 0, ,3537-0, summer_cons 1 0, , winter_cons 1-0, oil_cons 1 horsepower Z powyższych obliczeń widać, iż istnieje silna korelacja (bądź to pozytywna bądź negatywna) pomiędzy: MaxSpeed horsepower (93%) MaxSpeed oil_cons (-90%) MaxSpeed torque (93%) MaxSpeed blacking (-85%) MaxSpeed Compr_preasure (91%) Compr_preasure horsepower (90%) Compr_preasure oil_cons (-91%) Compr_preasure torque (89%) Compr_preasure blacking (-85%) Blacking horsepower (-91%) Blacking oil_cons (96%) Blacking torque (-90%) Torque horsepower (98%) Torque oil_cons (-92%) Oil_cons horsepower (-91%) Odkryte zależności pozwalają stwierdzić, iż nie wszystkie atrybuty mogą być podczas analizy użyteczne. Być może niektóre z nich mogłyby zostać zastąpione, bez spadku jakości analizy, przez inne. Należy zauważyć niskie wartości współczynników korelacji Pearsona pomiędzy wartościami pomiarów zużycia paliwa i oleju a wartościami pozostałych atrybutów. Uzyskany rezultat pozwala sądzić, iż za pomocą wyników pomiarów zużycia paliwa i oleju nie będzie można określać wielkości pozostałych atrybutów. Przeprowadzono również analizę pod kątem występowania między atrybutami zależności nieliniowych (wykładniczych i wielomianowych). Interpretacja wykresów zależności pomiędzy zmiennymi pozwala jednoznacznie stwierdzić, że w badanym zbiorze danych występują tylko liniowe (lub bardzo bliskie liniowym) zależności. 9

10 4.2 Określanie ważności atrybutów Ważność atrybutów dla drzewa o atrybucie decyzyjnym D1: Name Rank Importance TORQUE COMPR_PREASURE HORSEPOWER MAXSPEED BLACKING OIL_CONS WINTER_CONS SUMMER_CONS Ważność atrybutów dla drzewa o atrybucie decyzyjnym D2: Name Rank Importance MAXSPEED HORSEPOWER TORQUE COMPR_PREASURE BLACKING OIL_CONS WINTER_CONS SUMMER_CONS Ważność atrybutów wyznaczona została za pomocą algorytmu Minimum Description Length (MDL) pakietu Oracle Data Miner dla danych nie poddanych dyskretyzacji. Algrotym MDL działa w następujący sposób: Każdy atrybut (atrybut określający) traktowany jest jako prosty model przynależności atrybutu decyzyjnego (atrybut określany) do jednej z klas decyzyjnych. Z każdą wartością atrybutu określającego (i) skojarzonych jest n i przykładów w zbiorze trenującym oraz rozkład prawdopodobieństwa p ij dla m wartości atrybutu określanego (różne wartości określane jako j). Z faktu, iż liczba przykładów uczących wynosi n i wynika, iż istnieje co najwyżej n i p ij różnych przypadków w danych. Z kombinatoryki wynika natomiast, iż liczba m różnych wartości spośród n elementów wynosi: n m. m Stąd też rozmiar listy dla atrybutu określającego wynosi: ni m log 2. i m Całkowita długość opisu dla atrybutu określającego wynosi więc: ni m log 2 log 2 ( pij ). i m i j Ranking atrybutów określających budowany jest na podstawie miejsca na liście (posortowanej rosnąco) odpowiadających opisów długości

11 5 Odkrywanie wiedzy w danych 5.1 Opis zastosowanych algorytmów Do budowy modeli wykorzystano cztery typy algorytmów: - drzewa decyzyjne (Oracle Data Miner) - drzewa decyzyjne J48 z zastosowaniem cross validation (Weka) - adaptatywna sieć Bayes a (Oracle Data Miner) - perceptron wielowarstwowy z zastosowanie cross validation(weka) Każdy algorytm wykorzystywany był zarówno dla atrybutu decyzyjnego D1 jak i D2, z uwzględnieniem danych przed i po dyskretyzacji. Zgodnie z życzeniem klienta zbudowano również modele ( cheap ) wykorzystujące dane bez uwzględnienia najdroższych w diagnostyce samochodowej pomiarów (compr_preasure [ciśnienie sprężania] oraz torque [moment obrotowy]). Łącznie zbudowano więc 32 modele Drzewa decyzyjne Oracle nie udostępnia szczegółowych informacji na temat zaimplementowanych algorytmów, można więc jedynie domyślać się zastosowanych rozwiązań. Najprawdopodobniej użyto metody CART (Classification and Regression Tree). Podczas budowania modeli zastosowano następujące parametry: - metryka jednorodności (homogeneity metric): Gini - maksymalna głębokość: 10 - podział danych wejściowych: 70% budowa modelu, 30% testowanie Drzewa decyzyjne J48 z zastosowaniem cross - validation Algorytm J48 dostępny w oprogramowaniu Weka jest, wg dokumentacji technicznej, wersją znanego w literaturze algorytmu C4.5. Idea algorytmu C4.5 opiera się na schemacie zstępującej indukcji drzewa decyzyjnego na podstawie danych treningowych. Metoda ta bardzo dobrze radzi sobie z problemem brakujących wartości oraz uzyskuje wysoką jakość klasyfikacji. Ponieważ dostępnych było zaledwie ok. 80 atrybutów, zatem należało dokonać specyficznego podziału zbioru na część uczącą i testującą. Wykorzystano metodę cross validation, która polega na dziesięciokrotnym (zastosowane ustawienie algorytmu) podziale zbioru na część uczącą i testującą w stosunku 9:1 (90% danych przeznaczonych do treningu a 10% do testowania). Zastosowanie cross validation zdecydowanie poprawia jakość danych przeznaczonych do uczenia się na zbiorze Adaptatywna sieć Bayes a Producent (Oracle) zapewnia, iż wprowadzony przez niego algorytm charakteryzuje się szybkością, skalowalnością, małą liczbą parametrów oraz przyjaznym dla człowieka produktem wynikowym w postaci zbioru reguł. Algorytm ABN (Adaptative Bayes Network) buduje model wykorzystujący zasadę MDL (Minimum Description Length) oraz redukcję tablicy warunkowo niezależnych cech sieci. Każda z nich zawiera jedno, bądź więcej, wyrażenie prawdopodobieństwa warunkowego. W analizie wykorzystano model Single 11

12 Feature (równoważny drzewu decyzyjnemu C4.5 zawierającemu uproszczenie polegające na traktowaniu atrybutów numerycznych jako kategorycznych) Perceptron Wielowarstwowy Multilayer Perceptron Perceptron wielowarstwowy jest jedną z częściej stosowanych struktur neuropodobnych. Posiada on szczególną własność: komórki perceptronowe pogrupowane są w warstwy a przesyłanie informacji w sieci odbywa się tylko w jednym kierunku (od warstwy wejściowej do warstwy wyjściowej) nie są więc możliwe sprzężenia zwrotne. Perceptron wielowarstwowy posiada tzw. warstwy ukryte, w których dane z warstwy wejściowej podlegają nieliniowemu przetworzeniu zanim dojdą do wyjścia sieci. Model jest trenowany metodą uczenia nadzorowanego za pomocą algorytmu propagacji wstecznej błędu. Podczas budowy modelu zastosowano opcję cross validation (patrz: 5.1.2). 5.2 Rezultaty Drzewa decyzyjne Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji Trafność klasyfikacji: 94,58% Node ID Predicate Predicted Value Confidence Cases Support True > TORQUE is in > TORQUE is in Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji Trafność klasyfikacji: 87,46%

13 Node ID Predicate Predicted Value Confidence Cases Support true > MAXSPEED is in { 3 } >> HORSEPOWER is in >> HORSEPOWER is in > MAXSPEED is in Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji, wersja cheap Trafność klasyfikacji: 87,92% Node ID Predicate Predicted Value Confidence Cases Support true > HORSEPOWER is in > HORSEPOWER is in Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji, wersja cheap Trafność klasyfikacji: 87,46% Node ID Predicate Predicted Value Confidence Cases Support true > MAXSPEED is in { 3 } >> HORSEPOWER is in >> HORSEPOWER is in > MAXSPEED is in

14 Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Trafność klasyfikacji: 96,67% Node ID Predicate Predicted Value Confidence Cases Support True > COMPR_PREASURE <= > COMPR_PREASURE > Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Trafność klasyfikacji: 84,24% Node ID Predicate Predicted Value Confidence Cases Support true > MAXSPEED <= >> COMPR_PREASURE <= >> COMPR_PREASURE > > MAXSPEED > Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją, wersja cheap Trafność klasyfikacji: 92,5%

15 Node ID Predicate Predicted Value Confidence Cases Support True > BLACKING <= > BLACKING > Drzewo decyzyjne dla atrybutu D2, dane przed dyskretyzacją, wersja cheap Trafność klasyfikacji: 63,79% Node ID Predicate Predicted Value Confidence Cases Support true > MAXSPEED <= >> BLACKING <= >> BLACKING > > MAXSPEED > Adaptatywne sieci Bayes a Adaptatywna sieć Bayes a dla atrybutu D1, dane po dyskretyzacji Trafność klasyfikacji: 94,58% Rule Id If (condition) Then (classification) Confidence (%) Support (%) 3 TORQUE in 2.0 D1 equal

16 Adaptatywna sieć Bayes a dla atrybutu D2, dane po dyskretyzacji Trafność klasyfikacji: 75,02% Rule Id If (condition) Then (classification) Confidence (%) Support (%) 5 MAXSPEED in 4.0 D2 equal MAXSPEED in 3.0 D2 equal MAXSPEED in 1.0 D2 equal Adaptatywna sieć Bayes a dla atrybutu D1, dane po dyskretyzacji, wersja cheap Trafność klasyfikacji: 87,92% Rule Id If (condition) Then (classification) Confidence (%) Support (%) 3 HORSEPOWER in 2.0 D1 equal Adaptatywna sieć Bayes a dla atrybutu D2, dane po dyskretyzacji, wersja cheap Trafność klasyfikacji: 75,02%

17 Rule Id If (condition) Then (classification) Confidence (%) Support (%) 5 MAXSPEED in 4.0 D2 equal MAXSPEED in 3.0 D2 equal MAXSPEED in 1.0 D2 equal Adaptatywna sieć Bayes a dla atrybutu D1, dane przed dyskretyzacją Trafność klasyfikacji: 87,92% Rule Id If (condition) Then (classification) Confidence (%) Support (%) 18 MAXSPEED in 85.0 D1 equal MAXSPEED in 88.0 D1 equal MAXSPEED in 90.0 D1 equal MAXSPEED in 87.0 D1 equal MAXSPEED in 86.0 D1 equal MAXSPEED in 72.0 D1 equal MAXSPEED in 75.0 D1 equal MAXSPEED in 80.0 D1 equal MAXSPEED in 68.0 D1 equal MAXSPEED in 76.0 D1 equal MAXSPEED in 65.0 D1 equal MAXSPEED in 82.0 D1 equal MAXSPEED in 78.0 D1 equal MAXSPEED in 89.0 D1 equal MAXSPEED in 83.0 D1 equal MAXSPEED in 63.0 D1 equal MAXSPEED in 67.0 D1 equal MAXSPEED in 64.0 D1 equal MAXSPEED in 70.0 D1 equal MAXSPEED in 84.0 D1 equal MAXSPEED in 66.0 D1 equal

18 Adaptatywna sieć Bayes a dla atrybutu D2, dane przed dyskretyzacją Trafność klasyfikacji: 85,79% Rule Id If (condition) Then (classification) Confidence (%) Support (%) 22 MAXSPEED in 90.0 D2 equal MAXSPEED in 85.0 D2 equal MAXSPEED in 88.0 D2 equal MAXSPEED in 87.0 D2 equal MAXSPEED in 86.0 D2 equal MAXSPEED in 75.0 D2 equal MAXSPEED in 65.0 D2 equal MAXSPEED in 76.0 D2 equal MAXSPEED in 72.0 D2 equal MAXSPEED in 80.0 D2 equal MAXSPEED in 82.0 D2 equal MAXSPEED in 67.0 D2 equal MAXSPEED in 63.0 D2 equal MAXSPEED in 64.0 D2 equal MAXSPEED in 60.0 D2 equal MAXSPEED in 66.0 D2 equal MAXSPEED in 84.0 D2 equal MAXSPEED in 89.0 D2 equal MAXSPEED in 78.0 D2 equal MAXSPEED in 83.0 D2 equal Adaptatywna sieć Bayes a dla atrybutu D1, dane przed dyskretyzacją, wersja cheap Trafność klasyfikacji: 87,92%

19 Rule Id If (condition) Then (classification) Confidence (%) Support (%) 18 MAXSPEED in 85.0 D1 equal MAXSPEED in 88.0 D1 equal MAXSPEED in 90.0 D1 equal MAXSPEED in 87.0 D1 equal MAXSPEED in 86.0 D1 equal MAXSPEED in 72.0 D1 equal MAXSPEED in 75.0 D1 equal MAXSPEED in 80.0 D1 equal MAXSPEED in 68.0 D1 equal MAXSPEED in 76.0 D1 equal MAXSPEED in 65.0 D1 equal MAXSPEED in 82.0 D1 equal MAXSPEED in 78.0 D1 equal MAXSPEED in 89.0 D1 equal MAXSPEED in 83.0 D1 equal MAXSPEED in 63.0 D1 equal MAXSPEED in 67.0 D1 equal MAXSPEED in 64.0 D1 equal MAXSPEED in 70.0 D1 equal MAXSPEED in 84.0 D1 equal MAXSPEED in 66.0 D1 equal Adaptatywna sieć Bayes a dla atrybutu D2, dane przed dyskretyzacją, wersja cheap Trafność klasyfikacji: 85,79% Rule Id If (condition) Then (classification) Confidence (%) Support (%) 22 MAXSPEED in 90.0 D2 equal MAXSPEED in 85.0 D2 equal MAXSPEED in 88.0 D2 equal MAXSPEED in 87.0 D2 equal MAXSPEED in 86.0 D2 equal MAXSPEED in 75.0 D2 equal MAXSPEED in 65.0 D2 equal MAXSPEED in 76.0 D2 equal MAXSPEED in 72.0 D2 equal MAXSPEED in 80.0 D2 equal MAXSPEED in 82.0 D2 equal

20 7 MAXSPEED in 67.0 D2 equal MAXSPEED in 63.0 D2 equal MAXSPEED in 64.0 D2 equal MAXSPEED in 60.0 D2 equal MAXSPEED in 66.0 D2 equal MAXSPEED in 84.0 D2 equal MAXSPEED in 89.0 D2 equal MAXSPEED in 78.0 D2 equal MAXSPEED in 83.0 D2 equal Drzewa decyzyjne J48 z cross - validation Drzewo decyzyjne dla atrybutu D2, dane przed dyskretyzacją Trafność: 92,31% oil_cons <= 1.9 MaxSpeed <= 85: 2 (16.0/1.0) MaxSpeed > 85: 1 (35.0/1.0) oil_cons > 1.9 horsepower <= 119: 3 (25.0) horsepower > 119: 2 (2.0) Drzewo decyzyjne dla atrybutu D2, dane przed dyskretyzacją, wersja cheap Trafność: 93,58%

21 oil_cons <= 1.9 MaxSpeed <= 85: 2 (16.0/1.0) MaxSpeed > 85: 1 (35.0/1.0) oil_cons > 1.9 horsepower <= 119: 3 (25.0) horsepower > 119: 2 (2.0) Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji Trafność: 93,59% horsepower = 1: 3 (28.0/3.0) horsepower = 2 maxspeed = 1: 1 (0.0) maxspeed = 2: 2 (2.0) maxspeed = 3: 2 (13.0/1.0) maxspeed = 4: 1 (35.0/1.0) Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji, wersja cheap Trafność: 93,59% horsepower = 1: 3 (28.0/3.0) horsepower = 2 maxspeed = 1: 1 (0.0) maxspeed = 2: 2 (2.0) maxspeed = 3: 2 (13.0/1.0) maxspeed = 4: 1 (35.0/1.0) 21

22 Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją, wersja cheap Trafność: 92,31% oil_cons <= 1.9 MaxSpeed <= 76: 2 (3.0) MaxSpeed > 76: 1 (48.0) oil_cons > 1.9: 2 (27.0) Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Trafność: 98,79% ComprPreasure <= 2.39: 2 (29.0) ComprPreasure > 2.39: 1 (49.0/1.0) Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji Trafność: 97,43% torque = 1: 2 (30.0/1.0) torque = 2: 1 (48.0/1.0) 22

23 Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji, wersja cheap Trafność: 93,58% horsepower = 1: 2 (28.0/1.0) horsepower = 2: 1 (50.0/3.0) Perceptron wielowarstwowy (Multilayer perceptron) Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane przed dyskretyzacją Trafność: % Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane przed dyskretyzacją, wersja cheap Trafność: 93,58%

24 Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane przed dyskretyzacją Trafność: 88,46% Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane przed dyskretyzacją, wersja cheap Trafność: 82,05% Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane po dyskretyzacji Trafność: 92,31% Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane po dyskretyzacji, wersja cheap Trafność: 92,31%

25 Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane po dyskretyzacji Trafność: 88,46% Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane po dyskretyzacji, wersja cheap Trafność: 89,74% Podsumowanie: Trafność wszystkich zbudowanych modeli przedstawia poniższa tabela: Drzewo decyzyjne D1 D2 discret nondiscret discret nondiscret regular cheap regular cheap Regular cheap regular cheap 94,58% 87,92% 96,67% 92,50% 87,46% 87,46% 84,24% 63,79% Drzewo decyzyjne J48 cross validation D1 D2 discret nondiscret discret nondiscret regular cheap regular cheap regular cheap regular cheap 97,43% 93,58% 98,79% 92,31% 93,59% 93,59% 92,31% 93,59% Adaptatywna sieć Bayes a D1 D2 discret nondiscret Discret nondiscret regular cheap regular cheap regular cheap regular cheap 94,58% 87,92% 87,92% 87,92% 75,02% 75,02% 85,79% 85,79% Wielowarstwowy Perceptron cross - validation D1 D2 discret nondiscret discret nondiscret regular cheap regular cheap regular cheap regular cheap 92,31% 92,31% 94,87% 93,58% 88,46% 89,74% 88,46% 82,05% 25

26 Drzewo decyzyjne J48 z zastosowaniem cross validation uzyskało najlepszą jakość klasyfikacji w prawie każdym zbudowanym modelu (wielowarstwowy perceptron tylko w jednym przypadku modelu dla atrybutu decyzyjnego D1, dla danych niedyskretnych, bez wyników pomiarów najdroższych atrybutów okazał się lepszy o zaledwie jeden punkt procentowy) i to rozwiązanie należy przyjąć jako modelowe. Pozostałe algorytmy również osiągnęły dobrą trafność, jednakowoż specyficzna implementacja drzewa C4.5, jaką jest J48 oraz zastosowanie mechanizmu cross validation pozwoliły zbudować modele o bardzo wysokiej czystości klasyfikacji. Co nie jest również bez znaczenia, przedstawione przez J48 reguły są łatwe do interpretacji dla człowieka. Wielowarstwowy perceptron, który osiągnął lepszą trafność klasyfikacji w jednym z ośmiu przypadków, jest rozwiązaniem typu czarna skrzynka zbudowany model nie jest w żaden sposób tłumaczone. Adaptatywna sieć Bayes a generuje, w szczególności dla danych nie poddanych dyskretyzacji, bardzo dużo reguł, gęsto dzielących dziedzinę atrybutu określającego. Zjawisko to sprawia wrażenie zbytniego dopasowania budowanego modelu do konkretnych danych uczących (czyli przetrenowania modelu). Wydaje się, iż anomalii tej udało się uniknąć w przypadku modeli wykorzystujących algorytmy drzew decyzyjnych. 26

27 6 Interpretacja wyników 6.1 Reguły Ze względu na uzyskane wyniki eksperymentów, można przyjąć, że drzewa decyzyjne J48 najlepiej interpretują dostarczone dane. W wyniku przeprowadzonej analizy klient uzyskuje zestaw reguł, które mogą być stosowane do oceny stanu technicznego pojazdów, w zależności od dostępnych danych (dyskretne, ciągłe) i atrybutu decyzyjnego (D1, D2) Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Jeżeli ciśnienie sprężania jest mniejsze bądź równe niż 2.39 Mpa, to autobus jest niesprawny. W przeciwnym przypadku autobus jest sprawny. Macierz pomyłek dla tego klasyfikatora: Klasyfikator pomylił się tylko raz. Jeden z autobusów niesprawnych został oceniony jako sprawny Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją, wersja bez wyników najdroższych pomiarów Jeżeli zużycie oleju jest mniejsze bądź równe 1.9 l/1000km i prędkość maksymalna jest mniejsza bądź równa 76 km/h, to autobus jest niesprawny. Jeżeli zużycie oleju jest mniejsze bądź równe 1.9 l/1000km i prędkość maksymalna jest większa niż 76 km/h, to autobus jest sprawny. Jeżeli zużycie oleju jest większe niż 1.9 l/1000km to autobus jest niesprawny. Macierz pomyłek dla tego klasyfikatora wygląda następująco: Klasyfikator pomylił się 6 razy (na 78 prób). Dwa razy autobus niesprawny został sklasyfikowany jako sprawny, a cztery razy autobus sprawny został oceniony jako niesprawny. 27

28 6.1.3 Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji Jeżeli moment obrotowy silnika jest mniejszy bądź równy 441Nm, to autobus jest niesprawny. W przeciwnym przypadku jest sprawny. Macierz pomyłek dla tego klasyfikatora: Klasyfikator pomylił się dwa razy. Jeden raz uznał autobus niesprawny jako sprawny i jeden raz autobus sprawny jako niesprawny Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji, wersja bez wyników najdroższych pomiarów Jeżeli moc silnika jest mniejsza bądź równa 119 KM, to autobus jest niesprawny. W przeciwnym przypadku autobus jest sprawny. Macierz pomyłek dla tego klasyfikatora: Klasyfikator pomylił się cztery razy. Dwa razy uznał autobus niesprawny jako sprawny i dwa razy autobus niesprawny jako sprawny Atrybut decyzyjny D2, dane nie poddane dyskretyzacji Jeżeli zużycie oleju jest mniejsze bądź równe 1.9 l/1000km, a prędkość maksymalna jest mniejsza bądź równa 85 km/h to autobus wymaga drobnych napraw i obserwacji. Jeżeli zużycie oleju jest mniejsze bądź równe 1.9 l/1000km, a prędkość maksymalna jest większa niż 85 km/h, to autobus jest sprawny. Jeżeli zużycie oleju jest większe niż 1.9 l/1000km, a moc silnika mniejsza bądź równa niż 119 KM, to autobus jest niesprawny. Jeżeli zużycie oleju jest większe niż 1.9 l/1000km, a moc silnika większa niż 119 KM, to autobus wymaga drobnych napraw i obserwacji. Macierz pomyłek dla tego klasyfikatora wygląda następująco: Klasyfikator pomylił się 6 razy (na 78 prób). Jeden raz sklasyfikował pojazd, który powinien być przeznaczony do drobnych napraw i obserwacji jako sprawny. Dwa autobusy sprawne i jeden niesprawny zostały sklasyfikowane jako wymagające drobnych napraw 28

29 i obserwacji. Dwa razy autobusy wymagające drobnych napraw i obserwacji zostały ocenione jako niesprawne Atrybut decyzyjny D2, dane nie poddane dyskretyzacji, wersja bez wyników najdroższych pomiarów Jeżeli zużycie oleju jest mniejsze bądź równe 1.9 l/1000km, a prędkość maksymalna jest mniejsza bądź równa 85 km/h to autobus wymaga drobnych napraw i obserwacji. Jeżeli zużycie oleju jest mniejsze bądź równe 1.9 l/1000km, a prędkość maksymalna jest większa niż 85 km/h, to autobus jest sprawny. Jeżeli zużycie oleju jest większe niż 1.9 l/1000km, a moc silnika mniejsza bądź równa niż 119 KM, to autobus jest niesprawny. Jeżeli zużycie oleju jest większe niż 1.9 l/1000km, a moc silnika większa niż 119 KM, to autobus wymaga drobnych napraw i obserwacji. Macierz pomyłek dla tego klasyfikatora wygląda następująco: Klasyfikator pomylił się 5 razy (na 78 prób). Jeden raz sklasyfikował pojazd, który powinien być przeznaczony do drobnych napraw i obserwacji jako sprawny. Jeden autobus sprawny i jeden niesprawny zostały sklasyfikowane jako wymagające drobnych napraw i obserwacji. Dwa razy autobusy wymagające drobnych napraw i obserwacji zostały ocenione jako niesprawnei Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji Jeżeli moc silnika jest mniejsza bądź równa niż 119KM, to autobus jest niesprawny. Jeżeli moc silnika jest większa niż 119KM i prędkość maksymalna jest mniejsza lub równa 74 km/h lub większa niż 85 km/h, to autobus jest sprawny. Jeżeli moc silnika jest większa niż 119KM, a prędkość maksymalna jest większa niż 74 km/h i mniejsza lub równa 85 km/h, to autobus wymaga drobnych napraw i obserwacji. Macierz pomyłek dla tego klasyfikatora wygląda następująco: Klasyfikator pomylił się 5 razy (na 78 prób). Jeden raz sklasyfikował pojazd, który powinien być przeznaczony do drobnych napraw i obserwacji jako sprawny. Jeden raz autobus sprawny został sklasyfikowany jako wymagający drobnych napraw i obserwacji. Trzy razy autobusy wymagające drobnych napraw i obserwacji zostały ocenione jako niesprawne. 29

30 6.1.8 Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji, wersja bez wyników najdroższych pomiarów. Jeżeli moc silnika jest mniejsza bądź równa niż 119KM, to autobus jest niesprawny. Jeżeli moc silnika jest większa niż 119KM i prędkość maksymalna jest mniejsza lub równa 74 km/h lub większa niż 85 km/h, to autobus jest sprawny. Jeżeli moc silnika jest większa niż 119KM, a prędkość maksymalna jest większa niż 74 km/h i mniejsza lub równa 85 km/h, to autobus wymaga drobnych napraw i obserwacji. Macierz pomyłek dla tego klasyfikatora wygląda następująco: Klasyfikator pomylił się 5 razy (na 78 prób). Jeden raz sklasyfikował pojazd, który powinien być przeznaczony do drobnych napraw i obserwacji jako sprawny. Jeden raz autobus sprawny został sklasyfikowany jako wymagający drobnych napraw i obserwacji. Trzy razy autobusy wymagające drobnych napraw i obserwacji zostały ocenione jako niesprawne. 6.2 Punkty podziału w korzeniach drzew Algorytm drzew decyzyjnych J48 dla danych ciągłych stosował następujące punkty podziałów w korzeniach drzew: - zużycie oleju: ciśnienie sprężania: 2,39 Dyskretyzacja danych, wg wskazówek eksperta diagnostyki samochodowej, dokonana została wg następujących granic przedziałów: s1 : (-, 74>, (74, 79>, (79, 85>, (85, ) s2 : (-, 2.2>, (2.2, 2.4>, (2.4, ) s3 : (-, 59>, (59, ) s4 : (-, 441>, (441, ) s5 : (-, 22>, (22, ) s6 : (-, 25.2>, (25.2, ) s7 : (-, 1.2>, (1.2, ) s8 : (-, 119>, (119, ) Ekspert twierdził, że skrajne przedziały oznaczają pojazdy niesprawne i sprawne, zatem punkty podziału w drzewach decyzyjnych, dla danych nie zdyskretyzowanych, powinny pokrywać się z granicami tychże przedziałów. Zastanawia stosunkowo duża różnica między punktem podziału wybieranym przez drzewo, a punktem wskazanym przez eksperta, dla atrybutu zużycie oleju (pozostałe atrybuty, z pewnym marginesem, wpisują się w podział zaproponowany przez rzeczoznawcę). Wytłumaczeniem tego może być fakt, iż istnieje jakaś zależność przechodnia pomiędzy atrybutem zużycie oleju 30

31 a innymi atrybutami określającymi (wskazywałaby na to tabela współczynników korelacji Pearsona Persona punktu 4.1) powodująca, że atrybut ten uzyskuje większą zdolność podziału na czystsze klasy, jeśli brany jest pod uwagę wspólnie z innym atrybutem. Innym wytłumaczeniem jest specyfika dostępnych danych. Okazuje się, iż podział zaproponowany przez eksperta nie dzieli danych względem atrybutu decyzyjnego w sposób jednoznaczny. Histogramy wg podziału zaproponowanego przez eksperta (gdy zużycie oleju > 1.2) Wartość D1 Liczba wystąpień Wartość D2 Liczba wystąpień Histogramy wg podziału dokonanego przez algorytm (gdy zużycie oleju > 1.9) Wartość D2 Liczba wystąpień Histogramy wg podziału dokonanego przez algorytm (gdy zużycie oleju <= 1.9) Wartość D2 Liczba wystąpień Histogramy wg podziału dokonanego przez algorytm (gdy zużycie oleju > 1.9) Wartość D1 Liczba wystąpień Histogramy wg podziału dokonanego przez algorytm (gdy zużycie oleju <= 1.9) Wartość D1 Liczba wystąpień Wartość ciśnienia sprężania podana przez eksperta jako granica przedziału jest bardzo zbliżona do wartości wybranej przez algorytm budowy drzewa decyzyjnego, więc uznano, że żadne anomalie tam nie występują. 31

32 7 Literatura 1. Dokumentacja techniczna Oracle Data Miner 2. Dokumentacja techniczna Weka Notatki własne z wykładu i laboratorium 32

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Laboratorium 5. Adaptatywna sieć Bayesa.

Laboratorium 5. Adaptatywna sieć Bayesa. Laboratorium 5 Adaptatywna sieć Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>.

Bardziej szczegółowo

Przykład eksploracji danych Case 1.X

Przykład eksploracji danych Case 1.X Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD Zaawansowana eksploracja danych edycja 2009/2010 Plan 1. Przykładowe studium przypadki 2. Analiza opisu przypadku 3. Ustalenie celu analizy i

Bardziej szczegółowo

Laboratorium 6. Indukcja drzew decyzyjnych.

Laboratorium 6. Indukcja drzew decyzyjnych. Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Laboratorium 4. Naiwny klasyfikator Bayesa.

Laboratorium 4. Naiwny klasyfikator Bayesa. Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Projekt Sieci neuronowe

Projekt Sieci neuronowe Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Wprowadzenie do klasyfikacji

Wprowadzenie do klasyfikacji Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator

Bardziej szczegółowo

Określanie ważności atrybutów. RapidMiner

Określanie ważności atrybutów. RapidMiner Określanie ważności atrybutów RapidMiner Klasyfikacja (1/2) TEMP BÓL WYSYPKA GARDŁO DIAGNOZA 36.6 T BRAK NORMA NIESTRAWNOŚĆ 37.5 N MAŁA PRZEKR. ALERGIA 36.0 N BRAK NORMA PRZECHŁODZENIE 39.5 T DUŻA PRZEKR.

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

Modelowanie glikemii w procesie insulinoterapii

Modelowanie glikemii w procesie insulinoterapii Dawid Kaliszewski Modelowanie glikemii w procesie insulinoterapii Promotor dr hab. inż. Zenon Gniazdowski Cel pracy Zbudowanie modelu predykcyjnego przyszłych wartości glikemii diabetyka leczonego za pomocą

Bardziej szczegółowo

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych WEKA klasyfikacja z użyciem sztucznych sieci neuronowych 1 WEKA elementy potrzebne do zadania WEKA (Data mining software in Java http://www.cs.waikato.ac.nz/ml/weka/) jest narzędziem zawierającym zbiór

Bardziej szczegółowo

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych

Bardziej szczegółowo

Drzewa Decyzyjne, cz.2

Drzewa Decyzyjne, cz.2 Drzewa Decyzyjne, cz.2 Inteligentne Systemy Decyzyjne Katedra Systemów Multimedialnych WETI, PG Opracowanie: dr inŝ. Piotr Szczuko Podsumowanie poprzedniego wykładu Cel: przewidywanie wyniku (określania

Bardziej szczegółowo

Laboratorium 11. Regresja SVM.

Laboratorium 11. Regresja SVM. Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2 Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Sprawozdanie z zadania Modele predykcyjne (2)

Sprawozdanie z zadania Modele predykcyjne (2) Maciej Karpus, 131529 Tomasz Skarżyński, 131618 19.04.2013r. Sprawozdanie z zadania Modele predykcyjne (2) 1. Wprowadzenie 1.1. Informacje wstępne Dane dotyczą wyników badań mammograficznych wykonanych

Bardziej szczegółowo

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych. Inteligencja obliczeniowa stud. niestac. Laboratorium 4: Zadanie klasyfikacji poznanie trzech algorytmów klasyfikujących: knn, NaiveBayes, drzewo decyzyjne. Przy pomnijmy sobie bazę danych z irysami. Na

Bardziej szczegółowo

Data Mining podstawy analizy danych Część druga

Data Mining podstawy analizy danych Część druga Data Mining podstawy analizy danych Część druga W części pierwszej dokonaliśmy procesu analizy danych treningowych w oparciu o algorytm drzewa decyzyjnego. Proces analizy danych treningowych może być realizowany

Bardziej szczegółowo

Systemy uczące się wykład 1

Systemy uczące się wykład 1 Systemy uczące się wykład 1 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 5 X 2018 e-mail: przemyslaw.juszczuk@ue.katowice.pl Konsultacje: na stronie katedry + na stronie domowej

Bardziej szczegółowo

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta www.michalbereta.pl W tej części: Zachowanie wytrenowanego modelu w celu późniejszego użytku Filtrowanie danych (brakujące etykiety

Bardziej szczegółowo

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne Metody eksploracji danych Laboratorium 4 Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne Zbiory danych Podczas ćwiczeń będziemy przetwarzali dane tekstowe pochodzące z 5 książek

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Metody Sztucznej Inteligencji II

Metody Sztucznej Inteligencji II 17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej: Metoda analizy macierzy współczynników korelacji Idea metody sprowadza się do wyboru takich zmiennych objaśniających, które są silnie skorelowane ze zmienną objaśnianą i równocześnie słabo skorelowane

Bardziej szczegółowo

WYKŁAD 6. Reguły decyzyjne

WYKŁAD 6. Reguły decyzyjne Wrocław University of Technology WYKŁAD 6 Reguły decyzyjne autor: Maciej Zięba Politechnika Wrocławska Reprezentacje wiedzy Wiedza w postaci reguł decyzyjnych Wiedza reprezentowania jest w postaci reguł

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo

Podstawy sztucznej inteligencji

Podstawy sztucznej inteligencji wykład 5 Sztuczne sieci neuronowe (SSN) 8 grudnia 2011 Plan wykładu 1 Biologiczne wzorce sztucznej sieci neuronowej 2 3 4 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką,

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0 Uczenie się pojedynczego neuronu W0 X0=1 W1 x1 W2 s f y x2 Wp xp p x i w i=x w+wo i=0 Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z=0 Wówczas: W 1 x 1 + w 2 x 2 + = 0 Algorytm

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Reguły asocjacyjne w programie RapidMiner Michał Bereta Reguły asocjacyjne w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Reguły asocjacyjne mają na celu odkrycie związków współwystępowania pomiędzy atrybutami. Stosuje się je często do danych

Bardziej szczegółowo

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2 Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł

Bardziej szczegółowo

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych WEKA klasyfikacja z użyciem sztucznych sieci neuronowych 1 WEKA elementy potrzebne do zadania WEKA (Data mining software in Java http://www.cs.waikato.ac.nz/ml/weka/) jest narzędziem zawierającym zbiór

Bardziej szczegółowo

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia

Bardziej szczegółowo

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Metody klasyfikacji i rozpoznawania wzorców.  Najważniejsze rodzaje klasyfikatorów Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej

Bardziej szczegółowo

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji

Bardziej szczegółowo

Metody eksploracji danych Laboratorium 2. Weka + Python + regresja

Metody eksploracji danych Laboratorium 2. Weka + Python + regresja Metody eksploracji danych Laboratorium 2 Weka + Python + regresja KnowledgeFlow KnowledgeFlow pozwala na zdefiniowanie procesu przetwarzania danych Komponenty realizujące poszczególne czynności można konfigurować,

Bardziej szczegółowo

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne) Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu ID1SII4 Nazwa modułu Systemy inteligentne 1 Nazwa modułu w języku angielskim Intelligent

Bardziej szczegółowo

Zadanie 1. Analiza Analiza rozkładu

Zadanie 1. Analiza Analiza rozkładu Zadanie 1 data lab.zad 1; input czas; datalines; 85 3060 631 819 805 835 955 595 690 73 815 914 ; run; Analiza Analiza rozkładu Ponieważ jesteśmy zainteresowani wyznaczeniem przedziału ufności oraz weryfikacja

Bardziej szczegółowo

Analiza Statystyczna

Analiza Statystyczna Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza

Bardziej szczegółowo

08.06.07r. Warszawa UCZENIE SIĘ MASZYN. Drzewa i lasy losowe Dokumentacja końcowa. Autor: Krzysztof Marcinek Prowadzący: Paweł Cichosz

08.06.07r. Warszawa UCZENIE SIĘ MASZYN. Drzewa i lasy losowe Dokumentacja końcowa. Autor: Krzysztof Marcinek Prowadzący: Paweł Cichosz 8.6.7r. Warszawa UCZENIE SIĘ MASZYN Drzewa i lasy losowe Dokumentacja końcowa Autor: Krzysztof Marcinek Prowadzący: Paweł Cichosz 1. Wprowadzenie Drzewa decyzyjne są jedną z najbardziej skutecznych i najpopularniejszych

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne Reprezentacja wiedzy w postaci drzew decyzyjnych entropia, przyrost informacji algorytmy ID3, C4.5 problem przeuczenia wyznaczanie reguł rzykładowe drzewo decyzyjne

Bardziej szczegółowo

Zadanie 0 gdy nie mamy logiki rozmytej. Zadanie 1- gdy już mamy logikę rozmytą

Zadanie 0 gdy nie mamy logiki rozmytej. Zadanie 1- gdy już mamy logikę rozmytą Zadanie 0 gdy nie mamy logiki rozmytej Wyobraźmy sobie, że chcemy oceniad czy dana temperatura świadczy o tym, że jest gorąco czy raczej zimno. A więc znając wartośd liczbową temperatury chcemy oceniad

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

Sztuczna inteligencja : Algorytm KNN

Sztuczna inteligencja : Algorytm KNN Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr

Bardziej szczegółowo

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 5 T 7 T 5 T 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator ZeroR będzie zawsze odpowiadał T niezależnie

Bardziej szczegółowo

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber Drzewa decyzyjne Inteligentne Obliczenia Wydział Mechatroniki Politechniki Warszawskiej Anna Sztyber INO (IAiR PW) Drzewa decyzyjne Anna Sztyber / Drzewa decyzyjne w podstawowej wersji algorytm klasyfikacji

Bardziej szczegółowo

Inteligentne systemy przeciw atakom sieciowym

Inteligentne systemy przeciw atakom sieciowym Inteligentne systemy przeciw atakom sieciowym wykład Sztuczne sieci neuronowe (SSN) Joanna Kołodziejczyk 2016 Joanna Kołodziejczyk Inteligentne systemy przeciw atakom sieciowym 2016 1 / 36 Biologiczne

Bardziej szczegółowo

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań 6.11.1 1 Badanie współzależności atrybutów jakościowych w wielowymiarowych tabelach danych. 1.1 Analiza współzależności

Bardziej szczegółowo

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010 Materiały/konsultacje Automatyczna predykcja http://www.ibp.pwr.wroc.pl/kotulskalab Konsultacje wtorek, piątek 9-11 (uprzedzić) D1-115 malgorzata.kotulska@pwr.wroc.pl Co to jest uczenie maszynowe? Uczenie

Bardziej szczegółowo

W narzędziu typu Excel, Calc czy Gnumeric napisz formułę logiczną która wyznaczy wartośd przynależności dla podanej temperatury do zbioru gorąco.

W narzędziu typu Excel, Calc czy Gnumeric napisz formułę logiczną która wyznaczy wartośd przynależności dla podanej temperatury do zbioru gorąco. Zadanie 0 Wyobraźmy sobie, że chcemy oceniad czy dana temperatura świadczy o tym, że jest gorąco czy raczej zimno. A więc znając wartośd liczbową temperatury chcemy oceniad wartośd funkcji przynależności

Bardziej szczegółowo

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora. Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny

Bardziej szczegółowo

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Trening jednokierunkowych sieci neuronowych wykład 2. dr inż. PawełŻwan Katedra Systemów Multimedialnych Politechnika Gdańska

Bardziej szczegółowo

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1 Klasyfikacja Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji Klasyfikacja wykład 1 Niniejszy wykład poświęcimy kolejnej metodzie eksploracji danych klasyfikacji. Na początek

Bardziej szczegółowo

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice) WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO Stanisław Kowalik (Poland, Gliwice) 1. Wprowadzenie Wstrząsy podziemne i tąpania występujące w kopalniach

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka. Eksploracja danych OCENA KLASYFIKATORÓW Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

Sieci neuronowe w Statistica

Sieci neuronowe w Statistica http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej

Bardziej szczegółowo

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta Wprowadzenie do programu RapidMiner, część 4 Michał Bereta www.michalbereta.pl 1. Wybór atrybutów (ang. attribute selection, feature selection). Jedną z podstawowych metod analizy współoddziaływania /

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 3

Indukowane Reguły Decyzyjne I. Wykład 3 Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie

Bardziej szczegółowo

Elementy inteligencji obliczeniowej

Elementy inteligencji obliczeniowej Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego

Bardziej szczegółowo

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH** Górnictwo i Geoinżynieria Rok 31 Zeszyt 3 2007 Dorota Pawluś* PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH** 1. Wstęp Eksploatacja górnicza złóż ma niekorzystny wpływ na powierzchnię

Bardziej szczegółowo

Zadania i funkcje skrzyń biegów. Opracował: Robert Urbanik Zespół Szkół Mechanicznych w Opolu

Zadania i funkcje skrzyń biegów. Opracował: Robert Urbanik Zespół Szkół Mechanicznych w Opolu Zadania i funkcje skrzyń biegów Opracował: Robert Urbanik Zespół Szkół Mechanicznych w Opolu Zadania skrzyni biegów Skrzynia biegów umożliwia optymalne wykorzystanie mocy silnika. Każdy silnik ma pewien

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji

Bardziej szczegółowo

PROGNOZOWANIE PORÓWNAWCZE ENERGII PROCESOWEJ ZESTAWÓW MASZYN DO ROBÓT ZIEMNYCH JAKO CZYNNIKA RYZYKA EMISYJNOŚCI CO2

PROGNOZOWANIE PORÓWNAWCZE ENERGII PROCESOWEJ ZESTAWÓW MASZYN DO ROBÓT ZIEMNYCH JAKO CZYNNIKA RYZYKA EMISYJNOŚCI CO2 PROGNOZOWANIE PORÓWNAWCZE ENERGII PROCESOWEJ ZESTAWÓW MASZYN DO ROBÓT ZIEMNYCH JAKO CZYNNIKA RYZYKA EMISYJNOŚCI CO2 Celem opracowania algorytmu obliczeń jest umożliwienie doboru zestawu maszyn do robót

Bardziej szczegółowo

Temat: Sieci neuronowe oraz technologia CUDA

Temat: Sieci neuronowe oraz technologia CUDA Elbląg, 27.03.2010 Temat: Sieci neuronowe oraz technologia CUDA Przygotował: Mateusz Górny VIII semestr ASiSK Wstęp Sieci neuronowe są to specyficzne struktury danych odzwierciedlające sieć neuronów w

Bardziej szczegółowo

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl Analiza metod wykrywania przekazów steganograficznych Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl Plan prezentacji Wprowadzenie Cel pracy Tezy pracy Koncepcja systemu Typy i wyniki testów Optymalizacja

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka. Eksploracja danych KLASYFIKACJA I REGRESJA cz. 2 Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki

Bardziej szczegółowo

Data Mining z wykorzystaniem programu Rapid Miner

Data Mining z wykorzystaniem programu Rapid Miner Data Mining z wykorzystaniem programu Rapid Miner Michał Bereta www.michalbereta.pl Program Rapid Miner jest dostępny na stronie: http://rapid-i.com/ Korzystamy z bezpłatnej wersji RapidMiner Community

Bardziej szczegółowo

Cel projektu: Wymogi dotyczące sprawozdania:

Cel projektu: Wymogi dotyczące sprawozdania: W ramach zajęć proszę wykonać sprawozdanie z logiki rozmytej. Sprawozdanie powinno realizować zadanie wnioskowania rozmytego. Cel projektu: Student projektuje bazę wiedzy wnioskowania rozmytego (kilka,

Bardziej szczegółowo

Sieć przesyłająca żetony CP (counter propagation)

Sieć przesyłająca żetony CP (counter propagation) Sieci neuropodobne IX, specyficzne architektury 1 Sieć przesyłająca żetony CP (counter propagation) warstwa Kohonena: wektory wejściowe są unormowane jednostki mają unormowane wektory wag jednostki są

Bardziej szczegółowo