Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9.

Transkrypt

1 Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9.00

2 Spis treści: 1 Wprowadzenie Dostępne dane Przygotowanie danych do eksploatacji Błędy znalezione w danych Oprogramowanie: Dyskretyzacja danych Badanie zależności między atrybutami Jednowymiarowe zależności między atrybutami Określanie ważności atrybutów Odkrywanie wiedzy w danych Opis zastosowanych algorytmów Drzewa decyzyjne Drzewa decyzyjne J48 z zastosowaniem cross - validation Adaptatywna sieć Bayes a Perceptron Wielowarstwowy Multilayer Perceptron Rezultaty Drzewa decyzyjne Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji, wersja cheap Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji, wersja cheap Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją, wersja cheap Drzewo decyzyjne dla atrybutu D2, dane przed dyskretyzacją, wersja cheap Adaptatywne sieci Bayes a Adaptatywna sieć Bayes a dla atrybutu D1, dane po dyskretyzacji Adaptatywna sieć Bayes a dla atrybutu D2, dane po dyskretyzacji Adaptatywna sieć Bayes a dla atrybutu D1, dane po dyskretyzacji, wersja cheap Adaptatywna sieć Bayes a dla atrybutu D2, dane po dyskretyzacji, wersja cheap Adaptatywna sieć Bayes a dla atrybutu D1, dane przed dyskretyzacją Adaptatywna sieć Bayes a dla atrybutu D2, dane przed dyskretyzacją Adaptatywna sieć Bayes a dla atrybutu D1, dane przed dyskretyzacją, wersja cheap Adaptatywna sieć Bayes a dla atrybutu D2, dane przed dyskretyzacją, wersja cheap Drzewa decyzyjne J48 z cross - validation Drzewo decyzyjne dla atrybutu D2, dane przed dyskretyzacją Drzewo decyzyjne dla atrybutu D2, dane przed dyskretyzacją, wersja cheap Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji, wersja cheap Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją, wersja cheap

3 Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji, wersja cheap Perceptron wielowarstwowy (Multilayer perceptron) Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane przed dyskretyzacją Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane przed dyskretyzacją, wersja cheap Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane przed dyskretyzacją Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane przed dyskretyzacją, wersja cheap Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane po dyskretyzacji Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane po dyskretyzacji, wersja cheap Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane po dyskretyzacji Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane po dyskretyzacji, wersja cheap Podsumowanie: Interpretacja wyników Reguły Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją, wersja bez wyników najdroższych pomiarów Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji, wersja bez wyników najdroższych pomiarów Atrybut decyzyjny D2, dane nie poddane dyskretyzacji Atrybut decyzyjny D2, dane nie poddane dyskretyzacji, wersja bez wyników najdroższych pomiarów Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji, wersja bez wyników najdroższych pomiarów Punkty podziału w korzeniach drzew Literatura

4 1 Wprowadzenie Pewne przedsiębiorstwo komunikacyjno transportowe wykorzystuje jeden podstawowy typ autobusów. Autobusy te podlegają regularnym przeglądom stanu technicznego. Zbiera się również dane o ich bieżącej eksploatacji. Na stanowisku diagnostycznym bada się przede wszystkim parametry układu napędowego, takie jak aktualna maksymalna moc silnika, moment obrotowy, osiągana prędkość maksymalna, ciśnienie sprężania w tłokach, zawartość elementów smołowatych w spalinach i inne. Dane eksploatacyjne dotyczą głównie zużycia paliwa i oleju w różnych okresach roku. Dane dotyczą autobusów tego samego typu eksploatowanych w podobnych warunkach. Zawierają one wartości następujących parametrów, będących symptomami stanu technicznego: s1 prędkość maksymalna [km/h], s2 ciśnienie sprężania [Mpa], s3 zawartość elementów smołowatych w spalinach wylotowych [%], s4 moment obrotowy silnika [Nm], s5 letnie zużycie paliwa [l/100km], s6 zimowe zużycie paliwa [l/100km], s7 zużycie oleju [l/1000km], s8 aktualna moc silnika [KM]. Dostępne są również dwa atrybuty decyzyjne: D1 atrybut klasyfikuje pojazdy na dwie klasy: sprawne ( 1 ) i niesprawne ( 2 ) D2 atrybut klasyfikuje pojazdy na trzy klasy: sprawne ( 1 ), wymagające drobnych napraw i obserwacji ( 2 ) oraz przeznaczone do remontu ( 3 ) Celem niniejszej analizy jest zbudowanie klasyfikatora stanu technicznego autobusów (względem podanych atrybutów decyzyjnych i wskazanych klas decyzyjnych) na podstawie udostępnionych przez przedsiębiorstwo komunikacyjno transportowe danych historycznych. 4

5 2 Dostępne dane Udostępnione zostały wartości pomiarów 80 autobusów: s1 s2 s3 s4 s5 s6 s7 s8 D1 D2 lp MaxSpeed Compr_preasure blacking torque summer_cons winter_cons oil_cons horsepower

6 n ? ,

7 3 Przygotowanie danych do eksploatacji 3.1 Błędy znalezione w danych - pomiar numer 10: brak separatora kolumn (uznano za błąd wprowadzania danych i dodano separator, ) - pomiar 77: wartość atrybutu D1 spoza dziedziny (pomiar odrzucono) - pomiar 78: wartość atrybutu s4 spoza dziedziny (pomiar odrzucono) - pomiar 79: wartość atrybutu s5 jeden rząd wielkości większa od średniej dla wszystkich pomiarów (uznano za błąd wprowadzania danych i zmieniono wartość 218 na 21.8) - pomiar 80: zmieniona wartość separatora części całkowitej od ułamkowej dla atrybutu s2 (uznano za błąd wprowadzania danych i zmieniono wartość 2,45 na 2.45) 3.2 Oprogramowanie: W trakcie procesu analizy danych wykorzystane zostały: pakiet Oracle Data Miner 10.2, baza danych Oracle 10g, Weka 3-5 oraz Microsoft Excel XP. Dane zostały wprowadzone do bazy danych Oracle 10g do tabeli zdefiniowanej w następujący sposób: create table autobusy ( A0 number(2), MaxSpeed number(3), Compr_preasure number(3,2), blacking number(2), torque number(4), summer_cons number(4,1), winter_cons number(4,1), oil_cons number(4,1), horsepower number(3), d1 number(1) check (d1 in (1, 2)), d2 number(1) check (d2 in (1, 2, 3)) ); a także do programu Weka 3-5 do pliku zdefiniowanego w poniższy LP MaxSpeed ComprPreasure blacking torque summer_cons winter_cons oil_cons horsepower d1 d2 {1,2,3} 7

8 3.3 Dyskretyzacja danych Zgodnie z propozycją eksperta od diagnostyki samochodowej przyjęto następujące granice przedziałów: s1 : (-, 74>, (74, 79>, (79, 85>, (85, ) s2 : (-, 2.2>, (2.2, 2.4>, (2.4, ) s3 : (-, 59>, (59, ) s4 : (-, 441>, (441, ) s5 : (-, 22>, (22, ) s6 : (-, 25.2>, (25.2, ) s7 : (-, 1.2>, (1.2, ) s8 : (-, 119>, (119, ) Dane po dyskretyzacji zostały zapisane w perspektywie bazy danych (do analizy przez Oracle Data Miner) oraz w pliku (do analizy w programie Weka) o następującej LP maxspeed ComprPreasure Blacking torque summer_cons winter_cons oil_cons horsepower d1 d2 8

9 4 Badanie zależności między atrybutami 4.1 Jednowymiarowe zależności między atrybutami Poniższa tabela przedstawia wartości współczynników korelacji Pearsona obliczonych dla każdej pary atrybutów (dane nie poddane dyskretyzacji). MaxSpeed Compr_preasure blacking torque summer_cons winter_cons oil_cons horsepower 1 0, , ,932-0, , , , MaxSpeed 1-0, ,8906-0, , , ,89333 Compr_preasure 1-0,901 0, , , , blacking 1-0, , , , torque 1 0, ,3537-0, summer_cons 1 0, , winter_cons 1-0, oil_cons 1 horsepower Z powyższych obliczeń widać, iż istnieje silna korelacja (bądź to pozytywna bądź negatywna) pomiędzy: MaxSpeed horsepower (93%) MaxSpeed oil_cons (-90%) MaxSpeed torque (93%) MaxSpeed blacking (-85%) MaxSpeed Compr_preasure (91%) Compr_preasure horsepower (90%) Compr_preasure oil_cons (-91%) Compr_preasure torque (89%) Compr_preasure blacking (-85%) Blacking horsepower (-91%) Blacking oil_cons (96%) Blacking torque (-90%) Torque horsepower (98%) Torque oil_cons (-92%) Oil_cons horsepower (-91%) Odkryte zależności pozwalają stwierdzić, iż nie wszystkie atrybuty mogą być podczas analizy użyteczne. Być może niektóre z nich mogłyby zostać zastąpione, bez spadku jakości analizy, przez inne. Należy zauważyć niskie wartości współczynników korelacji Pearsona pomiędzy wartościami pomiarów zużycia paliwa i oleju a wartościami pozostałych atrybutów. Uzyskany rezultat pozwala sądzić, iż za pomocą wyników pomiarów zużycia paliwa i oleju nie będzie można określać wielkości pozostałych atrybutów. Przeprowadzono również analizę pod kątem występowania między atrybutami zależności nieliniowych (wykładniczych i wielomianowych). Interpretacja wykresów zależności pomiędzy zmiennymi pozwala jednoznacznie stwierdzić, że w badanym zbiorze danych występują tylko liniowe (lub bardzo bliskie liniowym) zależności. 9

10 4.2 Określanie ważności atrybutów Ważność atrybutów dla drzewa o atrybucie decyzyjnym D1: Name Rank Importance TORQUE COMPR_PREASURE HORSEPOWER MAXSPEED BLACKING OIL_CONS WINTER_CONS SUMMER_CONS Ważność atrybutów dla drzewa o atrybucie decyzyjnym D2: Name Rank Importance MAXSPEED HORSEPOWER TORQUE COMPR_PREASURE BLACKING OIL_CONS WINTER_CONS SUMMER_CONS Ważność atrybutów wyznaczona została za pomocą algorytmu Minimum Description Length (MDL) pakietu Oracle Data Miner dla danych nie poddanych dyskretyzacji. Algrotym MDL działa w następujący sposób: Każdy atrybut (atrybut określający) traktowany jest jako prosty model przynależności atrybutu decyzyjnego (atrybut określany) do jednej z klas decyzyjnych. Z każdą wartością atrybutu określającego (i) skojarzonych jest n i przykładów w zbiorze trenującym oraz rozkład prawdopodobieństwa p ij dla m wartości atrybutu określanego (różne wartości określane jako j). Z faktu, iż liczba przykładów uczących wynosi n i wynika, iż istnieje co najwyżej n i p ij różnych przypadków w danych. Z kombinatoryki wynika natomiast, iż liczba m różnych wartości spośród n elementów wynosi: n m. m Stąd też rozmiar listy dla atrybutu określającego wynosi: ni m log 2. i m Całkowita długość opisu dla atrybutu określającego wynosi więc: ni m log 2 log 2 ( pij ). i m i j Ranking atrybutów określających budowany jest na podstawie miejsca na liście (posortowanej rosnąco) odpowiadających opisów długości

11 5 Odkrywanie wiedzy w danych 5.1 Opis zastosowanych algorytmów Do budowy modeli wykorzystano cztery typy algorytmów: - drzewa decyzyjne (Oracle Data Miner) - drzewa decyzyjne J48 z zastosowaniem cross validation (Weka) - adaptatywna sieć Bayes a (Oracle Data Miner) - perceptron wielowarstwowy z zastosowanie cross validation(weka) Każdy algorytm wykorzystywany był zarówno dla atrybutu decyzyjnego D1 jak i D2, z uwzględnieniem danych przed i po dyskretyzacji. Zgodnie z życzeniem klienta zbudowano również modele ( cheap ) wykorzystujące dane bez uwzględnienia najdroższych w diagnostyce samochodowej pomiarów (compr_preasure [ciśnienie sprężania] oraz torque [moment obrotowy]). Łącznie zbudowano więc 32 modele Drzewa decyzyjne Oracle nie udostępnia szczegółowych informacji na temat zaimplementowanych algorytmów, można więc jedynie domyślać się zastosowanych rozwiązań. Najprawdopodobniej użyto metody CART (Classification and Regression Tree). Podczas budowania modeli zastosowano następujące parametry: - metryka jednorodności (homogeneity metric): Gini - maksymalna głębokość: 10 - podział danych wejściowych: 70% budowa modelu, 30% testowanie Drzewa decyzyjne J48 z zastosowaniem cross - validation Algorytm J48 dostępny w oprogramowaniu Weka jest, wg dokumentacji technicznej, wersją znanego w literaturze algorytmu C4.5. Idea algorytmu C4.5 opiera się na schemacie zstępującej indukcji drzewa decyzyjnego na podstawie danych treningowych. Metoda ta bardzo dobrze radzi sobie z problemem brakujących wartości oraz uzyskuje wysoką jakość klasyfikacji. Ponieważ dostępnych było zaledwie ok. 80 atrybutów, zatem należało dokonać specyficznego podziału zbioru na część uczącą i testującą. Wykorzystano metodę cross validation, która polega na dziesięciokrotnym (zastosowane ustawienie algorytmu) podziale zbioru na część uczącą i testującą w stosunku 9:1 (90% danych przeznaczonych do treningu a 10% do testowania). Zastosowanie cross validation zdecydowanie poprawia jakość danych przeznaczonych do uczenia się na zbiorze Adaptatywna sieć Bayes a Producent (Oracle) zapewnia, iż wprowadzony przez niego algorytm charakteryzuje się szybkością, skalowalnością, małą liczbą parametrów oraz przyjaznym dla człowieka produktem wynikowym w postaci zbioru reguł. Algorytm ABN (Adaptative Bayes Network) buduje model wykorzystujący zasadę MDL (Minimum Description Length) oraz redukcję tablicy warunkowo niezależnych cech sieci. Każda z nich zawiera jedno, bądź więcej, wyrażenie prawdopodobieństwa warunkowego. W analizie wykorzystano model Single 11

12 Feature (równoważny drzewu decyzyjnemu C4.5 zawierającemu uproszczenie polegające na traktowaniu atrybutów numerycznych jako kategorycznych) Perceptron Wielowarstwowy Multilayer Perceptron Perceptron wielowarstwowy jest jedną z częściej stosowanych struktur neuropodobnych. Posiada on szczególną własność: komórki perceptronowe pogrupowane są w warstwy a przesyłanie informacji w sieci odbywa się tylko w jednym kierunku (od warstwy wejściowej do warstwy wyjściowej) nie są więc możliwe sprzężenia zwrotne. Perceptron wielowarstwowy posiada tzw. warstwy ukryte, w których dane z warstwy wejściowej podlegają nieliniowemu przetworzeniu zanim dojdą do wyjścia sieci. Model jest trenowany metodą uczenia nadzorowanego za pomocą algorytmu propagacji wstecznej błędu. Podczas budowy modelu zastosowano opcję cross validation (patrz: 5.1.2). 5.2 Rezultaty Drzewa decyzyjne Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji Trafność klasyfikacji: 94,58% Node ID Predicate Predicted Value Confidence Cases Support True > TORQUE is in > TORQUE is in Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji Trafność klasyfikacji: 87,46%

13 Node ID Predicate Predicted Value Confidence Cases Support true > MAXSPEED is in { 3 } >> HORSEPOWER is in >> HORSEPOWER is in > MAXSPEED is in Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji, wersja cheap Trafność klasyfikacji: 87,92% Node ID Predicate Predicted Value Confidence Cases Support true > HORSEPOWER is in > HORSEPOWER is in Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji, wersja cheap Trafność klasyfikacji: 87,46% Node ID Predicate Predicted Value Confidence Cases Support true > MAXSPEED is in { 3 } >> HORSEPOWER is in >> HORSEPOWER is in > MAXSPEED is in

14 Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Trafność klasyfikacji: 96,67% Node ID Predicate Predicted Value Confidence Cases Support True > COMPR_PREASURE <= > COMPR_PREASURE > Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Trafność klasyfikacji: 84,24% Node ID Predicate Predicted Value Confidence Cases Support true > MAXSPEED <= >> COMPR_PREASURE <= >> COMPR_PREASURE > > MAXSPEED > Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją, wersja cheap Trafność klasyfikacji: 92,5%

15 Node ID Predicate Predicted Value Confidence Cases Support True > BLACKING <= > BLACKING > Drzewo decyzyjne dla atrybutu D2, dane przed dyskretyzacją, wersja cheap Trafność klasyfikacji: 63,79% Node ID Predicate Predicted Value Confidence Cases Support true > MAXSPEED <= >> BLACKING <= >> BLACKING > > MAXSPEED > Adaptatywne sieci Bayes a Adaptatywna sieć Bayes a dla atrybutu D1, dane po dyskretyzacji Trafność klasyfikacji: 94,58% Rule Id If (condition) Then (classification) Confidence (%) Support (%) 3 TORQUE in 2.0 D1 equal

16 Adaptatywna sieć Bayes a dla atrybutu D2, dane po dyskretyzacji Trafność klasyfikacji: 75,02% Rule Id If (condition) Then (classification) Confidence (%) Support (%) 5 MAXSPEED in 4.0 D2 equal MAXSPEED in 3.0 D2 equal MAXSPEED in 1.0 D2 equal Adaptatywna sieć Bayes a dla atrybutu D1, dane po dyskretyzacji, wersja cheap Trafność klasyfikacji: 87,92% Rule Id If (condition) Then (classification) Confidence (%) Support (%) 3 HORSEPOWER in 2.0 D1 equal Adaptatywna sieć Bayes a dla atrybutu D2, dane po dyskretyzacji, wersja cheap Trafność klasyfikacji: 75,02%

17 Rule Id If (condition) Then (classification) Confidence (%) Support (%) 5 MAXSPEED in 4.0 D2 equal MAXSPEED in 3.0 D2 equal MAXSPEED in 1.0 D2 equal Adaptatywna sieć Bayes a dla atrybutu D1, dane przed dyskretyzacją Trafność klasyfikacji: 87,92% Rule Id If (condition) Then (classification) Confidence (%) Support (%) 18 MAXSPEED in 85.0 D1 equal MAXSPEED in 88.0 D1 equal MAXSPEED in 90.0 D1 equal MAXSPEED in 87.0 D1 equal MAXSPEED in 86.0 D1 equal MAXSPEED in 72.0 D1 equal MAXSPEED in 75.0 D1 equal MAXSPEED in 80.0 D1 equal MAXSPEED in 68.0 D1 equal MAXSPEED in 76.0 D1 equal MAXSPEED in 65.0 D1 equal MAXSPEED in 82.0 D1 equal MAXSPEED in 78.0 D1 equal MAXSPEED in 89.0 D1 equal MAXSPEED in 83.0 D1 equal MAXSPEED in 63.0 D1 equal MAXSPEED in 67.0 D1 equal MAXSPEED in 64.0 D1 equal MAXSPEED in 70.0 D1 equal MAXSPEED in 84.0 D1 equal MAXSPEED in 66.0 D1 equal

18 Adaptatywna sieć Bayes a dla atrybutu D2, dane przed dyskretyzacją Trafność klasyfikacji: 85,79% Rule Id If (condition) Then (classification) Confidence (%) Support (%) 22 MAXSPEED in 90.0 D2 equal MAXSPEED in 85.0 D2 equal MAXSPEED in 88.0 D2 equal MAXSPEED in 87.0 D2 equal MAXSPEED in 86.0 D2 equal MAXSPEED in 75.0 D2 equal MAXSPEED in 65.0 D2 equal MAXSPEED in 76.0 D2 equal MAXSPEED in 72.0 D2 equal MAXSPEED in 80.0 D2 equal MAXSPEED in 82.0 D2 equal MAXSPEED in 67.0 D2 equal MAXSPEED in 63.0 D2 equal MAXSPEED in 64.0 D2 equal MAXSPEED in 60.0 D2 equal MAXSPEED in 66.0 D2 equal MAXSPEED in 84.0 D2 equal MAXSPEED in 89.0 D2 equal MAXSPEED in 78.0 D2 equal MAXSPEED in 83.0 D2 equal Adaptatywna sieć Bayes a dla atrybutu D1, dane przed dyskretyzacją, wersja cheap Trafność klasyfikacji: 87,92%

19 Rule Id If (condition) Then (classification) Confidence (%) Support (%) 18 MAXSPEED in 85.0 D1 equal MAXSPEED in 88.0 D1 equal MAXSPEED in 90.0 D1 equal MAXSPEED in 87.0 D1 equal MAXSPEED in 86.0 D1 equal MAXSPEED in 72.0 D1 equal MAXSPEED in 75.0 D1 equal MAXSPEED in 80.0 D1 equal MAXSPEED in 68.0 D1 equal MAXSPEED in 76.0 D1 equal MAXSPEED in 65.0 D1 equal MAXSPEED in 82.0 D1 equal MAXSPEED in 78.0 D1 equal MAXSPEED in 89.0 D1 equal MAXSPEED in 83.0 D1 equal MAXSPEED in 63.0 D1 equal MAXSPEED in 67.0 D1 equal MAXSPEED in 64.0 D1 equal MAXSPEED in 70.0 D1 equal MAXSPEED in 84.0 D1 equal MAXSPEED in 66.0 D1 equal Adaptatywna sieć Bayes a dla atrybutu D2, dane przed dyskretyzacją, wersja cheap Trafność klasyfikacji: 85,79% Rule Id If (condition) Then (classification) Confidence (%) Support (%) 22 MAXSPEED in 90.0 D2 equal MAXSPEED in 85.0 D2 equal MAXSPEED in 88.0 D2 equal MAXSPEED in 87.0 D2 equal MAXSPEED in 86.0 D2 equal MAXSPEED in 75.0 D2 equal MAXSPEED in 65.0 D2 equal MAXSPEED in 76.0 D2 equal MAXSPEED in 72.0 D2 equal MAXSPEED in 80.0 D2 equal MAXSPEED in 82.0 D2 equal

20 7 MAXSPEED in 67.0 D2 equal MAXSPEED in 63.0 D2 equal MAXSPEED in 64.0 D2 equal MAXSPEED in 60.0 D2 equal MAXSPEED in 66.0 D2 equal MAXSPEED in 84.0 D2 equal MAXSPEED in 89.0 D2 equal MAXSPEED in 78.0 D2 equal MAXSPEED in 83.0 D2 equal Drzewa decyzyjne J48 z cross - validation Drzewo decyzyjne dla atrybutu D2, dane przed dyskretyzacją Trafność: 92,31% oil_cons <= 1.9 MaxSpeed <= 85: 2 (16.0/1.0) MaxSpeed > 85: 1 (35.0/1.0) oil_cons > 1.9 horsepower <= 119: 3 (25.0) horsepower > 119: 2 (2.0) Drzewo decyzyjne dla atrybutu D2, dane przed dyskretyzacją, wersja cheap Trafność: 93,58%

21 oil_cons <= 1.9 MaxSpeed <= 85: 2 (16.0/1.0) MaxSpeed > 85: 1 (35.0/1.0) oil_cons > 1.9 horsepower <= 119: 3 (25.0) horsepower > 119: 2 (2.0) Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji Trafność: 93,59% horsepower = 1: 3 (28.0/3.0) horsepower = 2 maxspeed = 1: 1 (0.0) maxspeed = 2: 2 (2.0) maxspeed = 3: 2 (13.0/1.0) maxspeed = 4: 1 (35.0/1.0) Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji, wersja cheap Trafność: 93,59% horsepower = 1: 3 (28.0/3.0) horsepower = 2 maxspeed = 1: 1 (0.0) maxspeed = 2: 2 (2.0) maxspeed = 3: 2 (13.0/1.0) maxspeed = 4: 1 (35.0/1.0) 21

22 Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją, wersja cheap Trafność: 92,31% oil_cons <= 1.9 MaxSpeed <= 76: 2 (3.0) MaxSpeed > 76: 1 (48.0) oil_cons > 1.9: 2 (27.0) Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Trafność: 98,79% ComprPreasure <= 2.39: 2 (29.0) ComprPreasure > 2.39: 1 (49.0/1.0) Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji Trafność: 97,43% torque = 1: 2 (30.0/1.0) torque = 2: 1 (48.0/1.0) 22

23 Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji, wersja cheap Trafność: 93,58% horsepower = 1: 2 (28.0/1.0) horsepower = 2: 1 (50.0/3.0) Perceptron wielowarstwowy (Multilayer perceptron) Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane przed dyskretyzacją Trafność: % Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane przed dyskretyzacją, wersja cheap Trafność: 93,58%

24 Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane przed dyskretyzacją Trafność: 88,46% Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane przed dyskretyzacją, wersja cheap Trafność: 82,05% Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane po dyskretyzacji Trafność: 92,31% Perceptron wielowarstwowy dla atrybutu decyzyjnego d1, dane po dyskretyzacji, wersja cheap Trafność: 92,31%

25 Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane po dyskretyzacji Trafność: 88,46% Perceptron wielowarstwowy dla atrybutu decyzyjnego d2, dane po dyskretyzacji, wersja cheap Trafność: 89,74% Podsumowanie: Trafność wszystkich zbudowanych modeli przedstawia poniższa tabela: Drzewo decyzyjne D1 D2 discret nondiscret discret nondiscret regular cheap regular cheap Regular cheap regular cheap 94,58% 87,92% 96,67% 92,50% 87,46% 87,46% 84,24% 63,79% Drzewo decyzyjne J48 cross validation D1 D2 discret nondiscret discret nondiscret regular cheap regular cheap regular cheap regular cheap 97,43% 93,58% 98,79% 92,31% 93,59% 93,59% 92,31% 93,59% Adaptatywna sieć Bayes a D1 D2 discret nondiscret Discret nondiscret regular cheap regular cheap regular cheap regular cheap 94,58% 87,92% 87,92% 87,92% 75,02% 75,02% 85,79% 85,79% Wielowarstwowy Perceptron cross - validation D1 D2 discret nondiscret discret nondiscret regular cheap regular cheap regular cheap regular cheap 92,31% 92,31% 94,87% 93,58% 88,46% 89,74% 88,46% 82,05% 25

26 Drzewo decyzyjne J48 z zastosowaniem cross validation uzyskało najlepszą jakość klasyfikacji w prawie każdym zbudowanym modelu (wielowarstwowy perceptron tylko w jednym przypadku modelu dla atrybutu decyzyjnego D1, dla danych niedyskretnych, bez wyników pomiarów najdroższych atrybutów okazał się lepszy o zaledwie jeden punkt procentowy) i to rozwiązanie należy przyjąć jako modelowe. Pozostałe algorytmy również osiągnęły dobrą trafność, jednakowoż specyficzna implementacja drzewa C4.5, jaką jest J48 oraz zastosowanie mechanizmu cross validation pozwoliły zbudować modele o bardzo wysokiej czystości klasyfikacji. Co nie jest również bez znaczenia, przedstawione przez J48 reguły są łatwe do interpretacji dla człowieka. Wielowarstwowy perceptron, który osiągnął lepszą trafność klasyfikacji w jednym z ośmiu przypadków, jest rozwiązaniem typu czarna skrzynka zbudowany model nie jest w żaden sposób tłumaczone. Adaptatywna sieć Bayes a generuje, w szczególności dla danych nie poddanych dyskretyzacji, bardzo dużo reguł, gęsto dzielących dziedzinę atrybutu określającego. Zjawisko to sprawia wrażenie zbytniego dopasowania budowanego modelu do konkretnych danych uczących (czyli przetrenowania modelu). Wydaje się, iż anomalii tej udało się uniknąć w przypadku modeli wykorzystujących algorytmy drzew decyzyjnych. 26

27 6 Interpretacja wyników 6.1 Reguły Ze względu na uzyskane wyniki eksperymentów, można przyjąć, że drzewa decyzyjne J48 najlepiej interpretują dostarczone dane. W wyniku przeprowadzonej analizy klient uzyskuje zestaw reguł, które mogą być stosowane do oceny stanu technicznego pojazdów, w zależności od dostępnych danych (dyskretne, ciągłe) i atrybutu decyzyjnego (D1, D2) Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją Jeżeli ciśnienie sprężania jest mniejsze bądź równe niż 2.39 Mpa, to autobus jest niesprawny. W przeciwnym przypadku autobus jest sprawny. Macierz pomyłek dla tego klasyfikatora: Klasyfikator pomylił się tylko raz. Jeden z autobusów niesprawnych został oceniony jako sprawny Drzewo decyzyjne dla atrybutu D1, dane przed dyskretyzacją, wersja bez wyników najdroższych pomiarów Jeżeli zużycie oleju jest mniejsze bądź równe 1.9 l/1000km i prędkość maksymalna jest mniejsza bądź równa 76 km/h, to autobus jest niesprawny. Jeżeli zużycie oleju jest mniejsze bądź równe 1.9 l/1000km i prędkość maksymalna jest większa niż 76 km/h, to autobus jest sprawny. Jeżeli zużycie oleju jest większe niż 1.9 l/1000km to autobus jest niesprawny. Macierz pomyłek dla tego klasyfikatora wygląda następująco: Klasyfikator pomylił się 6 razy (na 78 prób). Dwa razy autobus niesprawny został sklasyfikowany jako sprawny, a cztery razy autobus sprawny został oceniony jako niesprawny. 27

28 6.1.3 Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji Jeżeli moment obrotowy silnika jest mniejszy bądź równy 441Nm, to autobus jest niesprawny. W przeciwnym przypadku jest sprawny. Macierz pomyłek dla tego klasyfikatora: Klasyfikator pomylił się dwa razy. Jeden raz uznał autobus niesprawny jako sprawny i jeden raz autobus sprawny jako niesprawny Drzewo decyzyjne dla atrybutu D1, dane po dyskretyzacji, wersja bez wyników najdroższych pomiarów Jeżeli moc silnika jest mniejsza bądź równa 119 KM, to autobus jest niesprawny. W przeciwnym przypadku autobus jest sprawny. Macierz pomyłek dla tego klasyfikatora: Klasyfikator pomylił się cztery razy. Dwa razy uznał autobus niesprawny jako sprawny i dwa razy autobus niesprawny jako sprawny Atrybut decyzyjny D2, dane nie poddane dyskretyzacji Jeżeli zużycie oleju jest mniejsze bądź równe 1.9 l/1000km, a prędkość maksymalna jest mniejsza bądź równa 85 km/h to autobus wymaga drobnych napraw i obserwacji. Jeżeli zużycie oleju jest mniejsze bądź równe 1.9 l/1000km, a prędkość maksymalna jest większa niż 85 km/h, to autobus jest sprawny. Jeżeli zużycie oleju jest większe niż 1.9 l/1000km, a moc silnika mniejsza bądź równa niż 119 KM, to autobus jest niesprawny. Jeżeli zużycie oleju jest większe niż 1.9 l/1000km, a moc silnika większa niż 119 KM, to autobus wymaga drobnych napraw i obserwacji. Macierz pomyłek dla tego klasyfikatora wygląda następująco: Klasyfikator pomylił się 6 razy (na 78 prób). Jeden raz sklasyfikował pojazd, który powinien być przeznaczony do drobnych napraw i obserwacji jako sprawny. Dwa autobusy sprawne i jeden niesprawny zostały sklasyfikowane jako wymagające drobnych napraw 28

29 i obserwacji. Dwa razy autobusy wymagające drobnych napraw i obserwacji zostały ocenione jako niesprawne Atrybut decyzyjny D2, dane nie poddane dyskretyzacji, wersja bez wyników najdroższych pomiarów Jeżeli zużycie oleju jest mniejsze bądź równe 1.9 l/1000km, a prędkość maksymalna jest mniejsza bądź równa 85 km/h to autobus wymaga drobnych napraw i obserwacji. Jeżeli zużycie oleju jest mniejsze bądź równe 1.9 l/1000km, a prędkość maksymalna jest większa niż 85 km/h, to autobus jest sprawny. Jeżeli zużycie oleju jest większe niż 1.9 l/1000km, a moc silnika mniejsza bądź równa niż 119 KM, to autobus jest niesprawny. Jeżeli zużycie oleju jest większe niż 1.9 l/1000km, a moc silnika większa niż 119 KM, to autobus wymaga drobnych napraw i obserwacji. Macierz pomyłek dla tego klasyfikatora wygląda następująco: Klasyfikator pomylił się 5 razy (na 78 prób). Jeden raz sklasyfikował pojazd, który powinien być przeznaczony do drobnych napraw i obserwacji jako sprawny. Jeden autobus sprawny i jeden niesprawny zostały sklasyfikowane jako wymagające drobnych napraw i obserwacji. Dwa razy autobusy wymagające drobnych napraw i obserwacji zostały ocenione jako niesprawnei Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji Jeżeli moc silnika jest mniejsza bądź równa niż 119KM, to autobus jest niesprawny. Jeżeli moc silnika jest większa niż 119KM i prędkość maksymalna jest mniejsza lub równa 74 km/h lub większa niż 85 km/h, to autobus jest sprawny. Jeżeli moc silnika jest większa niż 119KM, a prędkość maksymalna jest większa niż 74 km/h i mniejsza lub równa 85 km/h, to autobus wymaga drobnych napraw i obserwacji. Macierz pomyłek dla tego klasyfikatora wygląda następująco: Klasyfikator pomylił się 5 razy (na 78 prób). Jeden raz sklasyfikował pojazd, który powinien być przeznaczony do drobnych napraw i obserwacji jako sprawny. Jeden raz autobus sprawny został sklasyfikowany jako wymagający drobnych napraw i obserwacji. Trzy razy autobusy wymagające drobnych napraw i obserwacji zostały ocenione jako niesprawne. 29

30 6.1.8 Drzewo decyzyjne dla atrybutu D2, dane po dyskretyzacji, wersja bez wyników najdroższych pomiarów. Jeżeli moc silnika jest mniejsza bądź równa niż 119KM, to autobus jest niesprawny. Jeżeli moc silnika jest większa niż 119KM i prędkość maksymalna jest mniejsza lub równa 74 km/h lub większa niż 85 km/h, to autobus jest sprawny. Jeżeli moc silnika jest większa niż 119KM, a prędkość maksymalna jest większa niż 74 km/h i mniejsza lub równa 85 km/h, to autobus wymaga drobnych napraw i obserwacji. Macierz pomyłek dla tego klasyfikatora wygląda następująco: Klasyfikator pomylił się 5 razy (na 78 prób). Jeden raz sklasyfikował pojazd, który powinien być przeznaczony do drobnych napraw i obserwacji jako sprawny. Jeden raz autobus sprawny został sklasyfikowany jako wymagający drobnych napraw i obserwacji. Trzy razy autobusy wymagające drobnych napraw i obserwacji zostały ocenione jako niesprawne. 6.2 Punkty podziału w korzeniach drzew Algorytm drzew decyzyjnych J48 dla danych ciągłych stosował następujące punkty podziałów w korzeniach drzew: - zużycie oleju: ciśnienie sprężania: 2,39 Dyskretyzacja danych, wg wskazówek eksperta diagnostyki samochodowej, dokonana została wg następujących granic przedziałów: s1 : (-, 74>, (74, 79>, (79, 85>, (85, ) s2 : (-, 2.2>, (2.2, 2.4>, (2.4, ) s3 : (-, 59>, (59, ) s4 : (-, 441>, (441, ) s5 : (-, 22>, (22, ) s6 : (-, 25.2>, (25.2, ) s7 : (-, 1.2>, (1.2, ) s8 : (-, 119>, (119, ) Ekspert twierdził, że skrajne przedziały oznaczają pojazdy niesprawne i sprawne, zatem punkty podziału w drzewach decyzyjnych, dla danych nie zdyskretyzowanych, powinny pokrywać się z granicami tychże przedziałów. Zastanawia stosunkowo duża różnica między punktem podziału wybieranym przez drzewo, a punktem wskazanym przez eksperta, dla atrybutu zużycie oleju (pozostałe atrybuty, z pewnym marginesem, wpisują się w podział zaproponowany przez rzeczoznawcę). Wytłumaczeniem tego może być fakt, iż istnieje jakaś zależność przechodnia pomiędzy atrybutem zużycie oleju 30

31 a innymi atrybutami określającymi (wskazywałaby na to tabela współczynników korelacji Pearsona Persona punktu 4.1) powodująca, że atrybut ten uzyskuje większą zdolność podziału na czystsze klasy, jeśli brany jest pod uwagę wspólnie z innym atrybutem. Innym wytłumaczeniem jest specyfika dostępnych danych. Okazuje się, iż podział zaproponowany przez eksperta nie dzieli danych względem atrybutu decyzyjnego w sposób jednoznaczny. Histogramy wg podziału zaproponowanego przez eksperta (gdy zużycie oleju > 1.2) Wartość D1 Liczba wystąpień Wartość D2 Liczba wystąpień Histogramy wg podziału dokonanego przez algorytm (gdy zużycie oleju > 1.9) Wartość D2 Liczba wystąpień Histogramy wg podziału dokonanego przez algorytm (gdy zużycie oleju <= 1.9) Wartość D2 Liczba wystąpień Histogramy wg podziału dokonanego przez algorytm (gdy zużycie oleju > 1.9) Wartość D1 Liczba wystąpień Histogramy wg podziału dokonanego przez algorytm (gdy zużycie oleju <= 1.9) Wartość D1 Liczba wystąpień Wartość ciśnienia sprężania podana przez eksperta jako granica przedziału jest bardzo zbliżona do wartości wybranej przez algorytm budowy drzewa decyzyjnego, więc uznano, że żadne anomalie tam nie występują. 31

32 7 Literatura 1. Dokumentacja techniczna Oracle Data Miner 2. Dokumentacja techniczna Weka Notatki własne z wykładu i laboratorium 32