Maciej Karpus, 131529 Tomasz Skarżyński, 131618 19.04.2013r. Sprawozdanie z zadania Modele predykcyjne (2) 1. Wprowadzenie 1.1. Informacje wstępne Dane dotyczą wyników badań mammograficznych wykonanych na liczbie ponad stu tysięcy pacjentów. Zawierają informacje o identyfikatorach pacjentów, zdjęć, o rodzaju prześwietlenia oraz o jego rezultacie. Dane pobrano ze strony KDD: http://www.sigkdd.org/kdd-cup-2008-breast-cancer. Jednym z celów przeprowadzanych analiz jest uzyskanie najwyższej skuteczności w przewidywaniu wyniku próbki na podstawie położenia grudki, sutka, badanej piersi i typu przeprowadzonego badania. 1.2. Przetwarzane dane Każdy wiersz zawiera dane dotyczące jednego badania. W skład każdego wiersza wchodzi: Wynik próbki (1 - pozytywny, -1 - negatywny) Informacja o tym, która pierś była prześwietlana (1 - lewa, 0 - prawa) Informacja o rodzaju prześwietlenia ([MLO] 1 - MLO, 0 - inne) Współrzędne X i Y Grudki i Sutka. oraz pomijalne przy przetwarzaniu identyfikatory zdjęć oraz pacjentów. Przed analizą próbek został ograniczony zbiór. W efekcie nowy podzbiór składał się z 1273 wierszy o zrównoważonym rozkładzie wyników próbek pozytywnych i negatywnych. Dane nominalne zostały zdyskretyzowane zgodnie z ich specyfikacją. 1.3. Wyniki przygotowania klasyfikatorów W poprzednim zadaniu wykorzystaliśmy klasyfikatory drzewa decyzyjnego z i bez obcinania oraz naiwny klasyfikator Bayesa. Każdy z nich miał przypisany wynik próbki jako atrybut celu. Skuteczność predykcji była różna w zależności od zastosowanego modelu. Najlepszym modelem okazał się model drzewa bez obcinania. Średni błąd tego modelu wynosił 23%. Nieco gorzej wypadło drzewo z zastosowaniem obcinania. Średni błąd drzewa z obcinaniem wynosił w przybliżeniu tyle ile maksymalny błąd drzewa bez obcinania, czyli 33%. Drzewo bez obcinania odniosło lepszy wynik przypuszczalnie z uwagi na małą liczbę kolumn oraz zbliżoną liczność wyniku próbek pozytywnych i negatywnych. W związku z czym bo obcięciu odrzucane były jak pokazują wyniki sensowne gałęzie decyzyjne. Najgorszą skuteczność miał zdecydowanie naiwny klasyfikator Bayesa. Średni błąd wynosił aż 41%, a zakres błędu wynosił od 29.4% do 53%. Maksymalny błąd tej metody określilśmy jako niezadowalający. 1
2. Modele predykcyjne 2.1. Utworzenie modeli w narzędziu WEKA Użyte metody, rezultaty (Jakich metod użyto do otrzymania modeli? Jakie były parametry algorytmu? Jak wygląda otrzymany model? Czy otrzymane modele różnią się od otrzymanych w poprzednim zadaniu? Jaka jest ich skuteczność predykcji?) 2.1.1. Drzewa decyzyjne w narzędziu WEKA W każdym modelu kolumną docelową będzie PROBKA. 2.1.1.1. J48 z odpowiednio dobranymi wartościami parametrów confidenceerror i reducederrorpruning a) confidenceerror = 0.25, reducederrorpruning = false rys.1 Widok węzła Weka J48, zakładka Summary b) confidenceerror = 0.15, reducederrorpruning = false rys.2 Widok węzła Weka J48, zakładka Summary c) confidenceerror = 0.15, reducederrorpruning = true rys.3 Widok węzła Weka J48, zakładka Summary 2
rys.4 Widok węzła Weka J48, zakładka Weka Output 3
2.1.2. Budowa reguł decyzyjnych 2.1.1.2. Węzeł Prism rys.5 Widok węzła Weka Prism, zakładka Weka Output 2.1.1.3. Węzeł PART 4
rys.6 Widok węzła Crosstab, po predykcji z użyciem węzła PART 2.2. Dobór wartości parametrów i przestrzeni atrybutów Jakie metody zastosowano? Dla których klasyfikatorów? Jaki otrzymano wynik (wartości parametrów/zredukowany zbiór atrybutów)? Czy przyniosło to poprawę oceny jakości klasyfikatora? 5
2.3. Klasyfikatory złożone Jakie metody zastosowano? Dla których klasyfikatorów? Czy przyniosło to poprawę oceny skuteczności predykcji? 2.3.1. Klasyfikator J48 rys.7 Obszar roboczy węzła Cross Validation rys.8 Widok węzła Statistics 6
2.3.2. Metoda Bagging rys.9 Obszar roboczy węzła Cross Validation rys.10 Widok węzła Statistics 7
2.3.3. Metoda Boosting rys.11 Obszar roboczy węzła Cross Validation rys.12 Widok węzła Statistics 8
2.3.4. Metoda Stacking rys.13 Obszar roboczy węzła Cross Validation rys.14 Widok węzła Statistics 2.4. Inne 3. Podsumowanie Jakie wnioski wypływają z przeprowadzonych analiz. 9