Sprawozdanie z zadania Modele predykcyjne (2)

Wielkość: px

Rozpocząć pokaz od strony:

Download "Sprawozdanie z zadania Modele predykcyjne (2)"

Alojzy Lipiński
7 lat temu
Przeglądów:

1 Maciej Karpus, Tomasz Skarżyński, r. Sprawozdanie z zadania Modele predykcyjne (2) 1. Wprowadzenie 1.1. Informacje wstępne Dane dotyczą wyników badań mammograficznych wykonanych na liczbie ponad stu tysięcy pacjentów. Zawierają informacje o identyfikatorach pacjentów, zdjęć, o rodzaju prześwietlenia oraz o jego rezultacie. Dane pobrano ze strony KDD: Jednym z celów przeprowadzanych analiz jest uzyskanie najwyższej skuteczności w przewidywaniu wyniku próbki na podstawie położenia grudki, sutka, badanej piersi i typu przeprowadzonego badania Przetwarzane dane Każdy wiersz zawiera dane dotyczące jednego badania. W skład każdego wiersza wchodzi: Wynik próbki (1 - pozytywny, -1 - negatywny) Informacja o tym, która pierś była prześwietlana (1 - lewa, 0 - prawa) Informacja o rodzaju prześwietlenia ([MLO] 1 - MLO, 0 - inne) Współrzędne X i Y Grudki i Sutka. oraz pomijalne przy przetwarzaniu identyfikatory zdjęć oraz pacjentów. Przed analizą próbek został ograniczony zbiór. W efekcie nowy podzbiór składał się z 1273 wierszy o zrównoważonym rozkładzie wyników próbek pozytywnych i negatywnych. Dane nominalne zostały zdyskretyzowane zgodnie z ich specyfikacją Wyniki przygotowania klasyfikatorów W poprzednim zadaniu wykorzystaliśmy klasyfikatory drzewa decyzyjnego z i bez obcinania oraz naiwny klasyfikator Bayesa. Każdy z nich miał przypisany wynik próbki jako atrybut celu. Skuteczność predykcji była różna w zależności od zastosowanego modelu. Najlepszym modelem okazał się model drzewa bez obcinania. Średni błąd tego modelu wynosił 23%. Nieco gorzej wypadło drzewo z zastosowaniem obcinania. Średni błąd drzewa z obcinaniem wynosił w przybliżeniu tyle ile maksymalny błąd drzewa bez obcinania, czyli 33%. Drzewo bez obcinania odniosło lepszy wynik przypuszczalnie z uwagi na małą liczbę kolumn oraz zbliżoną liczność wyniku próbek pozytywnych i negatywnych. W związku z czym bo obcięciu odrzucane były jak pokazują wyniki sensowne gałęzie decyzyjne. Najgorszą skuteczność miał zdecydowanie naiwny klasyfikator Bayesa. Średni błąd wynosił aż 41%, a zakres błędu wynosił od 29.4% do 53%. Maksymalny błąd tej metody określilśmy jako niezadowalający. 1

2 2. Modele predykcyjne 2.1. Utworzenie modeli w narzędziu WEKA Użyte metody, rezultaty (Jakich metod użyto do otrzymania modeli? Jakie były parametry algorytmu? Jak wygląda otrzymany model? Czy otrzymane modele różnią się od otrzymanych w poprzednim zadaniu? Jaka jest ich skuteczność predykcji?) Drzewa decyzyjne w narzędziu WEKA W każdym modelu kolumną docelową będzie PROBKA J48 z odpowiednio dobranymi wartościami parametrów confidenceerror i reducederrorpruning a) confidenceerror = 0.25, reducederrorpruning = false rys.1 Widok węzła Weka J48, zakładka Summary b) confidenceerror = 0.15, reducederrorpruning = false rys.2 Widok węzła Weka J48, zakładka Summary c) confidenceerror = 0.15, reducederrorpruning = true rys.3 Widok węzła Weka J48, zakładka Summary 2

3 rys.4 Widok węzła Weka J48, zakładka Weka Output 3

2.1.2. Budowa reguł decyzyjnych 2.1.1.2. Węzeł Prism rys.

4 Budowa reguł decyzyjnych Węzeł Prism rys.5 Widok węzła Weka Prism, zakładka Weka Output Węzeł PART 4

5 rys.6 Widok węzła Crosstab, po predykcji z użyciem węzła PART 2.2. Dobór wartości parametrów i przestrzeni atrybutów Jakie metody zastosowano? Dla których klasyfikatorów? Jaki otrzymano wynik (wartości parametrów/zredukowany zbiór atrybutów)? Czy przyniosło to poprawę oceny jakości klasyfikatora? 5

6 2.3. Klasyfikatory złożone Jakie metody zastosowano? Dla których klasyfikatorów? Czy przyniosło to poprawę oceny skuteczności predykcji? Klasyfikator J48 rys.7 Obszar roboczy węzła Cross Validation rys.8 Widok węzła Statistics 6

7 Metoda Bagging rys.9 Obszar roboczy węzła Cross Validation rys.10 Widok węzła Statistics 7

8 Metoda Boosting rys.11 Obszar roboczy węzła Cross Validation rys.12 Widok węzła Statistics 8

2.3.4. Metoda Stacking rys.13 Obszar roboczy węzła Cross Validation rys.

9 Metoda Stacking rys.13 Obszar roboczy węzła Cross Validation rys.14 Widok węzła Statistics 2.4. Inne 3. Podsumowanie Jakie wnioski wypływają z przeprowadzonych analiz. 9

Podobne dokumenty

Metody Odkrywania Wiedzy 12L Temat analityczny: Detekcja wczesnych stadiów raka piersi Dokumentacja projektu

Metody Odkrywania Wiedzy 12L Temat analityczny: Detekcja wczesnych stadiów raka piersi Dokumentacja projektu Tomasz Bawej Łukasz Trzaska 12 czerwca 2012 1 Opis zadania Niniejszy dokument dotyczy analitycznego