Sprawozdanie z zadania Modele predykcyjne (2)

Podobne dokumenty
Metody Odkrywania Wiedzy 12L Temat analityczny: Detekcja wczesnych stadiów raka piersi Dokumentacja projektu

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Elementy modelowania matematycznego

ALGORYTM RANDOM FOREST

Algorytmy klasyfikacji

Drzewa decyzyjne i lasy losowe

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Wprowadzenie do klasyfikacji

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Metody probabilistyczne klasyfikatory bayesowskie

Agnieszka Nowak Brzezińska Wykład III

Część 2: Data Mining

Data Mining Wykład 4. Plan wykładu

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Metody klasyfikacji danych - część 1 p.1/24

Wpływ nowej normy oświetleniowej EN 13201: 2015 na istniejące instalacje oświetleniowe projektów zgodnie z normą PN - EN 13201:2007

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Systemy uczące się wykład 2

Prawdopodobieństwo czerwonych = = 0.33

WYKŁAD 6. Reguły decyzyjne

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Wprowadzenie do uczenia maszynowego

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Indukowane Reguły Decyzyjne I. Wykład 3

ALGORYTMY SZTUCZNEJ INTELIGENCJI

9. Praktyczna ocena jakości klasyfikacji

Data Mining podstawy analizy danych Część druga

Algorytmy klasyfikacji

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Testowanie modeli predykcyjnych

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

ANALIZA PORÓWNAWCZA JAKOŚCI MODELI PROGNOZOWANIA KONDYCJI EKONOMICZNO- FINANSOWEJ PRZEDSIĘBIORSTW WOJ. LUBELSKIEGO I PODKARPACKIEGO

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

MODELE SIECIOWE 1. Drzewo rozpinające 2. Najkrótsza droga 3. Zagadnienie maksymalnego przepływu źródłem ujściem

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Ćwiczenie 12. Metody eksploracji danych

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Metody eksploracji danych Laboratorium 2. Weka + Python + regresja

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Sztuczna inteligencja i inżynieria wiedzy. laboratorium

Mail: Pokój 214, II piętro

IX EKSPLORACJA DANYCH

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

POLITECHNIKA OPOLSKA




Analiza danych. TEMATYKA PRZEDMIOTU

Laboratorium 11. Regresja SVM.

Optymalizacja poleceń SQL Statystyki

Klasyfikacja i regresja Wstęp do środowiska Weka

A Zadanie

Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9.

Laboratorium 4. Naiwny klasyfikator Bayesa.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Agnieszka Nowak Brzezińska Wykład III

Laboratorium 5. Adaptatywna sieć Bayesa.

Data Mining z wykorzystaniem programu Rapid Miner

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

POLITECHNIKA OPOLSKA

Baza danych dla potrzeb zgłębiania DMX

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

Dynamiczne i wydajne tworzenie interfejsu. Piotr Michałkiewicz

Przykładowy dokument XML

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Sztuczna inteligencja : Algorytm KNN

Wybrane zadania przygotowujące do egzaminu z ISO- cz. 2. dr Piotr Wąsiewicz

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Text mining w programie RapidMiner Michał Bereta

2. Ocena dokładności modelu klasyfikacji:

NAPRĘŻENIA ŚCISKAJĄCE PRZY 10% ODKSZTAŁCENIU WZGLĘDNYM PRÓBEK NORMOWYCH POBRANYCH Z PŁYT EPS O RÓŻNEJ GRUBOŚCI

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych. Podstawowe pojęcia

Drzewa decyzyjne. Jak klasyfikować obiekty o cechach nominalnych (opisowych), tj. pochodzących ze skończonego zbioru, bez uporządkowania?

Co to są drzewa decyzji

Odciski palców ekstrakcja cech

Wykład XII. optymalizacja w relacyjnych bazach danych

Metody Eksploracji Danych. Klasyfikacja

Wstęp do programowania. Drzewa podstawowe techniki. Piotr Chrząstowski-Wachtel

Analizator wydajności AMD CodeAnalyst

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Problem rozpoznawania wzorców dla zagadnień słabo zrównoważonych. mgr inż. Wojciech Lesiński

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 1. Wojciech Waloszek. Teresa Zawadzka.

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Przykładowa analiza danych

Grafem nazywamy strukturę G = (V, E): V zbiór węzłów lub wierzchołków, Grafy dzielimy na grafy skierowane i nieskierowane:

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.

Transkrypt:

Maciej Karpus, 131529 Tomasz Skarżyński, 131618 19.04.2013r. Sprawozdanie z zadania Modele predykcyjne (2) 1. Wprowadzenie 1.1. Informacje wstępne Dane dotyczą wyników badań mammograficznych wykonanych na liczbie ponad stu tysięcy pacjentów. Zawierają informacje o identyfikatorach pacjentów, zdjęć, o rodzaju prześwietlenia oraz o jego rezultacie. Dane pobrano ze strony KDD: http://www.sigkdd.org/kdd-cup-2008-breast-cancer. Jednym z celów przeprowadzanych analiz jest uzyskanie najwyższej skuteczności w przewidywaniu wyniku próbki na podstawie położenia grudki, sutka, badanej piersi i typu przeprowadzonego badania. 1.2. Przetwarzane dane Każdy wiersz zawiera dane dotyczące jednego badania. W skład każdego wiersza wchodzi: Wynik próbki (1 - pozytywny, -1 - negatywny) Informacja o tym, która pierś była prześwietlana (1 - lewa, 0 - prawa) Informacja o rodzaju prześwietlenia ([MLO] 1 - MLO, 0 - inne) Współrzędne X i Y Grudki i Sutka. oraz pomijalne przy przetwarzaniu identyfikatory zdjęć oraz pacjentów. Przed analizą próbek został ograniczony zbiór. W efekcie nowy podzbiór składał się z 1273 wierszy o zrównoważonym rozkładzie wyników próbek pozytywnych i negatywnych. Dane nominalne zostały zdyskretyzowane zgodnie z ich specyfikacją. 1.3. Wyniki przygotowania klasyfikatorów W poprzednim zadaniu wykorzystaliśmy klasyfikatory drzewa decyzyjnego z i bez obcinania oraz naiwny klasyfikator Bayesa. Każdy z nich miał przypisany wynik próbki jako atrybut celu. Skuteczność predykcji była różna w zależności od zastosowanego modelu. Najlepszym modelem okazał się model drzewa bez obcinania. Średni błąd tego modelu wynosił 23%. Nieco gorzej wypadło drzewo z zastosowaniem obcinania. Średni błąd drzewa z obcinaniem wynosił w przybliżeniu tyle ile maksymalny błąd drzewa bez obcinania, czyli 33%. Drzewo bez obcinania odniosło lepszy wynik przypuszczalnie z uwagi na małą liczbę kolumn oraz zbliżoną liczność wyniku próbek pozytywnych i negatywnych. W związku z czym bo obcięciu odrzucane były jak pokazują wyniki sensowne gałęzie decyzyjne. Najgorszą skuteczność miał zdecydowanie naiwny klasyfikator Bayesa. Średni błąd wynosił aż 41%, a zakres błędu wynosił od 29.4% do 53%. Maksymalny błąd tej metody określilśmy jako niezadowalający. 1

2. Modele predykcyjne 2.1. Utworzenie modeli w narzędziu WEKA Użyte metody, rezultaty (Jakich metod użyto do otrzymania modeli? Jakie były parametry algorytmu? Jak wygląda otrzymany model? Czy otrzymane modele różnią się od otrzymanych w poprzednim zadaniu? Jaka jest ich skuteczność predykcji?) 2.1.1. Drzewa decyzyjne w narzędziu WEKA W każdym modelu kolumną docelową będzie PROBKA. 2.1.1.1. J48 z odpowiednio dobranymi wartościami parametrów confidenceerror i reducederrorpruning a) confidenceerror = 0.25, reducederrorpruning = false rys.1 Widok węzła Weka J48, zakładka Summary b) confidenceerror = 0.15, reducederrorpruning = false rys.2 Widok węzła Weka J48, zakładka Summary c) confidenceerror = 0.15, reducederrorpruning = true rys.3 Widok węzła Weka J48, zakładka Summary 2

rys.4 Widok węzła Weka J48, zakładka Weka Output 3

2.1.2. Budowa reguł decyzyjnych 2.1.1.2. Węzeł Prism rys.5 Widok węzła Weka Prism, zakładka Weka Output 2.1.1.3. Węzeł PART 4

rys.6 Widok węzła Crosstab, po predykcji z użyciem węzła PART 2.2. Dobór wartości parametrów i przestrzeni atrybutów Jakie metody zastosowano? Dla których klasyfikatorów? Jaki otrzymano wynik (wartości parametrów/zredukowany zbiór atrybutów)? Czy przyniosło to poprawę oceny jakości klasyfikatora? 5

2.3. Klasyfikatory złożone Jakie metody zastosowano? Dla których klasyfikatorów? Czy przyniosło to poprawę oceny skuteczności predykcji? 2.3.1. Klasyfikator J48 rys.7 Obszar roboczy węzła Cross Validation rys.8 Widok węzła Statistics 6

2.3.2. Metoda Bagging rys.9 Obszar roboczy węzła Cross Validation rys.10 Widok węzła Statistics 7

2.3.3. Metoda Boosting rys.11 Obszar roboczy węzła Cross Validation rys.12 Widok węzła Statistics 8

2.3.4. Metoda Stacking rys.13 Obszar roboczy węzła Cross Validation rys.14 Widok węzła Statistics 2.4. Inne 3. Podsumowanie Jakie wnioski wypływają z przeprowadzonych analiz. 9