Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Podobne dokumenty
Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Określanie ważności atrybutów. RapidMiner

Data Mining z wykorzystaniem programu Rapid Miner

Podstawy grupowania danych w programie RapidMiner Michał Bereta

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1

Wprowadzenie do programu RapidMiner, część 5 Michał Bereta

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

Zmienne zależne i niezależne

1. Zbadać liniową niezależność funkcji x, 1, x, x 2 w przestrzeni liniowej funkcji ciągłych na przedziale [ 1, ).

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Laboratorium 11. Regresja SVM.

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Text mining w programie RapidMiner Michał Bereta

Java Podstawy. Michał Bereta

Y = α 1 Z α k Z k + e. (1) (k 1)[ktrA2 (tra) 2 ] (4) d = 1 k. (por. np. Kolupa, 2006). Wówczas jak to wynika ze wzorów (2) i (3) mamy:

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

x y

Algorytm grupowania danych typu kwantyzacji wektorów

Wycena nieruchomości za pomocą wyboru wielokryterialnego w warunkach niepewności rozmytej oraz klasycznie: metodą pp i kcś

Ekonometria. Zajęcia

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Statystyka podstawowe wzory i definicje

Regresja logistyczna (LOGISTIC)

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Bioinformatyka Laboratorium, 30h. Michał Bereta

Analiza korelacji

Zestaw C-11: Organizacja plików: Oddajemy tylko źródła programów (pliki o rozszerzeniach.cpp i.h)!!! Zad. 1: Zad. 2:

Strategic planning. Jolanta Żyśko University of Physical Education in Warsaw

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

b) Umiejętność wykonania analizy zależności zmiennych i interpretacji uzyskanych wyników.

Laboratorium 4. Naiwny klasyfikator Bayesa.

Sieci neuronowe w Statistica

1. Grupowanie Algorytmy grupowania:

System wizyjny OMRON Xpectia FZx

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Badanie zależności skala nominalna

author: Andrzej Dudek

Inteligentna analiza danych

Tworzenie prostej etykiety i synchronizacja etykiet z wagą. AXIS Sp. z o.o. Kod produktu:

Bioinformatyka. Program UGENE

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Pomoc do programu Kalkulacje Budowlane NS.

Laboratorium 5. Adaptatywna sieć Bayesa.

Python wstęp. Michał Bereta

Sztuczna inteligencja : Algorytm KNN

Podstawowe informacje potrzebne do szybkiego uruchomienia e-sklepu

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Programowanie celowe #1

Zjawisko dopasowania w sytuacji komunikacyjnej. Patrycja Świeczkowska Michał Woźny

Korelacja, autokorelacja, kowariancja, trendy. Korelacja określa stopień asocjacji między zmiennymi

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Podzapytania. SELECT atrybut_1, atrybut_2,... FROM relacja WHERE atrybut_n operator (SELECT atrybut_1, FROM relacja WHERE warunek

Klasyfikacja i regresja Wstęp do środowiska Weka

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Agnieszka Nowak Brzezińska Wykład III

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Recenzja rozprawy doktorskiej mgr Łukasza Gadomera pt. Rozmyte lasy losowe oparte na modelach klastrowych drzew decyzyjnych w zadaniach klasyfikacji

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Wprowadzenie do analizy korelacji i regresji

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Ekonometria, lista zadań nr 6 Zadanie 5 H X 1, X 2, X 3

... (środowisko) minut

Raport Testy Trenerskie. Kadr Makroregionalnych Polskiego Związku Podnoszenia Ciężarów

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Ćwiczenie 12. Metody eksploracji danych

Czas pracy: 60 minut

Wprowadzenie do programu RapidMiner Studio 7.6, część 9 Modele liniowe Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Przypomnienie: Ćwiczenie 1.

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Tworzenie prostej etykiety i synchronizacja etykiet z wagą. AXIS Sp. z o.o. Kod produktu:

Bazy danych TERMINOLOGIA

KORELACJE I REGRESJA LINIOWA

1: 2: 3: 4: 5: 6: 7: 8: 9: 10:

Podstawowe definicje statystyczne

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Przygotowanie materiału uczącego dla OCR w oparciu o aplikację Wycinanki.

Wprowadzenie do programu RapidMiner, częśd 1 Michał Bereta Program RapidMiner (RM) ma trzy główne widoki (perspektywy):

opisuje nazwy kolumn, wyrażenia arytmetyczne, funkcje nazwy tabel lub widoków warunek (wybieranie wierszy)

Wartośd aktywów w analizie ryzyka bezpieczeostwa informacji

Techniki grupowania danych w środowisku Matlab

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Transkrypt:

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta www.michalbereta.pl 1. Wybór atrybutów (ang. attribute selection, feature selection). Jedną z podstawowych metod analizy współoddziaływania / zależności atrybutów jest analiza korelacji. Możemy sprawdzid czy atrybuty nie niosą w pewnym sensie podobnej informacji. Współczynnik korelacji między atrybutem x oraz y można wyliczyd ze wzoru gdzie s x oraz s y to odchylenia standardowe, n to liczba przykładów. Powyższy współczynnik to współczynnik Pearsona i przyjmuje wartości z przedziału *-1, 1+. Duże bezwzględne wartości tego współczynnika wskazują na dużą korelację (dodatnią lub ujemną) x i y. Takie atrybuty często są nadmiarowe. Wykorzystaj operator Correlation Matrix i bazę danych Indian Pima. W wyniku otrzymamy macierz korelacji, gdzie możemy sprawdzid korelację pomiędzy dowolną parą atrybutów. 1

Wartości te mogą służyd do określenia wartości wag atrybutów (większa wartośd wagi oznacza większe znaczenie atrybutu). Sprawdź, że jeśli w opcjach operatora CorrelationMatrix nie jest zaznaczone normalize weights to wagi te nie są tak wyraźnie oceniające atrybuty. Wagi atrybutów mogą posłużyd do decyzji, które z nich odrzucid, np. wykorzystując operator Select by Weights by wybrad tylko te atrybuty, które mają wagę większą niż np. 0.5. 2

Wynik: z oryginalnego zestawu ośmiu atrybutów pozostały jedynie trzy atrybuty (att9 jest tu etykietą klasy): 3

Zadanie: Jak sprawdzid korelację każdego z atrybutów z etykietą klasy? a.) W przypadku dwóch klas należy zakodowad etykiety klas numerycznie, np. jako 0 i 1 b.) W przypadku liczby klas większej niż dwa, procedura ta nie jest wskazana (dlaczego?). c.) Czy atrybuty, które są w tym przykładzie najbardziej skorelowane z etykietą klasy (att9) są tymi samymi, które zostały najlepiej ocenione (otrzymały najwyższe wagi) w poprzednim przykładzie? (Dlaczego?) Wynik (pamiętaj, że istotna jest bezwzględna wartośd): Uwaga: operator Weight by Correlation umożliwia oszacowanie wag dla atrybutów na podstawie ich korelacji z etykietą klasy. Wypróbuj go i porównaj z wynikami z powyższej tabli. Z dokumentacji: This operator calculates the relevance of the attributes by computing the value of correlation for each attribute of the input ExampleSet with respect to the label attribute. This weighting scheme is based upon correlation and it returns the absolute or squared value of correlation as attribute weight. 4

Zadanie: Porównaj działanie Select by Weights z Correlation Matrix z poprzedniego przykładu z operatorem Remove Correlated Attributes : Zwród uwagę na znaczenie wartości 0.5 oraz 0.3 w poniższych ustawieniach: 5

Przykładowy wynik: Select by Weights z Correlation Matrix : Remove Correlated Attributes : Powyższą tabelkę porównaj z Correlation Matrix : 6

Zadanie: Zbadaj korzyści płynące z wykorzystania powyższych metod analizy istotności atrybutów a problemie klasyfikacji szkła. Dodatkowo zastosuj operator Weight by Relief oraz jeden dodatkowy z zestawu dostępnego w RM. Zwród uwagę, że nie wszystkie nadają się do problemów klasyfikacji z wieloma klasami. 7

2. Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora. Przy ocenie wartości atrybutu kierowad można się empiryczną oceną jakości działania konkretnego klasyfikatora, który wykorzystuje dany atrybut, a raczej cały zestaw atrybutów. Istnieją dwa główne podejścia: a.) Forward selection - dodawaj kolejne atrybuty jeśli ich dodanie poprawia działanie klasyfikatora danego typu b.) Backward elimination - usuwaj po kolei kolejne atrybuty, i akceptuj usunięcie, jeśli wytrenowany na pozostających atrybutach klasyfikator danego typu poprawia się / nie pogarsza swojego działania Porównaj działanie tych dwóch operatorów czy jest duża różnica w ostatecznym wyborze? : Dla ForwardSelection : 8

Dla Backward Elimination : Przykładowe wybrane atrybuty: Dla ForwardSelection : 9

Dla Backward Elimination : 10