Określanie ważności atrybutów. RapidMiner

Podobne dokumenty
Odkrywanie reguł asocjacyjnych. Rapid Miner

Wprowadzenie do klasyfikacji

Eksploracja Danych. podstawy

Agnieszka Nowak Brzezińska

PDF created with FinePrint pdffactory Pro trial version

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Rozkłady dwóch zmiennych losowych

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Agnieszka Nowak Brzezińska Wykład III

dr hab. Renata Karkowska 1

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Prawdopodobieństwo i statystyka

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Komputerowa analiza danych doświadczalnych

Komputerowa Analiza Danych Doświadczalnych

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Inteligentna analiza danych

Statystyka i eksploracja danych

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

STATYSTYKA MATEMATYCZNA

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Ważne rozkłady i twierdzenia c.d.

Sztuczna inteligencja : Algorytm KNN

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

Analiza korelacji

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

TEMP BÓL WYSYPKA GARDŁO DIAGNOZA

3. Optymalizacja portfela inwestycyjnego Model Markowitza Model jednowskaźnikowy Sharpe a Model wyceny aktywów kapitałowych CAPM

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Rzetelność ma dwa aspekty: konsystencja (precyzja pomiaru) stabilność pomiaru (powtarzalność wyników)

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

I jest narzędziem służącym do porównywania rozproszenia dwóch zmiennych. Używamy go tylko, gdy pomiędzy zmiennymi istnieje logiczny związek

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Analiza składowych głównych. Wprowadzenie

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Algorytmy klasyfikacji

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

STATYSTYKA MATEMATYCZNA

KORELACJE I REGRESJA LINIOWA

Określanie ważności atrybutów. OracleData Miner

Drzewa klasyfikacyjne algorytm podstawowy

Oszacowanie i rozkład t

Mail: Pokój 214, II piętro

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Statystyczna analiza danych

Laboratorium 4. Naiwny klasyfikator Bayesa.

L.Kowalski zadania z rachunku prawdopodobieństwa-zestaw 4 ZADANIA - ZESTAW 4

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Spis treści 3 SPIS TREŚCI

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

METODY STATYSTYCZNE W BIOLOGII

Laboratorium 11. Regresja SVM.

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM. Procedura szacowania niepewności

Metodologia badań psychologicznych. Wykład 12. Korelacje

Wnioskowanie statystyczne. Statystyka w 5

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Komputerowa analiza danych doświadczalnych. Wykład dr inż. Łukasz Graczykowski

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Excel i VBA w analizach i modelowaniu finansowym Pomiar ryzyka. Pomiar ryzyka

Szacowanie wartości hodowlanej. Zarządzanie populacjami

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

MODELE LINIOWE. Dr Wioleta Drobik

PRZEWODNIK PO PRZEDMIOCIE

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

ZAŁĄCZNIK NR 3 RAPORT (QA/QC) Z OCENY JAKOŚCI OBLICZEŃ ROZPRZESTRZENIANIA SIĘ ZANIECZYSZCZEŃ ZA ROK 2015

Analiza współzależności zjawisk

Elementy statystyki wielowymiarowej

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Procedura szacowania niepewności

Zawansowane modele wyborów dyskretnych

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

Elementy modelowania matematycznego

Transkrypt:

Określanie ważności atrybutów RapidMiner

Klasyfikacja (1/2) TEMP BÓL WYSYPKA GARDŁO DIAGNOZA 36.6 T BRAK NORMA NIESTRAWNOŚĆ 37.5 N MAŁA PRZEKR. ALERGIA 36.0 N BRAK NORMA PRZECHŁODZENIE 39.5 T DUŻA PRZEKR. CZARNA OSPA Klasyfikator TEMP BÓL WYSYPKA GARDŁO 38.0 N BRAK NORMA DIAGNOZA ALERGIA Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 63/633

gardlo = przekrwione temp > 37 ból = N 5 4 3 2 1? Klasyfikacja (2/2) P(BÓL ALERGIA)=0,3 P(TEMP>37 ANGINA)=0,5 angina przechlodzenie 0 1 3 5 TEMP>37 BÓL=N WYSYPKA>MAŁA NIESTRAWNOŚĆ PRZECHŁODZENIE ALERGIA CZARNA OSPA Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 64/633

Wariancja i odchylenie standardowe Miara zmienności zmiennej losowej var X Można estymować wariancję z próby losowej za pomocą wzoru:, gdzie Odchylenie standardowe wyliczane jest jako pierwiastek wariancji. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 65/633

Kowariancja Miara określająca zależność liniową zmiennej losowej cov X,Y Można estymować wariancję z próby losowej za pomocą wzoru:,, gdzie (y i analogicznie). Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 66/633

Współczynnik korelacji Pearsona (1) Kowariancja może przyjąć dowolne wartości. Trudność w analizie. Współczynnik korelacji Pearsona, to kowariancja znormalizowana do przedziału [- 1,1] ρ, r, Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 67/633

Współczynnik korelacji Pearsona (2) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 68/633

DatasetSonar 60 atrybutów + 1 atrybut decyzyjny 208 pomiarów Każdy z 60 atrybutów to ilość energii odpowiadającej określonej częstotliwości dźwięku zebranej podczas pomiaru w jakimś okresie czasu. Atrybut decyzyjny ma dwie wartości: rock, mine Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 69/633

Usuwanie atrybutów skorelowanych Data transformation\attributeset reductionand transformation\selection Wartość graniczna współczynnika Pearsona Czy ignorujemy znak przed wartością współczynnika Pearsona Usuwamy atrybuty o korelacji większej czy mniejszej of wartości granicznej Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 70/633

Zadanie Zbuduj przepływ: Źródło danych: sonar Usuń atrybuty o współczynniku korelacji >0.6 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 71/633

Usuwanie atrybutów o małej zmienności Data transformation\attributeset reductionand transformation\selection Usuń atrybuty numeryczne, których odchylenie standardowe jest mniejsze niż ta wartość Usuń atrybuty nominalne, których najczęściej występująca wartość występuje w więcej niż zadanym procencie rekordów Usuń atrybuty nominalne, których najczęściej występująca wartość występuje w mniej niż zadanym procencie rekordów Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 72/633

Zadanie Zbuduj przepływ: Źródło danych: sonar Usuń atrybuty o odchyleniu standardowym mniejszym niż 0.2 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 73/633

Miara Relief (1) Miara Relief to wynik działania algorytmu wyznaczającego relatywną ważność atrybutów. Miara relief ocenia jak dobrze poszczególne atrybuty nadają się do przewidywania wartości jednego wybranego atrybutu binarnego, tzw. atrybutu decyzyjnego. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 74/633

Miara Relief (2) 5 4 Na początku: w x =0 w y =0 Y 3 Dla każdego punktu w x =w x -b x2 +a x 2 w y =w y -b y2 +a y 2 2 1 b y a y Na końcu w x =w x /n w y =w y /n 0 b x a x 1 2 3 4 5 X (n to liczba punktów) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 75/633

Weightby Relief Posortuj obliczone wagi Ile sąsiadów brać pod uwagę dla każdego obiektu Pozostaw atrybuty o wagach które są Próg Jaki procent obiektów brać pod uwagę Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 76/633

One rulemodel (OneR) Bardzo prosty mechanizm klasyfikacji Tworzy 1-dno poziomowe drzewo decyzyjne. A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F T X F A 1 3 1 2 0 1 A 1 2 T 3 (1) F 1 (0) X T F 5 2 1 B 7 1 1 B 5 7 T 2(1) F 1(1) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 77/633

Ocena atrybutu za pomocą OneR Usuń oceniany atrybut z tabeli danych. Zbuduj model OneRi policz liczbę błędów Liczba błędów to waga atrybutu. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 78/633

Weightby Rule Posortuj obliczone wagi Normalizuj wagi do przedziału 0-1 Pozostaw atrybuty o wagach które są Próg Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 79/633

Zadanie 1 Zbuduj przepływ: Źródło danych: sonar Ocena atrybutów: miara relief Liczba sąsiadów 10, Sample ratio: 1.0 (wykorzystaj wszystkie przykłady) Zachowaj atrybuty o wadze większej niż 0.5 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 80/633

Zadanie 2 Zmodyfikuj liczbę sąsiadów na: 1 5 15 i zobacz jak wpływa to na wyniki (wagi i liczbę pozostawionych atrybutów) Zmodyfikuj próg akceptacji na: 0.3 0.5 0.7 izobacz jak to wpływa na wyniki (liczbę pozostawionych atrybutów) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 81/633

Zadanie 3 Zbuduj przepływ: Źródło danych: sonar Ocena atrybutów: miara rule Obejrzyj wynikowe wagi Zachowaj atrybuty o wadze większej niż: 0.5 0.7 0.9 0.98 Zobacz jak wpływa to na liczbę pozostawionych atrybutów Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 82/633