SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Podobne dokumenty
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Analiza składowych głównych. Wprowadzenie

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Analiza składowych głównych

10. Redukcja wymiaru - metoda PCA

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SZTUCZNA INTELIGENCJA

Zmienne zależne i niezależne

Stosowana Analiza Regresji

TRANSFORMACJE I JAKOŚĆ DANYCH

KLASYFIKACJA. Słownik języka polskiego

Elementy statystyki wielowymiarowej

Metody selekcji cech

Prawdopodobieństwo i statystyka

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Statystyka i eksploracja danych

Metody klasyfikacji danych - część 1 p.1/24

Algorytmy klasyfikacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Analiza korespondencji

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

SZTUCZNA INTELIGENCJA

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych

Analiza danych. TEMATYKA PRZEDMIOTU

Analiza składowych głównych idea

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

METODY INŻYNIERII WIEDZY

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

ALGORYTMY EWOLUCYJNE W OPTYMALIZACJI JEDNOKRYTERIALNEJ

3. Macierze i Układy Równań Liniowych

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

METODA SYMPLEKS. Maciej Patan. Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

ANALIZA CZYNNIKOWA Przykład 1

Systemy uczące się wykład 1

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Statystyka SYLABUS A. Informacje ogólne

PDF created with FinePrint pdffactory Pro trial version

Rozdział 1 PROGRAMOWANIE LINIOWE

Systemy uczące się Lab 4

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Rozkłady wielu zmiennych

Modelowanie glikemii w procesie insulinoterapii

Optymalizacja ciągła

Programowanie liniowe

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

SZTUCZNA INTELIGENCJA

Określanie ważności atrybutów. RapidMiner

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Badania asocjacyjne w skali genomu (GWAS)

Elementy modelowania matematycznego

Systemy uczące się wykład 2

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

Analiza kanoniczna w pigułce

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Sterowanie napędów maszyn i robotów

Metoda największej wiarygodności

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

R n = {(x 1, x 2,..., x n ): x i R, i {1,2,...,n} },

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Automatyczne wyodrębnianie reguł

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Recenzja rozprawy doktorskiej mgr inż. Szymona Lechwara

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach

Rozdział 1 PROGRAMOWANIE LINIOWE

Pattern Classification

Co to jest grupowanie

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

MODELE LINIOWE. Dr Wioleta Drobik

Rozkłady dwóch zmiennych losowych

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Rozpoznawanie twarzy za pomocą sieci neuronowych

Procesy stochastyczne

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Transkrypt:

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia pojęć są funkcjami zależnymi od wartości atrybutów. Przekształcenia atrybutów mają na celu poprawienie jakości hipotez uzyskiwanych przez algorytmy indukcyjnego uczenia się. Na skutek przekształcenia atrybutów uczeń nie zyskuje żadnej nowej informacji o przykładach (część informacji może nawet stracić), lecz może lepiej reprezentować wiedzę. Ten sam algorytm uczenia się, działając na przekształconych atrybutach może tworzyć dokładniejsze i mniej złożone hipotezy. Metody przekształcania atrybutów: przeskalowanie, standaryzacja, normalizacja dyskretyzacja atrybutów selekcja atrybutów (usuwanie) dodawanie atrybutów (jako funkcji atrybutów oryginalnych * ) ekstrakcja atrybutów * patrz rozszerzona reprezentacja wykład 6. 2

SKALOWANIE, STANDARYZACJA Przeskalowanie atrybutu do zadanego przedziału: x xmin x ' = ( b a) + a x x max min gdzie: [a, b] nowy przedział atrybutu (np. [ 1, 1], [0, 1]), [x min, x max ] stary przedział atrybutu. Np. jeśli x = 736, przedział zmienności x: [12, 980], nowy przedział: [0, 1], to x' = 0,716 Standaryzacja atrybutu: x' = x x σ x gdzie: x wartość średnia atrybutu x, σ x odchylenie standardowe atrybutu x. Np. jeśli x = 736, x = 486, σ x = 58, to x' = 4,31 Po standaryzacji wartość średnia atrybutu wynosi 0, a jego odchylenie standardowe wynosi 1. 3

NORMALIZACJA Normalizacja przykładu x (wektora): x ' = x n 2 x i i= 1 Po normalizacji długość wektora jest równa 1. Np. x = [ 4, 2, 1, 12] po normalizacji: x'= [ 0.3114, 0.1557, 0.0778, 0.9342] Inny sposób normalizacji: x ' = n i= 1 x x ( x i w x w ) 2 gdzie: x w wartość średnia składowych wektora. Po normalizacji długość wektora jest równa 1, jego średnia wynosi zero, a odchylenia standardowe wszystkich unormowanych wektorów są jednakowe. Np. x = [ 4, 2, 1, 12] po normalizacji: x'= [ 0.0677, 0.4739, 0.3836 0.7898] 4

DYSKRETYZACJA ATRYBUTÓW Dyskretyzacja atrybutów ciągłych polega na zastąpieniu każdego z nich atrybutem o wartościach dyskretnych, odpowiadających pewnym przedziałom ciągłych wartości oryginalnego atrybutu. Dyskretyzacja atrybutów ciągłych pozwala zastosować algorytm przystosowany do atrybutów dyskretnych (np. algorytm uczenia się reguł) lub uprościć algorytm działający na atrybutach ciągłych (np. drzewo decyzyjne). Odpowiednikiem dyskretyzacji dla atrybutów porządkowych jest ich agregacja. Agregacja atrybutu porządkowego polega na jego zastąpieniu innym atrybutem porządkowym o mniejszej liczbie wartości. 5

DYSKRETYZACJA ATRYBUTÓW Korzyści z dyskretyzacji: 6

DYSKRETYZACJA ATRYBUTÓW Podziały metod dyskretyzacji: metody prymitywne i zaawansowane (nieuwzględniające/uwzględniające rozkład wartości atrybutów i klas) metody globalne i lokalne (dyskretyzacja jednakowa w całej dziedzinie/dyskretyzacja różna w różnych obszarach dziedziny) metody bez nadzoru i z nadzorem (etykiety klas przykładów są nieznane lub nieuwzględniane podczas dyskretyzacji/etykiety klas są znane i uwzględniane podczas dyskretyzacji) 7

DYSKRETYZACJA ATRYBUTÓW Prymitywne metody dyskretyzacji: dyskretyzacja według równej szerokości (równe długości przedziałów, każdemu przedziałowi przypisywana jest jedna wartość dyskretna) dyskretyzacja według równej częstości (jednakowa lub zbliżona liczba przykładów w każdym przedziale) 8

SELEKCJA ATRYBUTÓW Celem selekcji atrybutów (selekcji cech, feature selection) jest wybranie atrybutów, które zapewniają najlepszą jakość hipotezy. Atrybuty nieistotne, nadmiarowe, nieskorelowane z etykietami przykładów są usuwane. Zysk z selekcji atrybutów: uproszczenie hipotezy poprawa dokładności poprawa generalizacji redukcja czasu uczenia redukcja złożoności pamięciowej umożliwienie wizualizacji, gdy liczba atrybutów po selekcji jest nie większa od 3 9

SELEKCJA ATRYBUTÓW Metody selekcji atrybutów: filtracyjne atrybuty do usunięcia określa się na podstawie analizy danych zawartych w zbiorze trenującym (usuniecie atrybutów nieskorelowanych z klasą/wartością docelowa funkcji, usunięcie atrybutów silnie skorelowanych z innymi atrybutami) typu wrapper atrybuty do usunięcia określa się na podstawie analizy generowanych przez ucznia hipotez (tworzymy hipotezy dla różnych podzbiorów atrybutów i wyznaczamy ich dokładności. Podzbiór atrybutów, który zapewnia największą dokładność hipotezy uznajemy za optymalny. Podzbiory atrybutów możemy generować w pewien systematyczny sposób (podejście deterministyczne ) lub wykorzystując stochastyczne metody przeszukiwania typu frapper połączenie dwóch powyższych wbudowane stanowiące element modelu, np. drzewa decyzyjne, indukcja reguł patrz krokowe dodawanie i eliminacja atrybutów w regresji krokowej wykład 6. 10

EKSTRAKCJA ATRYBUTÓW Ekstrakcja atrybutów wyznaczenie nowych atrybutów, które są funkcjami atrybutów oryginalnych. Ekstrakcja atrybutów podobnie jak selekcja atrybutów pozwala zmniejszyć wymiarowość problemu (liczba nowych atrybutów zwykle jest mniejsza niż liczba atrybutów oryginalnych). Często okazuje się, że mniejsza liczba nowych atrybutów zawiera nieomal tyle samo informacji o strukturze danych, co atrybuty oryginalne. Najpopularniejszą metodą ekstrakcji atrybutów jest analiza głównych składowych (principal component analysis PCA). PCA na podstawie wektorów oryginalnych x tworzy nowe wektory x' o składowych wzajemnie nieskorelowanych (tzw. składowe główne). Składowe główne wyjaśniają w maksymalnym stopniu całkowitą wariancję składowych oryginalnych. Składowe wektora x' są liniowymi kombinacjami składowych wektora x (zakłada się, że wektory x mają zerową średnią, jeśli to nie jest spełnione, wektory x należy przekształcić, odejmując od każdej składowej wartość średnią wektora): 11

EKSTRAKCJA ATRYBUTÓW n = l= 1 x' i, j a j, l xi, l = a T j xi, j = 1,2,..., n gdzie wektor współczynników a j jest wektorem charakterystycznym odpowiadającym kolejnym największym wartościom własnym macierzy kowariancji z próby x 1, x 2,.., x N. Składowe główne są unormowane i wzajemnie ortogonalne, tj. a T = 1 i a T = 0 dla wszystkich j k. j a j Pierwsza główna składowa x' i,1 wykazuje największą wariancję, kolejne główne składowe mają wariancje coraz mniejsze. Ponieważ najwięcej informacji przenoszą początkowe składowe, końcowe składowe o najmniejszych wariancjach (często nieprzekraczających szumu pomiarowego) można odrzucić. j a k 12

ANALIZA GŁÓWNYCH SKŁADOWYCH PRZYKŁAD Wyznacz główne składowe zbioru danych Ionosphere (351 przykładów, 34 atrybuty, dwie klasy: g i b). Przedstaw dwie pierwsze składowe na wykresie. Przedstaw wariancje wyjaśniane przez kolejne składowe. Druga główna składowa 4 3 2 1 0-1 -2-3 g b Wyjaśniona wariancja (%) 90 80 70 60 50 40 30 20 10 90% 80% 70% 60% 50% 40% 30% 20% 10% -4-4 -2 0 2 Pierwsza główna składowa 0 1 2 3 4 5 6 7 8 9 10 Numer głównej składowej 0% patrz ćwiczenie lab. pt.: Klasyfikacja danych za pomocą drzew decyzyjnych 13