TRANSFORMACJE I JAKOŚĆ DANYCH

Podobne dokumenty
WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

SZTUCZNA INTELIGENCJA

METODY INŻYNIERII WIEDZY

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Adrian Horzyk

Analiza głównych składowych- redukcja wymiaru, wykł. 12

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

METODY INŻYNIERII WIEDZY

BAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

METODY INŻYNIERII WIEDZY

Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

BAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

10. Redukcja wymiaru - metoda PCA

Analiza składowych głównych

Analiza składowych głównych. Wprowadzenie

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

STATYSTYKA MATEMATYCZNA

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Elementy statystyki wielowymiarowej

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Stosowana Analiza Regresji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Statystyczna analiza danych

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

BAZY DANYCH. Microsoft Access NAWIGACJA, MENU I PARAMETRY WYSZUKIWANIA. Adrian Horzyk. Akademia Górniczo-Hutnicza

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

BAZY DANYCH MAKRA I PRZYCISKI. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

KORELACJE I REGRESJA LINIOWA

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Rozkłady wielu zmiennych

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

(x j x)(y j ȳ) r xy =

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Korelacja krzywoliniowa i współzależność cech niemierzalnych

BAZY DANYCH. NIERELACYJNE BAZY DANYCH NoSQL I ASOCJACYJNE STRUKTURY DANYCH. Adrian Horzyk. Akademia Górniczo-Hutnicza

WIEDZA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

ANALIZA CZYNNIKOWA Przykład 1

1 Podstawy rachunku prawdopodobieństwa

Szeregi czasowe, analiza zależności krótkoi długozasięgowych

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Metoda największej wiarygodności

Agnieszka Nowak Brzezińska

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Eksploracja danych - wykład II

Testy nieparametryczne

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Biostatystyka, # 3 /Weterynaria I/

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Rozkłady statystyk z próby

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

CELE ANALIZY CZYNNIKOWEJ

Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

Zwiększenie wartości zmiennej losowej o wartość stałą: Y=X+a EY=EX+a D 2 Y=D 2 X

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Sztuczna inteligencja : Zbiory rozmyte cz. 2

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Eksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe.

Układy stochastyczne

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Ważne rozkłady i twierdzenia

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Laboratorium nr 1. i 2.

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Inteligentna analiza danych

Analiza Statystyczna

Transkrypt:

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING TRANSFORMACJE I JAKOŚĆ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej, Laboratorium Biocybernetyki 30-059 Kraków, al. Mickiewicza 30, paw. C3/205 horzyk@agh.edu.pl, Google: Adrian Horzyk

PROBLEM JAKOŚCI DANYCH DATA QUALITY PROBLEMS Dane mogą być niekompletne, niepewne, niedokładne, odstające lub niespójne. To powoduje różne trudności w ich przetwarzaniu zgodnie ze sloganem: Śmieci na wejściu śmieci na wyjściu. NIESPÓJNE DANE NIEPEWNE NIEKOMPLETNE NIEDOKŁADNE ODSTAJĄCE

PROBLEM JAKOŚCI DANYCH Dane niepewne to dane, których poprawność jest niepewna i trudna do zweryfikowania. Dane niekompletne to dane, które dla co najmniej jednego atrybutu lub elementu sekwencji czy innej struktury nie mają określonej wartości. Dane niedokładne to dane o ograniczonej precyzji lub wyrażone w sposób symboliczny albo rozmyty. Dane niespójne to dane przypisujące jednemu obiektowi więcej niż jedną wartość dla przynajmniej jednego atrybutu, tzn. różne wartości powiązane są z tymi samymi obiektami. Dane odstające to dane znacznie różniące się od pozostałych, co może świadczyć o tym, że są błędne lub wyjątkowe.

PRZETWARZANIE DANYCH O OGRANICZONEJ JAKOŚCI Przetwarzanie niekompletnych danych: z pominięciem niekompletnych rekordów (obiektów, krotek), po usunięciu atrybutów (kolumn) wprowadzających niekompletność do rekordów, jeśli niekompletność powodowana jest przez niewielką ilość atrybutów, po zastąpieniu brakujących danych danymi domyślną, średnią, medianą (wartością środkową), modą (wartością najczęstszą) dla określonego atrybutu, po zastąpieniu brakujących danych wartościami najbardziej prawdopodobnymi, wyznaczonymi na podstawie najbardziej podobnych obiektów, np. stosując metodę knn, po zbudowaniu modelu dla kompletnych danych następuje próba przyporządkowania brakujących rekordów do którejś z grup/klas na podstawie zbudowanego modelu.

WSTĘPNA TRANSFORMACJA DANYCH INITIAL DATA PREPROCESSING to różnego rodzaju operacje zamiany wartości danych polegające na przeskalowaniu, normalizacji lub standaryzacji danych lub ich transformacji na postać uproszczoną pod kątem rozwiązywanego zadania, np. dyskryminacji. PCA WSTĘPNA TRANSFORMACJA ICA NORMALIZACJA STANDARYZACJA PRZESKALOWANIE

STANDARYZACJA - STANDARDIZATION Standaryzacja to powszechnie stosowana w statystyce operacja polegająca na przeskalowaniu danych każdego elementu zbioru względem wartości średniej oraz odchylenia standardowego zgodnie z wzorem: x = [x 1, x 2,, x N ] to N-elementowy wektor danych źródłowych, y = [y 1, y 2,, y N ] to N-elementowy wektor danych po standaryzacji, m to wartość średnia wyznaczona z tych danych, to odchylenie standardowe. y i = x i m σ W wyniku standaryzacji otrzymujemy wektor cech, którego wartość średnia jest zerowa, natomiast odchylenie standardowe jest równe jedności. Nie należy stosować dla danych o odchyleniu standardowym bliskim zeru!

NORMALIZACJA - NORMALIZATION Normalizacja to przeskalowanie danych względem wielkości skrajnych (min i max) danego wektora danych najczęściej do zakresu [0, 1] (czasami do [-1, 1]) zgodnie z następującą zależnością: y i = x i x min x max x min x = [x 1, x 2,, x N ] to N-elementowy wektor danych źródłowych, y = [y 1, y 2,, y N ] to N-elementowy wektor danych po normalizacji. Normalizacja jest wrażliwa na wartości odstające i o dużym rozrzucie, gdyż wtedy właściwe dane zostaną ściśnięte w wąskim przedziale, co może znacząco utrudnić ich dyskryminację! Przeprowadzenie normalizacji jest czasami niezbędne do zastosowania metody, która wymaga, aby dane wejściowe lub wyjściowe mieściły się w pewnym zakresie, np. stosując funkcje sigmoidalną lub tangens hiperboliczny.

PROBLEM DANYCH ODSTAJĄCYCH Dane odstające (outliers) to takie dane, które nie pasują do modelu danych reprezentowanych przez pozostałe dane. Dane odstające mieszczą się często poza przedziałem zmienności pozostałych danych dla jednego lub więcej atrybutów. Czasami dane odstające to nietypowa kombinacja danych, która mieści się w granicach zmienności poszczególnych atrybutów, lecz jest na tyle dziwna, że nie jest zgodna z pozostałymi takim kombinacjami, np. dla problemów klasyfikacji. Dane odstające mogą powstawać na skutek błędów, anomalii (np. pomiarowych) lub zjawisk szczególnych (czasami interesujących). Nie istnieje ścisła matematyczna definicja danych odstających, gdyż zależy zwykle od charakteru danych oraz subiektywnej oceny. Dane odstające zazwyczaj się usuwa lub zastępuje. Mediana jest dosyć odporna na dane odstające, lecz zwykła średnia nie. Stosuje się średnią winsorowską, w której wybrane skrajne obserwacje zastępuje się wartościami odpowiednio minimalnymi i maksymalnymi z pozostałych danych.

KORELACJE I KOWARIANCJE Korelacja Pearsona obliczana jest jako stosunek kowariancji wektorów x i y do iloczynu odchyleń standardowych: cov(x, y) p xy = std x std(y) Korelacja rangowa Spearmana wykorzystuje dodatkowo wektor rang oryginalnego zbioru obserwacji x lub y: cov(r x, r y ) ps xy = std r x std(r y ) Przykład: Jeśli wektor x składa się z następujących wartości: x 1 = 2, 2; x 2 = 1, 3; x 3 = 1, 7; x 4 = 2, 2; x 5 = 4, 2; x 6 = 3, 8 To w wyniku sortowania uzyskamy: x 2 = 1, 3; x 3 = 1, 7; x 1 = 2, 2; x 4 = 2, 2; x 6 = 3, 8; x 5 = 4, 2 Przypisując poszczególnym obserwacjom (danym) rangi wynikające z ich kolejności: r 2 = 1; r 3 = 2; r 1 = 3, 5; r 4 = 3, 5; r 6 = 5; r 5 = 6 W przypadku takich samych wartości wartość rangi jest średnią z ich kolejności (r 1 i r 4 ). Otrzymujemy więc następujący zbiór rang przypisanych do danych: r 1 = 3, 5; r 2 = 1; r 3 = 2; r 4 = 3, 5; r 5 = 6; r 6 = 5

PCA PRINCIPAL COMPONENT ANALYSIS PCA to metoda wstępnego przetworzenia danych polegająca na takim obróceniu ortogonalnego układu współrzędnych tak, żeby maksymalizować wariancję dla kolejnych współrzędnych: 1, 2, Na podstawie macierzy kowariancji konstruujemy nową przestrzeń obserwacji danych, w której największą zmiennością charakteryzują się początkowe czynniki (najpierw wyznaczone współrzędne). Większa wariancja / zmienność umożliwiaja metodom klasyfikacji osiągnąć lepszą dyskryminację. Ponadto PCA umożliwia uproszczenie danych o te czynniki / współrzędne, które charakteryzują się najmniejszą zmiennością.

ICA INDEPENDENT COMPONENT ANALYSIS ICA to statystyczna metoda podobna do PCA, które zadaniem jest odnalezienie współrzędnych niezależnych opisujących dane o największej zmienności (wariancji). ICA również umożliwia redukcję wymiaru danych. Daje zwykle lepsze wyniki niż PCA.

ICA ALGORYTM Szybki ICA algorytm wykorzystujący koncepcję negentropii: 1. Wypośrodkuj/Przesuń dane x, w taki sposób, żeby ich średnia była równa zeru: x = x x m x m = E{x} 2. Wyczyść x żeby maksymalizować nie Gaussowskie charakterystyki (PCA z filtracją): z = V Λ 1/2 V T x V Λ V T = E{x x T } 3. Weź losowy wektor początkowy w, w =1 4. Aktualizuj w (maksymalnie w kierunku nie Gaussowskim) w = E{z * g(w T z)} - E{g (w T z)} w g(y) = tanh(a 1 y) lub g(y) = y*exp(-y 2 /2) gdzie 1<a 1 <2 w = w / ǁwǁ 5. Jeśli nie jest zbieżne wróć do punktu 4. 6. Uzyskaj niezależną współrzędną s: 7. s = [ w 1 w 2 w n ] x