Eksploracja danych - wykład II



Podobne dokumenty
dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Skalowanie wielowymiarowe idea

Eksploracja danych - wykład VIII

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Opis efektów kształcenia dla modułu zajęć

W1. Wprowadzenie. Statystyka opisowa

Przedmiot statystyki. Graficzne przedstawienie danych.

Wykład 10 Skalowanie wielowymiarowe

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Statystyka BioStatystyka

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Statystyka w pracy badawczej nauczyciela

Rok akademicki: 2012/2013 Kod: JFM s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski wersja /13:40

83 Przekształcanie wykresów funkcji (cd.) 3

Modelowanie glikemii w procesie insulinoterapii

Ewelina Dziura Krzysztof Maryański

Dopasowywanie modelu do danych

Eksploracja danych - wykład IV

Statystyka SYLABUS A. Informacje ogólne

Operacjonalizacja zmiennych

Analiza danych. TEMATYKA PRZEDMIOTU

TRANSFORMACJE I JAKOŚĆ DANYCH

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Wykład ze statystyki. Maciej Wolny

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Analiza danych i data mining.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Testowanie hipotez statystycznych.

Analiza korespondencji

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Wprowadzenie do analizy korelacji i regresji

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Spis treści 3 SPIS TREŚCI

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

Wykrywanie nietypowości w danych rzeczywistych

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

WYMAGANIA EDUKACYJNE Z MATEMATYKI KLASA I GIMNAZJUM Małgorzata Janik

3. Modele tendencji czasowej w prognozowaniu

Korelacja krzywoliniowa i współzależność cech niemierzalnych

MATEMATYKA WYKAZ UMIEJĘTNOŚCI WYMAGANYCH NA POSZCZEGÓLNE OCENY DLA KLASY PIERWSZEJ

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Model procesu dydaktycznego

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

Badania Statystyczne

Opis przedmiotu: Probabilistyka I

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Grupowanie danych. Wprowadzenie. Przykłady

Graficzna prezentacja danych statystycznych

P. R. Bevington and D. K. Robinson, Data reduction and error analysis for the physical sciences. McGraw-Hill, Inc., ISBN

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Analiza współzależności zjawisk

Zadania ze statystyki, cz.6

Hierarchiczna analiza skupień

Interpolacja, aproksymacja całkowanie. Interpolacja Krzywa przechodzi przez punkty kontrolne

Estymacja wektora stanu w prostym układzie elektroenergetycznym

MATeMAtyka zakres podstawowy

Statystyczne Metody Opracowania Wyników Pomiarów

KRYTERIA OCENIANIA Z MATEMATYKI W OPARCIU O PODSTAWĘ PROGRAMOWĄ I PROGRAM NAUCZANIA MATEMATYKA 2001 DLA KLASY DRUGIEJ

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI

Analiza Współzależności

1. Grupowanie Algorytmy grupowania:

Algorytmy estymacji stanu (filtry)

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Metody statystyczne w naukach przyrodniczych

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Elementy statystyki wielowymiarowej

MODELE LINIOWE. Dr Wioleta Drobik

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Rok akademicki: 2017/2018 Kod: JIS AD-s Punkty ECTS: 5. Kierunek: Informatyka Stosowana Specjalność: Modelowanie i analiza danych

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

Systemy Wspomagania Decyzji

KARTA INFORMACYJNA PRZEDMIOTU

Próba własności i parametry

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Analiza i wizualizacja danych Data analysis and visualization

Transkrypt:

- wykład 1/29 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Październik 2015

- wykład 2/29 W kontekście odkrywania wiedzy wykład

- wykład 3/29 CRISP-DM - standaryzacja wykład

- wykład 4/29 Zbiór wykład Zbiór - zbiór pomiarów pobranych z pewnego środowiska lub procesu dla określonego obiektu, zjawiska. Posiadając kolekcję n obiektów, dla każdego przeprowadzamy p pomiarów, co możemy przedstawić w postaci macierzy nxp. Wiersze w zależności od kontekstu są nazywane jednostkami, instancjami, encjami, przypadkami, obiektami, rekordami. Kolumny nazywane są zmiennymi, cechami, atrybutami, polami. Pomiary mogą przyjmować wartości ciągłe lub kategoryczne.

- wykład 5/29 Przykład wykład

- wykład 6/29 Globalny model wykład Model - globalne podsumowanie zbioru, mówiące coś o każdym punkcie w całej przestrzeni pomiarowej, np.: Y = ax + c, gdzie X i Y są zmiennymi, a i c są parametrami modelu (stałymi wyznaczonymi podczas eksploracji ).

- wykład 7/29 Lokalny wzorzec wykład Wzorce - opis ograniczonego (lokalnego) obszaru przestrzeni rozpiętej przez zmienne, np.: X > x 1, to p(y > y 1 ) = p1. W przeciwieństwie do globalnych modeli, lokalne wzorce opisują strukturę odnoszącą się do stosunkowo małej części lub przestrzeni, w której mogą wystąpić.

- wykład 8/29 Komponenty algorytmów eksploatacji wykład Struktura modelu lub wzorca: ustalenie bazowej struktury lub postaci funkcyjnej, którą wyszukujemy z. Funkcja oceny: osądzenie jakości dopasowanego modelu. Metody optymalizacji i przeszukiwania: zoptymalizowanie funkcji oceny i przeszukiwanie różnych modeli i wzorców. Strategia zarządzania danymi: zapewnienie sprawnego dostępu do podczas przeszukiwania i optymalizacji.

- wykład 9/29 Funkcje oceny wykład Funkcje oceny mierzą, na ile dobrze model lub struktura parametryczna pasuje do go zbioru. Funkcja oceny powinna odzwieciedlać przydatność go modelu. W praktyce stosuje się ogólne funkcje oceny: wiarygodność, sumaryczny błąd kwadratowy ( n i=1 (y(i) ŷ(i)) 2 ), współczynnik błędu klasyfikacji.

- wykład 10/29 Metody optymalizacji i przeszukiwania wykład Optymalizacja i przeszukiwanie są stosowane w celu określenia struktury i wartości parametrów, przy których funkcja oceny osiąga wartość ekstremalną (minimalną lub maksymalną w zależności od okoliczności). Stosowane metody dobierane są do funkcji oceny heurystyczne techniki przeszukiwania, minimalizacja funkcji najmniejszych kwadratów, metody algebraiczne, rachunek różniczkowy.

współczesnych kontra statystyka - wykład 11/29 wykład Statystyka zbyt dokładnie dopasowuje wzorce i modele do istniejących (co z potencjalnymi przyszłymi danymi?). Duży zbiór w statystyce (1000000?), a duży zbiór w eksploracji (cyfrowy pomiar nieba w Sloan = blisko 50 TB, ludzki genom 3.3x10 9 nukleotydów), wymaga stosowania próbkowania, sum kwadratów wartości, sumy iloczynów, itp.. Przekleństwo wymiarowości - wzrost liczby zmiennych = wykładniczy wzrost liczby komórek jednostkowych w przestrzeni Płaska statystyka kontra wielowymiarowość. SZBD dopuszczają braki.

- wykład 12/29 Skale pomiarów wykład Typy skal pomiarów porządkowe proporcji (ilorazowe) symboliczne (nominalne) przedziałowe

- wykład 13/29 Miary podobieństwa wykład Techniki eksploracji oparte na miarach podobieństwa: metoda najbliższego sąsiada w klasyfikacji, analiza skupień, metody wielowymiarowego skalowania, itp.. Sposoby otrzymania miar podobieństwa: bezpośrednio - pytając obiekty z wektorów pomiarów i właściwości obiektów

Bliskość, odległość, metryka wykład Bliskość - miara podobieństwa (s(i, j)) lub niepodobieństwa (d(i, j)), gdzie d(i, j) = 1 s(i, j) oraz d(i, j) = 2(1 s(i, j)). Odległość - nieformalna miara niepodobieństwa. Metryka - miara niepodobieństwa zmiennych współmiernych spełniajaca warunki: d(i, j) 0 dla każdego i, j, d(i, j) = 0 gdy i = j, d(i, j) = d(j, i) dla każdego i, j, d(i, j) d(i, k) + d(k, j) dla każdego i, j, k (nierówność trójkąta). Dla zmiennych niewspółmiernych należy przeprowadzić normalizację/standaryzację (odchylenie standardowe, ważona odległość euklidesowa, uwzględnienie kowariancji). - wykład 14/29

- wykład 15/29 Postać wykład standardowe - tabele wielorelacyjne szeregi czasowe ciąg znaków sekwencja zdarzeń przestrzenne obrazy struktury hierarchiczne

- wykład 16/29 wykład ze wstępnych, surowych ostatecznego zbioru, który będzie wykorzystywany we wszystkich następnych fazach. Wybór przypadków i zmiennych, które będą analizowane i które są odpowiednie do analizy. Wykonanie przekształceń na pewnych zmiennych, jeżeli jest to konieczne. Wyczyszczenie surowych, tak aby były gotowe do wykorzystania przez narzędzia modelujące.

- wykład 17/29 Motywacja wykład Większość przechowywanych jest nieobrobiona, niekompletna i zaszumiona. Problemy: zbędne, przestarzałe atrybuty, brakujące wartości, nieodpowiednie do eksploracji formaty, wartości niezgodne z zasadami, a nawet zdrowym rozsądkiem, punkty oddalone.

- wykład 18/29 GIGO wykład Garbage in - garbage out.

- wykład 19/29 Przykład wykład ID klienta Kod Płeć Dochód Wiek Stan Kwota pocztowy cywilny transakcji 1001 10048 M 75000 D Ż 5000 1002 J2S7K7 K -40000 40 W 4000 1003 90210 10000000 45 S 7000 1004 6269 M 50000 0 S 1000 1005 55101 K 99999 30 R 3000

- wykład 20/29 Brakujące wykład Metody na brakujące : pominięcie wierszy z wartościami pustymi; zastąpienie brakującej wartości stałą określoną przez analityka; zastąpienie wartością średnią - dla liczb ; zastąpienie wartością modalną dla zmiennych jakościowych; wygenerowanie wartości losowej z obserwowanego rozkładu zmiennej; powiązanie pustej j z pozostałymi danymi o obiekcie i nadanie najbardziej prawdodpodobnej wartości.

- wykład 21/29 Przykład wykład

- wykład 22/29 Zastąpienie stałymi wykład

- wykład 23/29 Zastąpienie średnimi lub modami wykład

- wykład 24/29 Zastąpienie wartościami losowymi wykład

- wykład 25/29 Błędna klasyfikacja wykład Lokalizacja Liczność USA 1 Francja 1 Stany Zjednoczone 156 Europa 46 Japonia 51

- wykład 26/29 Punkty oddalone wykład Punkty oddalone (ang. outliers) to skrajne wartości, które znajdują się blisko granic zakresu lub są sprzeczne z ogólnym trendem pozostałych. Identyfikacja poprzez: histogram zmiennej, dwuwymiarowy wykres rozrzutu, metody numeryczne.

- wykład 27/29 Normalizacja wykład Normalizacja min-max działa poprzez sprawdzenie, jak bardzo wartość pola jest większa od wartości minimalnej i skalowanie tej różnicy przez zakres wartości: X = X min(x ) max(x ) min(x )

- wykład 28/29 Standaryzacja wykład Standaryzacja działa poprzez obliczenie różnicy pomiędzy daną wartością pola i średnią wartością pola oraz przeskalowanie tej różnicy przez odchylenie standardowe σ(x ) wartości pól. X = X srednie(x ) σ(x )

- wykład 29/29 wykład W wykładzie wykorzystano materiały: D. Hand, H. Mannila, P. Smyth,, WNT, Warszawa 2005 D. T. Larose, Odkrywanie Wiedzy z Danych, Wydawnictwo Naukowe PWN, Warszawa 2006 D. Pyle, Data Preparation for Data Mining, Morgan Kaufmann, San Francisco CA 1999 R.J.A. Little, D.B. Rubin, Statistical Analysis with Missing Data, Wiley, Hoboken, NJ 1987