- wykład 1/29 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Październik 2015
- wykład 2/29 W kontekście odkrywania wiedzy wykład
- wykład 3/29 CRISP-DM - standaryzacja wykład
- wykład 4/29 Zbiór wykład Zbiór - zbiór pomiarów pobranych z pewnego środowiska lub procesu dla określonego obiektu, zjawiska. Posiadając kolekcję n obiektów, dla każdego przeprowadzamy p pomiarów, co możemy przedstawić w postaci macierzy nxp. Wiersze w zależności od kontekstu są nazywane jednostkami, instancjami, encjami, przypadkami, obiektami, rekordami. Kolumny nazywane są zmiennymi, cechami, atrybutami, polami. Pomiary mogą przyjmować wartości ciągłe lub kategoryczne.
- wykład 5/29 Przykład wykład
- wykład 6/29 Globalny model wykład Model - globalne podsumowanie zbioru, mówiące coś o każdym punkcie w całej przestrzeni pomiarowej, np.: Y = ax + c, gdzie X i Y są zmiennymi, a i c są parametrami modelu (stałymi wyznaczonymi podczas eksploracji ).
- wykład 7/29 Lokalny wzorzec wykład Wzorce - opis ograniczonego (lokalnego) obszaru przestrzeni rozpiętej przez zmienne, np.: X > x 1, to p(y > y 1 ) = p1. W przeciwieństwie do globalnych modeli, lokalne wzorce opisują strukturę odnoszącą się do stosunkowo małej części lub przestrzeni, w której mogą wystąpić.
- wykład 8/29 Komponenty algorytmów eksploatacji wykład Struktura modelu lub wzorca: ustalenie bazowej struktury lub postaci funkcyjnej, którą wyszukujemy z. Funkcja oceny: osądzenie jakości dopasowanego modelu. Metody optymalizacji i przeszukiwania: zoptymalizowanie funkcji oceny i przeszukiwanie różnych modeli i wzorców. Strategia zarządzania danymi: zapewnienie sprawnego dostępu do podczas przeszukiwania i optymalizacji.
- wykład 9/29 Funkcje oceny wykład Funkcje oceny mierzą, na ile dobrze model lub struktura parametryczna pasuje do go zbioru. Funkcja oceny powinna odzwieciedlać przydatność go modelu. W praktyce stosuje się ogólne funkcje oceny: wiarygodność, sumaryczny błąd kwadratowy ( n i=1 (y(i) ŷ(i)) 2 ), współczynnik błędu klasyfikacji.
- wykład 10/29 Metody optymalizacji i przeszukiwania wykład Optymalizacja i przeszukiwanie są stosowane w celu określenia struktury i wartości parametrów, przy których funkcja oceny osiąga wartość ekstremalną (minimalną lub maksymalną w zależności od okoliczności). Stosowane metody dobierane są do funkcji oceny heurystyczne techniki przeszukiwania, minimalizacja funkcji najmniejszych kwadratów, metody algebraiczne, rachunek różniczkowy.
współczesnych kontra statystyka - wykład 11/29 wykład Statystyka zbyt dokładnie dopasowuje wzorce i modele do istniejących (co z potencjalnymi przyszłymi danymi?). Duży zbiór w statystyce (1000000?), a duży zbiór w eksploracji (cyfrowy pomiar nieba w Sloan = blisko 50 TB, ludzki genom 3.3x10 9 nukleotydów), wymaga stosowania próbkowania, sum kwadratów wartości, sumy iloczynów, itp.. Przekleństwo wymiarowości - wzrost liczby zmiennych = wykładniczy wzrost liczby komórek jednostkowych w przestrzeni Płaska statystyka kontra wielowymiarowość. SZBD dopuszczają braki.
- wykład 12/29 Skale pomiarów wykład Typy skal pomiarów porządkowe proporcji (ilorazowe) symboliczne (nominalne) przedziałowe
- wykład 13/29 Miary podobieństwa wykład Techniki eksploracji oparte na miarach podobieństwa: metoda najbliższego sąsiada w klasyfikacji, analiza skupień, metody wielowymiarowego skalowania, itp.. Sposoby otrzymania miar podobieństwa: bezpośrednio - pytając obiekty z wektorów pomiarów i właściwości obiektów
Bliskość, odległość, metryka wykład Bliskość - miara podobieństwa (s(i, j)) lub niepodobieństwa (d(i, j)), gdzie d(i, j) = 1 s(i, j) oraz d(i, j) = 2(1 s(i, j)). Odległość - nieformalna miara niepodobieństwa. Metryka - miara niepodobieństwa zmiennych współmiernych spełniajaca warunki: d(i, j) 0 dla każdego i, j, d(i, j) = 0 gdy i = j, d(i, j) = d(j, i) dla każdego i, j, d(i, j) d(i, k) + d(k, j) dla każdego i, j, k (nierówność trójkąta). Dla zmiennych niewspółmiernych należy przeprowadzić normalizację/standaryzację (odchylenie standardowe, ważona odległość euklidesowa, uwzględnienie kowariancji). - wykład 14/29
- wykład 15/29 Postać wykład standardowe - tabele wielorelacyjne szeregi czasowe ciąg znaków sekwencja zdarzeń przestrzenne obrazy struktury hierarchiczne
- wykład 16/29 wykład ze wstępnych, surowych ostatecznego zbioru, który będzie wykorzystywany we wszystkich następnych fazach. Wybór przypadków i zmiennych, które będą analizowane i które są odpowiednie do analizy. Wykonanie przekształceń na pewnych zmiennych, jeżeli jest to konieczne. Wyczyszczenie surowych, tak aby były gotowe do wykorzystania przez narzędzia modelujące.
- wykład 17/29 Motywacja wykład Większość przechowywanych jest nieobrobiona, niekompletna i zaszumiona. Problemy: zbędne, przestarzałe atrybuty, brakujące wartości, nieodpowiednie do eksploracji formaty, wartości niezgodne z zasadami, a nawet zdrowym rozsądkiem, punkty oddalone.
- wykład 18/29 GIGO wykład Garbage in - garbage out.
- wykład 19/29 Przykład wykład ID klienta Kod Płeć Dochód Wiek Stan Kwota pocztowy cywilny transakcji 1001 10048 M 75000 D Ż 5000 1002 J2S7K7 K -40000 40 W 4000 1003 90210 10000000 45 S 7000 1004 6269 M 50000 0 S 1000 1005 55101 K 99999 30 R 3000
- wykład 20/29 Brakujące wykład Metody na brakujące : pominięcie wierszy z wartościami pustymi; zastąpienie brakującej wartości stałą określoną przez analityka; zastąpienie wartością średnią - dla liczb ; zastąpienie wartością modalną dla zmiennych jakościowych; wygenerowanie wartości losowej z obserwowanego rozkładu zmiennej; powiązanie pustej j z pozostałymi danymi o obiekcie i nadanie najbardziej prawdodpodobnej wartości.
- wykład 21/29 Przykład wykład
- wykład 22/29 Zastąpienie stałymi wykład
- wykład 23/29 Zastąpienie średnimi lub modami wykład
- wykład 24/29 Zastąpienie wartościami losowymi wykład
- wykład 25/29 Błędna klasyfikacja wykład Lokalizacja Liczność USA 1 Francja 1 Stany Zjednoczone 156 Europa 46 Japonia 51
- wykład 26/29 Punkty oddalone wykład Punkty oddalone (ang. outliers) to skrajne wartości, które znajdują się blisko granic zakresu lub są sprzeczne z ogólnym trendem pozostałych. Identyfikacja poprzez: histogram zmiennej, dwuwymiarowy wykres rozrzutu, metody numeryczne.
- wykład 27/29 Normalizacja wykład Normalizacja min-max działa poprzez sprawdzenie, jak bardzo wartość pola jest większa od wartości minimalnej i skalowanie tej różnicy przez zakres wartości: X = X min(x ) max(x ) min(x )
- wykład 28/29 Standaryzacja wykład Standaryzacja działa poprzez obliczenie różnicy pomiędzy daną wartością pola i średnią wartością pola oraz przeskalowanie tej różnicy przez odchylenie standardowe σ(x ) wartości pól. X = X srednie(x ) σ(x )
- wykład 29/29 wykład W wykładzie wykorzystano materiały: D. Hand, H. Mannila, P. Smyth,, WNT, Warszawa 2005 D. T. Larose, Odkrywanie Wiedzy z Danych, Wydawnictwo Naukowe PWN, Warszawa 2006 D. Pyle, Data Preparation for Data Mining, Morgan Kaufmann, San Francisco CA 1999 R.J.A. Little, D.B. Rubin, Statistical Analysis with Missing Data, Wiley, Hoboken, NJ 1987