Analiza danych. Grupowanie (analiza skupień). Powtórzenie i podsumowanie. ZADANIE GRUPOWANIA

Podobne dokumenty
Elementy modelowania matematycznego

Sieci Kohonena Grupowanie

Analiza danych. TEMATYKA PRZEDMIOTU

Szczegółowy opis przedmiotu zamówienia

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Wykład III

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Mail: Pokój 214, II piętro

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Systemy uczące się Lab 4

CLUSTERING. Metody grupowania danych

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Spis tre±ci. Przedmowa... Cz ± I

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Hierarchiczna analiza skupień

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

PROGRAM RAZEM DLA SERCA Karta Badania Profilaktycznego

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Podstawowe pojęcia statystyczne

METODY INŻYNIERII WIEDZY

Data Mining podstawy analizy danych Część druga

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Metody klasyfikacji danych - część 1 p.1/24

Systemy uczące się wykład 2

Sztuczna inteligencja : Algorytm KNN

Algorytm grupowania danych typu kwantyzacji wektorów

Prawdopodobieństwo czerwonych = = 0.33

Algorytmy klasyfikacji

Klasyfikacja LDA + walidacja

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Metody systemowe i decyzyjne w informatyce

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Elementy modelowania matematycznego

SPOTKANIE 2: Wprowadzenie cz. I

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Algorytm grupowania danych typu kwantyzacji wektorów

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Opis efektów kształcenia dla modułu zajęć

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Metody eksploracji danych. Reguły asocjacyjne

ALGORYTM RANDOM FOREST

Systemy uczące się wykład 1

Modele danych - wykład V

Uczeń otrzymuje ocenę dostateczną, jeśli opanował wiadomości i umiejętności konieczne na ocenę dopuszczającą oraz dodatkowo:

Elementy statystyki wielowymiarowej

Rozpoznawanie obrazów

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

STATYSTYKA MATEMATYCZNA

Optymalizacja systemów

Wprowadzenie do klasyfikacji

Zad. 1 Zad. 2 Zad. 3 Zad. 4 Zad. 5 SUMA

A Zadanie

CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI

Statystyka Matematyczna Anna Janicka

Relacje. opracował Maciej Grzesiak. 17 października 2011

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Algorytm selekcji Hoare a. Łukasz Miemus

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/17

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI

Wnioskowanie bayesowskie

AUTOMATYKA INFORMATYKA

Metody selekcji cech

Pattern Classification

Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L

Adrian Horzyk

Pierwsze wdrożenie SAP BW w firmie

Transkrypt:

Analiza danych Grupowanie (analiza skupień). Powtórzenie i podsumowanie. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ ZADANIE GRUPOWANIA Celem metod grupowania (clustering) jest łączenie obiektów w większe grupy na podstawie ich wzajemnego podobieństwa. Cechy obiektów (wyrażone liczbowo) Centroidy (środki ciężkości) W przypadku danych numerycznych, kryterium podobieństwa obiektów oparte jest na ich wzajemnej odległości. Zadanie optymalizacyjne: znaleźć taki podział, żeby odległości między obiektami w jednej klasie były jak najmniejsze, a między klasami - jak największe. 1

PRZYKŁAD W zadaniach grupowania nie mówimy o klasach decyzyjnych i nie znamy prawidłowego podziału na grupy uczenie bez nadzoru). Rolę nauczyciela pełni zadana miara odległości (wybrana arbitralnie przez użytkownika, w zależności od problemu). W niektórych zastosowaniach znamy docelową liczbę grup, w innych nie. a 2 a 1 DEFINICJA ODLEGŁOŚCI W zależności od wyboru definicji odległości punktu od zbioru wyniki grupowania mogą się znacznie zmieniać. Metryka może być euklidesowa, miejska, ważona, Odległość między grupami jako odległość centroidów, albo odległość najbliższych reprezentantów a 2 a 1 2

ALGORYTM K-MEANS Założenia: mamy podzielić zbiór obiektów na K rozłącznych grup. 1. Znajdujemy K najdalszych punktów i zakładamy tam grupy. K=3 2. Znajdujemy obiekt najbliższy centrum jednej z grup i dołączamy go (strategia zachłanna). 3. Powtarzamy czynność 2 do momentu wyczerpania się obiektów. ALGORYTM DRZEWA ROZPINAJĄCEGO Ta metoda nie zakłada z góry docelowej liczby grup, po drodze otrzymujemy grupowania na dowolne K grup. 1. Na początku każdy obiekt jest oddzielną grupą. 2. Znajdujemy dwa najbliższe obiekty i łączymy je. 3. Powtarzamy czynność 2, biorąc pod uwagę również grupy obiektów. 4. Kończymy, gdy wszystkie obiekty trafią do jednej grupy (lub gdy osiągniemy zakładaną liczbę grup). Odległość obiektu do grupy: minimum odległości do jej członków. 3

ALGORYTM CENTROIDÓW (C-MEANS) K=2 podział 1. Dzielimy zbiór na K grup w sposób losowy. 2. Liczymy środek (centroid) każdej grupy. 3. Dokonujemy ponownego podziału obiektów, przypisując je do tej grupy, której środek leży najbliżej. 4. Powtarzamy od drugiego kroku póki następują zmiany przyporządkowania. podział centroidy centroidy koniec (układ stabilny) ZASTOSOWANIA: NOWE ATRYBUTY Oprócz zastosowań związanych z opisem danych (samo wskazanie podziału na grupy), metody grupowania są też przydatne w problemach klasyfikacji. Pozwalają np. zmniejszyć liczbę atrybutów, ewentualnie z danych mieszanych (dyskretnociągłych) uzyskać jednolite: grupowanie a 1.. a 10..a 30 dec a* a 10..a 30 dec nowy atr. dyskretny: numer grupy algorytm klasyfikacyjny atrybuty ciągłe atrybuty dyskretne 4

PRZYPOMNIENIE TEMATÓW Wskaźniki położenia i rozproszenia próby. Histogramy. Estymatory. Prawo wielkich liczb i centralne twierdzenie graniczne. Estymacja przedziałowa. Regresja i dyskryminacja liniowa. Hipotezy statystyczne i ich testowanie. Klasyfikacja probabilistyczna: naiwny klasyfikator bayesowski. Algorytm k-najbliższych sąsiadów. Ocena jakości klasyfikacji. Walidacja krzyżowa i metoda leave-one-out. Budowa drzew decyzyjnych. Entropia. Indukcja reguł decyzyjnych (AQ, CN2) i asocjacyjnych. Metody grupowania (analiza skupień). SKĄD WZIĄĆ DANE DO ANALIZY? Poznane metody pozwalają wygenerować zrozumiały opis lub użyteczny algorytm do automatycznej klasyfikacji. Punktem wyjścia wszystkich metod analitycznych jest tablica decyzyjna o ustalonych rozmiarach. Skąd wziąć taką tablicę w sytuacjach praktycznych? tworzenie nowych cech, selekcja cech (wybór najciekawszych) 5

PRZYKŁAD MIKROMACIERZE DNA Badania mikromacierzowe polegają na automatycznej detekcji ekspresji różnych genów w badanych komórkach. Wyniki mogą być następnie powiązane z informacjami medycznymi (np. o dolegliwościach). Detekcja optyczna Detekcja elektroniczna MIKROMACIEDZE DNA Odczyt automatyczny patient 1 patient 2 patient 3 patient 4 patient 5 patient 6 "collagen, type IV, alpha 4" 14.59 12.31 5.725 11.84 1.06 4.49 "protein kinase C, alpha binding protein" 308.24 78.13 176.67 213.535 122.49 198.64 solute carrier family 18 (vesicular monoamine), member 2"2.44 10.18 4.095 8.415-16.17 5.66 "glutamate receptor, ionotropic, kainate 1" 8.92 54.78 10.065-0.875 46.62 6.83 74.14 dermatan sulphate proteoglycan 3 7.3 21.86 6.32 20.23 2.07 6.83 KIAA0450 gene product 35.64 14.43 5.925 4.955 6.12 10.34 14.59 finger protein 197-2.41 8.06-1.97 5.405-5.02-13.07 0.21... >10000 genów Problem: tablica decyzyjna może mieć 10 tys. atrybutów i tylko kilkadziesiąt obiektów 6

DANE POZYSKIWANE Z DOKUMENTÓW Surowica: sod - 144 meq/l, potas - 4.14 meq/l, wapn - 2.38 mmol/l, Mg - 0.95 mg/dl, mocznik - 44 mg%, kreatynina - 1.19 mg%, CPK - 113 jm/l, MB (norma 0-25) - 8 7 U/L, AspAT - 16 jm/l, AlAT - 16 j.m., glukoza - 103 mg%. WR - ujemny. Lipidy: Cholesterol - 173 mg/dl, trojglicerydy - 269 mg/dl, HDL - 34 mg/dl, LDL - 85 mg/dl. EKG: Normogram, polozenie serca posrednie. Rytm zatokowy miarowy o czest.70/'. Plaski zal. T w III. Proba wysilkowa - biexnia: Metoda - BRUCE. Max czestosc - 169 bpm 103 % docelowy - 163 bpm. Max. cisnienie - 140/90 mmhg. Max. czas trwania - 9'00". Max. wysilek - 10.1 METS. Komentarz: Na szczycie wysilku bez zmian ST-T. Wynik proby ujemny. Wykonano probe wysilkowa na ergometrze rowerowym metoda wysilku ciaglego stopniowanego co 1 minute. Probe przerwano po lacznie 10 min. pracy, tzn. po 1 minucie obciazenia 135 W z powodu zmeczenia. bruce_north = north time = 10.0 watt = 135 tired_at_end = yes DANE Z SYGNAŁÓW, OBRAZÓW, W wielu przypadkach praktycznych źródłem użytecznych informacji (wartości cech) są obiekty o złożonej postaci: zdjęcia, nagrania dźwiękowe, zapis sygnałów itp. W takich przypadkach stworzenie docelowego zbioru danych bywa trudniejsze, niż późniejsza analiza. Przykład: wykrywanie epilepsji na podstawie sygnałów EEG (analiza widmowa Fouriera lub falkowa, 23.13 67.32-3.05 6.45 24.87 60.35-2.14 5.35 21.79 37.85-3.16 4.84 Cechy widmowe w oknie Wybór cech Indukcja cech (cechy pochodne) tablica dec. 7

PRZYKŁAD (1) W naszej sieci supermarketów sprzedajemy m.in. samochody. To rzadkie zakupy, ale dla nas bardzo dochodowe. Chcemy zlokalizować tych klientów, którzy w ciągu najbliższych miesięcy mają szansę kupić u nas samochód. Załóżmy, że mamy bazę danych o naszych klientach, ich zakupach itp. Tablica decyzyjna: Obiektem będzie klient widziany w danej chwili (czyli klient+data) Decyzja: czy dany klient przez kolejne 3 miesiące kupi samochód? decyzja Uwaga: powinniśmy w tablicy dec. mieć zarówno przypadki pozytywne, jak i negatywne (tych mamy więcej do dyspozycji) sprzedaż wartość klient +czas produkt=samochód obiekty o1 o2 o3 12.3 AAC 1-5 6.87 AAA 1-2 0.12 BBB 0 0 1 0 0 PRZYKŁAD (2) Atrybuty obiektów (klientów), czyli informacje wejściowe do algorytmów eksploracji danych, mogą obejmować np: - miejsce zamieszkania, datę urodzenia, wykształcenie, - całkowity obrót, liczbę dokonanych zakupów, liczbę zakupionych towarów określonego rodzaju itd. przed analizowanym momentem. sklep agregacje, statystyki sprzedaż wartość produkt o1 o2 o3 12.3 AAC 1-5 6.87 AAA 1-2 0.12 BBB 0 0 1 0 0 klient miasto Atrybuty obiektów rozważanych w danym momencie czasu mogą być oparte wyłącznie na informacjach dostępnych przed tym momentem. 8

HURTOWNIE DANYCH, CRM integracja czyszczenie odświeżanie Centralna hurtownia danych agregacje, propagacja aktualizacji Hurtownie tematyczne (oddziałowe, data marts) Źródła danych (rozproszone geograficznie) Wyniki (analiza danych) Typowe zastosowania: - CRM (Customer Relationships Management) - Analizy finansowe (wielookresowe, porównawcze) miasto sklep MECHANIZMY HURTOWNI DANYCH sprzedaż wartość czas produkt Dane w hurtowni podlegają procesom integracji i czyszczenia (etap wstępny przed analizą danych) miasto_1 miasto_2 miasto_1 miasto_1 miasto_2 miasto_2 miasto_1 miasto_1 miasto_2 miasto_2 skl_1 skl_2 skl_3 suma skl_1 skl_1 skl_2 skl_2 skl_3 skl_3 suma suma skl_1 skl_1 skl_2 skl_2 skl_3 skl_3 suma suma prod_1 27 12 50 89 prod_1 prod_1 27 27 12 12 50 50 89 89 prod_1 prod_1 27 27 12 12 50 50 89 89 prod_2 0 0 0 0 23 23 23 23 prod_2 prod_2 0 0 23 23 prod_2 prod_2 0 0 0 0 23 23 23 23 prod_3 prod_3 146 146 237 237 12 12 395 395 prod_3 146 237 12 395 prod_3 prod_3 146 146 237 237 12 12 395 395 prod_4 prod_4 76 76 45 45 1 1 122 122 prod_4 76 45 1 122 122 prod_4 prod_4 76 76 45 45 1 1 122 prod_5 prod_5 0 0 8 8 5 5 13 13 prod_5 prod_5 0 0 8 8 5 5 13 13 prod_5 0 8 5 13 suma suma 249 249 302 302 91 91 642 642 suma suma 249 249 302 302 91 91 642 642 suma 249 302 91 642 Kostki danych to metoda przechowywania informacji pomocniczych wykorzystywanych w analizie zawartości hurtowni. czas 9

EGZAMIN Termin: 31 stycznia 2006, godz. 17:00 (aule) Zwolnienia: tylko 5 z ćwiczeń (można za to dostać 4 z egzaminu) Należy mieć wpisaną (pozytywną) ocenę z ćwiczeń najpóźniej w momencie wpisywania oceny do indeksu i protokołu. Przykłady zadań (będzie ok. 10 krótkich pytań lub zadań): - Podaj prosty przykład liczbowy (2-wymiarowy, kilka obiektów) dla którego metoda k-nn (k=3) da różne wyniki dla metryki miejskiej i euklidesowej. - Dana jest prosta tablica danych. Budujemy drzewo (entropią). Który z podanych w zadaniu dwóch warunków jest lepszy? - Budujemy dwa klasyfikatory: drzewo decyzyjne i naiwny bayesowski. Chcemy je przetestować. W którym z tych dwóch przypadków lepiej jest zastosować schemat leave-one-out? (I dlaczego?) 10