ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Podobne dokumenty
TEORETYCZNE PODSTAWY INFORMATYKI

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Sieci Kohonena Grupowanie

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

TEORETYCZNE PODSTAWY INFORMATYKI

Hierarchiczna analiza skupień

Przestrzeń algorytmów klastrowania

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Techniki grupowania danych w środowisku Matlab

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Algorytm grupowania danych typu kwantyzacji wektorów

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1

Algorytm grupowania danych typu kwantyzacji wektorów

Elementy statystyki wielowymiarowej

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

CLUSTERING. Metody grupowania danych

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Marek Rakowski Strona 1 TAB2 ćw3

Elementy modelowania matematycznego

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Adrian Horzyk

Priorytetyzacja przypadków testowych za pomocą macierzy

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

TEORETYCZNE PODSTAWY INFORMATYKI

Taksonomia numeryczna co to jest?

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Analiza korespondencji

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

TEORETYCZNE PODSTAWY INFORMATYKI

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

TEORETYCZNE PODSTAWY INFORMATYKI

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Systemy uczące się Lab 4

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wstęp do sieci neuronowych, wykład 8 Uczenie nienadzorowane.

Obliczenia iteracyjne

Temat 5. Programowanie w języku Logo

Analiza Skupień Cluster analysis

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Predykcja a kozy - studium przypadku

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Grupowanie danych. Wprowadzenie. Przykłady

Model procesu dydaktycznego

Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A

KNIME podstawy obsługi programu. Pracownia Chemometrii Środowiska Katedra Chemii i Radiochemii Środowiska Wydział Chemii UG

Skalowanie wielowymiarowe idea

Optymalizacja. Przeszukiwanie lokalne

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Kurs Chemometrii Poznań 28 listopad 2006

Eksploracja danych - wykład II

Wyznaczanie strategii w grach

Program EWIDENCJA ODZIEŻY ROBOCZEJ INSTRUKCJA UŻYTKOWNIKA Przejdź do strony producenta programu

Wielowymiarowa analiza regionalnego zróżnicowania rolnictwa w Polsce

Czym jest analiza skupień?

STATYSTYKA I DOŚWIADCZALNICTWO

Wiedza (nawigacyjna)? Metody reprezentacji. Brak jest jednoznacznej (uznanej definicji)... Ale informacje (dane, fakty) + sposób wykorzystania

STATYSTYKA I DOŚWIADCZALNICTWO

4.3 Grupowanie według podobieństwa

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Przybliżone algorytmy analizy ekspresji genów.

Monitoring procesów z wykorzystaniem systemu ADONIS. Krok po kroku

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Informatyzacja Przedsiębiorstw

1 Automaty niedeterministyczne

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

1. Synteza automatów Moore a i Mealy realizujących zadane przekształcenie 2. Transformacja automatu Moore a w automat Mealy i odwrotnie

Ćwiczenie 12. Metody eksploracji danych

Wprowadzenie do analizy dyskryminacyjnej

Klasyfikacja województw według ich konkurencyjności przy pomocy metod taksonomicznych oraz sieci neuronowych.

Globalne zależności w klastrowaniu hierarchicznym

PRZEWODNIK PO PRZEDMIOCIE. stacjonarne. I stopnia III. Dr inż. Manuela Ingaldi. ogólnoakademicki. kierunkowy

Analiza danych tekstowych i języka naturalnego

INFORMATYKA POZIOM ROZSZERZONY

INFORMATYKA POZIOM ROZSZERZONY

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Projektowanie rozmieszczenia stanowisk roboczych

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

TP1 - TABELE PRZESTAWNE od A do Z

Metodologia badań psychologicznych

ZAMÓWIENIA GIS BY CTI

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Program EWIDENCJA ODZIEŻY ROBOCZEJ INSTRUKCJA UŻYTKOWNIKA Przejdź do strony producenta programu

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

1. Grupowanie Algorytmy grupowania:

3. Podaj elementy składowe jakie powinna uwzględniać definicja informatyki.

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

Rozdział 6 PROGRAMOWANIE WYPUKŁE I KWADRATOWE

Wpływ nowej normy oświetleniowej EN 13201: 2015 na istniejące instalacje oświetleniowe projektów zgodnie z normą PN - EN 13201:2007

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień

Transkrypt:

1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów

2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie (grupowanie) k-means

Graficzna reprezentacja danych 3 Graficznie pokazujemy najistotniejsze charakterystyki danych Tabela ze statystycznym podsumowaniem Histogramy Box-ploty Scatter-ploty Mogą być wykonane bardzo szybko/łatwo, powinny pozwolić na pierwsze wrażenie co jest w danych Staramy się robić stosunkowo dużo plotów, tabel sumarycznych w różny sposób grupując zmienne.

Przykład 4 Danie: zanieczyszczenie drobinkami materiałów powietrza na terenie USA. http://www.epa.gov/air/ecosystem.html Dla poziomu zanieczyszczeń ustalona jest norma 12mg/m3 Zestawienie dzienne jest dostępne ze strony http://www.epa.gov/ttn/airs/airsaqs/detaildata/dow nloadaqsdata.htm Pytanie: czy są stany w których ta norma jest przekraczana?

Dane: 5 Tu są dane za okres 2008-2010 Czy w jakiś stanach przekroczona jest ta norma?

6 Tabela sumaryczna, box plot, histogram

7 Tabela sumaryczna, box plot, histogram

8 Tabela sumaryczna, box plot, histogram

Multi-box plot, multi-histograms 9

Scatter-plot 10

Multiple scatter plots 11

Co się dzieje w danych które są w 12 wielu wymiarach Klastrowanie organizuje dane które są blisko w pewne grupy czyli klastry. Co to znaczy że dane są blisko Co to znaczy że grupujemy? Ja pokazać graficznie grupowanie? Jak interpretować grupowanie?

13 Klastrowanie jest bardzo ważną techniką

Hierarchiczne klastrowanie 14 Aglomeracyjne podejście (bottom-up) Znajdź dwa najbliżej położone punkty Połącz je ze sobą w super-punkt Znajdź kolejne najbliższe punkty (traktując już połączone jako jeden super-punkt) Parametry algorytmu definicję odległości punktów definicję łączenia punktów Wynik Prezentujemy jako pewne drzewo (dendogram)

Jak definiujemy odległość 15 Odległość: Ciągła: euklidesowa metryka Ciągła: stopień podobieństwa lub korelacji Dyskretna: Manhattan Wybieramy taka definicję która stosuje się do naszych danych

Jak definiujemy odległość 16 Odleglość: Ciągła: euklidesowa metryka Ciągła: stopień podobieństwa lub korelacji Dyskretna: Manhattan Wybieramy taka definicję która stosuje się do naszych danych

Jak definiujemy odległość 17 Euklidesowa metryka vs Manhattan metryka Naturalnie rozszerzalne do wielu wymiarów Musimy chodzić po ulicach

Hierarchiczne klastrowanie 18 Symulujemy dane: 12 punków, 3 klastry

Hierarchine klastrowanie: dist 19 Obliczamy odległość pomiędzy wszystkimi parami punktów Funkcja dist() ma jako parametr opcje wyboru metryki

Hierarchiczne klastrowanie 20 Stratujemy z punków które są od siebie najbliższe, formułujemy z nich pojedynczy super-point

Hierarchiczne klastrowanie 21 Ile mamy klastrów? To zależy gdzie utniemy to drzewo. To jest już zadanie związane z interpretacją analizy

Ładniejsza graficzna reprezentacja 22

Hierarchiczne klastrowanie 23

24 Jeszcze ładniejsza graficzna reprezentacja

Łączenie punktów 25 Jaka jest odległość pomiędzy klastrami? Najbardziej odległe punkty Środek ciężkości punktów

heatmap() 26 heatmap() to fukcja dla ilustrowania macierzy odległości. Ta funkcja wykonuje hierarchiczne klastrowanie na wierszach i kolumnach macierzy odległości

Hierarchiczne klastrowanie 27 Daje pewny obraz związku pomiędzy danymi, organizuje je w hierarchiczny sposób. Jako opcje algorytmu wybieramy metrykę oraz metodę łączenia w super-punkty Wynik algorytmu klastrowania ulegnie zmianie jeżeli: Usuniemy kilka punktów Dane mają różne brakujące punkty Zmienimy metrykę Zmienimy strategie łączenia Zmienimy skalę w jednym z wymiarów To klastrowanie jest deterministyczne (powtarzalne dla tego samego zestawu danych, nie ma losowości) Powinno być używane przede wszystkim dla eksploracji danych.

K-means klastrowanie 28 Sposób na podzielenie danych na grupy Zdecyduj ile chcesz mieć klastrów Zdefiniuj pozycję centrum dla każdego klastra Przypisz punkty pomiarowe do klastrów Przelicz na podstawie przypisanych danych pomiarowych pozycje centrum dla każdego klastra Parametry wejściowe: metryka, ilość klastrów, punkt startowy dla centrum klastra Wynik: przeliczona pozycja centrum, asocjacja punktów pomiarowych do danych

Przykład: 29

Przykład 30 Wybieramy startowe centra Przypisujemy punkty do klastrów początkowe grupowanie

Przykład 31 Przeliczamy pozycje centrów Modyfikujemy przyporządkowanie Przeliczamy raz jeszcze pozycje centrów

kmeans() 32

kmeans() 33

heatmaps() 34 Reorganizujemy wiersze macierzy danych

K-means: podsumowanie 35 K-means klastrowanie wymaga ustalenie liczby klastrów jako parameter wejściowy Ocena wzrokowa scatter-plotów, intuicja Techniki: cross-validation, teoria informacji, etc. Inne techniki: patrz dodatkowe materiały Wynik algorytmu K-means: Zależy od ustalonej liczby klastrów Zależy od liczby iteracji