CLUSTERING METODY GRUPOWANIA DANYCH
|
|
- Krystyna Grabowska
- 5 lat temu
- Przeglądów:
Transkrypt
1 CLUSTERING METODY GRUPOWANIA DANYCH
2 Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means clustering) Grupowanie hierarchiczne (hierarchical clustering) Probabilistyczne grupowanie (probability-based clustering)
3 Co to jest klastrowanie Klastrowanie (clustering): problem grupowania obiektów o podobnych właściwościach. Klaster: grupa (lub klasa) obiektów podobnych (powstająca w wyniku grupowania danych)
4 Clustering i Klasyfikacja Clustering = uczenie bez nadzoru Znaleźć naturalne skupienia dla zbioru obiektów nie etykietowanych Klasyfikacja=uczenie z nadzorem Uczenie metod przewidywania przynależności obiektów do klas decyzyjnych (dane etykietowane)
5 Jak należy dzielić następujące obiekty na grupy? Podział na grupy jest raczej subiektywny Rodzina Pracownicy Kobiety Mężczyźni
6 Dziedziny zastosowania Medycyna Grupowania chorób Grupowanie objaw u pacjentów np. paranoja, schizophrenia -> właściwa terapia Archeologia: taksonomie wydobytych narzędzi... Text Mining Grupowanie podobnych dokumentów -> lepsze wyniki wyszukiwań dokumentów
7 Opis klastrów a b c d e f g h g a c i e d k b j f h a d k g j h e i f c b a d k g j h e i f c b
8 Problem grupowania (clustering) Dane są: liczba klastrów k funkcja odległości d określona na zbiorze obiektów P. funkcja oceny jakości klastrów F (objective function) Problem: Podzielić zbiór P na k klastrów tak aby funkcja F przyjmowała maksymalną wartość.
9 Klasyfikacja metody Unsupervised learning: grupowanie obiektów bez wiedzy o ich kategorii (klasach decyzyjnych). Metody klasyfikują się według postaci generowanych klastrów: Czy są one rozłączne czy nierozłączne Czy mają strukturę hierarchiczną czy płaską Czy są określone deterministycznie czy probabilistycznie.
10 Podstawowe metody clusteringu k-centroidów (k-mean): Klastry mają strukturę płaską są określone deterministycznie Grupowanie hierarchiczne: Klastry mają strukturę drzewiastą są określone deterministycznie Grupowanie w oparciu o prawdopodobieństwo: Klastry mają strukturę płaską są określone probabilistycznie
11 Co to jest podobieństwo? The quality or state of being similar; likeness; resemblance; as, a similarity of features. Webster's Dictionary Podobieństwo jest trudne do definiowania, ale Poznajemy go, gdy go widzimy Czym jest podobieństwo jest raczej filozoficznym pytaniem. Będziemy stosować uproszczone metody
12 Podobieństwo a odleglość Peter Piotr
13 Miary odległości
14 Przykład: kwantyzacja wektorowa Mały 100x100 obraz kolorowy wymaga 10000*24 = 29.3 kb; (N=10000) Jeśli zdołamy reprezentować ten obraz używając jedynie k=32 kolorów => możemy kodować każdy punkt za pomocą 5 bitów => redukcja pamięci do 6.1 kb + 32*24 bitów na książkę kodową
15 Metoda k-centroidów (k-means, MacQueen, 1967) Dane: N punktów w przestrzeni R n Parametr k < N Szukane: D = {x 1, x 2 x N } k punktów c 1 c k (zwanych środkami lub centroidami) będących optymalnymi punktami ze względu na funkcję: Cost( c1,..., ck D) min N i1 j1,.., k x i c j 2
16 Złożoność problemu grupowania Twierdzenie: Problem grupowania minimalnego względem sumy kwadratów błędów jest NP-trudny nawet dla k=2
17 Algorytm Znaleźć k środków tak, aby suma odległości punktów do najbliższego centroida była minimalna. o Krok 1. Wybierz losowo k punktów (centroidów) będących środkami klastrów o Krok 2. Przydziel każdy obiekt do najbliższego centroida. o Krok 3. Wyznacz nowy układ centroidów o Krok 4. Powtórz krok 2 dopóty, póki poprawa jakości będzie zerowa lub nieistotna.
18 Metoda k centroidów (c.d.) Wyznaczanie nowego układu centroidów Idea: Nowy centroid jest środkiem ciężkości powstającego (w poprzednim przebiegu algorytmu) klastra. Współrzędne nowego centroida c: p1( xi )... pk ( xi ) c( xi ) k gdzie p 1,p 2,...,p k punkty należące do klastra. c(x i ), p 1 (x i ),..., p k (x i ) i-ta współrzędna.
19 Przykład k=3, Krok 1 Y Wybierz losowo 3 punkty jako początkowy zbiór środków. k 2 k 1 k 3 X
20 Przykład k=3, Krok 2 Y k 1 Przypisanie każdego z punktów do najbliższego środka k 2 k 3 X
21 Przykład k=3, Krok 3 Y k 1 k 1 Przesuwanie centroidów do środków klastrów. k 2 k 2 k 3 k 3 X
22 Przykład k=3, Krok 4 Znów przypisać punkty do najbliższych środków Y k 1 Pyt.: Które z tych punktów zmienia grupę? k 2 k 3 X
23 Przykład k=3, Krok 4a A: 3 zmiany Y k 1 k 2 k 3 X
24 Przykład k=3, Krok 4b re-compute cluster means Y k 2 k 3 k 1 X
25 Przykład k=3, Krok 5 k 1 Y Przesuwanie centroidów do środków nowych klastrów k 2 X k 3
26 Przykład k=2
27 Własciwości metody k-centroidów Jakości klastrów zależą od wyboru początkowego układu centroidów. Algorytm może trafić w lokalne minimum Aby unikać lokalne minimum: startować z różnymi układami losowo wybieranych centroidów.
28 Zbieżność algorytmu k-means Twierdzenie: dla dowolnego zbioru obiektów X R n oraz punktu z R n mamy Cost( z X ) Cost( mean( X ) X ) X mean( X ) z 2
29 Jak wybrać właściwą liczbę grup? Na ogół, problem jest nie rozwiązalny. Możemy stosować pewne heurystyki Rozpatrzmy przykładowe dane (pokazane obok): Widać, że najwłaściwsza liczba grup wynosi 2. Analizujmy zmianę funkcji jakości klastrów w zależności od liczby klastrów
30 Gdy k = 1, wartość funkcji wynosi
31 Gdy k = 2, wartość funkcji wynosi
32 Gdy k = 1, wartość funkcji wynosi
33 Jakość klastrów Możemy wyświetlić wykres fukcji jakości dla k =1,2,3, Przy k = 2, widoczna jest zmiana trendu, co sugeruje, że k=2 jest optymalną liczbą klastrów. Ta technika nazywa się knee finding albo elbow finding. 1.00E E E E E E E E E E E+00 k
34 Anomalie metody centroidów
35 Grupowanie hierarchiczne Przykład grupowania profili danych ekspresji RNA (Nugoli et al. BMC Cancer :13)
36 Algorytm Cel: Budować drzewo klastrów dla zbioru n obiektów. Jakość klastra: suma odległości pomiędzy obiektami w klastrze. 1. Na najniższym poziomie drzewa: n liści. Każdy liść (zawierający 1 obiekt) jest klastrem 2. Repeat oznajdź najbliższą parę klastrów (parę poddrzew) opołącz te klastry (poddrzewa) w jeden większy until STOP
37 Przykład
38 Odległość między klastrami 1. Single linkage (nearest neighbor) 2. Complete linkage (furthest neighbor) 3. Weighted (or unweighted) pair-group average 4. Weighted (or unweighted) pair-group centroid (median). 5. Wards Linkage: Minimalizacja wariancji połączonych grup
39 Single linkage Average linkage Wards linkage
40 Przykład perfekcyjnego grupowania hierarchicznego (Bovine: , (Spider Monkey 0.390, (Gibbon: ,(Orang: ,(Gorilla: ,(Chimp: , Human: ): ): ): ): );
41 Czasem hierarchia pokazują błędne relacje Sensowna grupa: Australia, Anguilla, St. Helena etc (poprzednie kolonie Wielkiej Brytanii). Grupa zawierająca Niger i India jest błędna: brak relacji między tymi krajami AUSTRALIA St. Helena & Dependencies ANGUILLA South Georgia & South Sandwich Islands U.K. Serbia & Montenegro (Yugoslavia) FRANCE NIGER INDIA IRELAND BRAZIL
42 Probabilisty czne grupowanie Obiekt należy do klastra z pewnym stopniem prawdopodobieństwa. Idea: Każdy klaster jest opisany jednym rozkładem prawdopodobieństwa. Założenie: Wszystkie rozkłady są rozkładami normalnymi. Rozkłady różnią się wartoścami oczekiwanymi () i odchyleniami standardowymi ().
43 Przykład: Trzy probabilistyczne klastry
44 Stopień należności obiektu do klastra Obiekt x należy do klastra A z prawdopodobieństwem: gdzie f(x; A ; A ) - rozkład normalny ] [ ). ; ; ( ] [ ] [ ]. [ ] [ x P p x f x P A P A x P x A P A A A ) ( 2 1 ) ; ; ( x e x f
45 Algorytm EM EM Expection - Maximization Dana jest liczba klastrów k. Cel: Dla każdego atrybutu rzeczywistego znaleźć k układów parametrów ( i, i, p i ) dla i =1,..,k (opisów k klastrów). Dla uproszczenia opisu, niech k = 2 Algorytm jest opisany dla wybranego atrybutu.
46 Algorytm EM Idea: adoptować algorytm k centroidów. Krok 1. Wybierz losowo 2 układy parametrów ( A, A, p A ) i ( B, B, p B ); Krok 2. Oblicz oczekiwane stopnie przynależności obiektów do klastrów ( expectation step) Krok 3. Wyznacz nowe układy parametrów w celu maksymalizacji funkcji jakości likelihood ( maximization step); Krok 4. Powtórz krok 2 dopóty, póki poprawa jakości będzie mała.
47 Funkcja oceny jakości Funkcja dopasowania likelihood : dla dwóch klastrów A i B: i ( p. P[ x A] p. P[ x B]) A i B i
48 Wyznaczanie nowych parametrów Szuka się dwóch układów parametrów: ( A, A, p A ) i ( B, B, p B ) Jeśli w i jest stopniem przynależności i tego obiektu do klastra A to : n n n A w w w x w x w w x n A n n A A A w w w x w x w x w... ) (... ) ( ) (
49 Bibliografia Brian S. Everitt (1993). Cluster analysis. Oxford University Press Inc. Ian H. Witten, Eibe Frank (1999). Data Mining. Practical ML Tools and Techniques with Java Implementations. Morgan Kaufmann Publishers.
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Bardziej szczegółowoAlgorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
Bardziej szczegółowoData Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Bardziej szczegółowoElementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Algorytmy klastujące Problem 3 Mając daną chmurę punktów chcielibyśmy zrozumieć ich
Bardziej szczegółowo4.3 Grupowanie według podobieństwa
4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi
Bardziej szczegółowoMetody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2
Metody teorii gier ALP520 - Wykład z Algorytmów Probabilistycznych p.2 Metody teorii gier Cel: Wyprowadzenie oszacowania dolnego na oczekiwany czas działania dowolnego algorytmu losowego dla danego problemu.
Bardziej szczegółowoSPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Bardziej szczegółowoHierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Bardziej szczegółowoKlasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Bardziej szczegółowoEksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
Bardziej szczegółowoWyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoCLUSTERING II. Efektywne metody grupowania danych
CLUSTERING II Efektywne metody grupowania danych Plan wykładu Wstęp: Motywacja i zastosowania Metody grupowania danych Algorytmy oparte na podziałach (partitioning algorithms) PAM Ulepszanie: CLARA, CLARANS
Bardziej szczegółowoGrupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Bardziej szczegółowoCzym jest analiza skupień?
Statystyczna analiza danych z pakietem SAS Analiza skupień metody hierarchiczne Czym jest analiza skupień? wielowymiarowa technika pozwalająca wykrywać współzależności między obiektami; ściśle związana
Bardziej szczegółowoAnaliza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie
Bardziej szczegółowoKompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Bardziej szczegółowoAgnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Bardziej szczegółowoMetody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania
Wielowymiarowe metody segmentacji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Cele CHAID Dane CHAID Przebieg analizy CHAID Parametry CHAID Wyniki Metody analizy skupień Wprowadzenie Charakterystyka
Bardziej szczegółowoAlgorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Bardziej szczegółowoTechniki grupowania danych w środowisku Matlab
Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe
Bardziej szczegółowoAlgorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, rozważane dotychczas problemy koncentrowały się na nauczeniu na podstawie zbioru treningowego i zbioru etykiet klasyfikacji
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoAlgorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Bardziej szczegółowoTEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana II stopień studiów Wykład 13b 2 Eksploracja danych Co rozumiemy pod pojęciem eksploracja danych Algorytmy grupujące (klajstrujące) Graficzna
Bardziej szczegółowoKlasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Bardziej szczegółowoSieci Kohonena Grupowanie
Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie
Bardziej szczegółowoKlasteryzacja danych
Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji Klasteryzacja danych na podstawie: Leszek Rutkowski. Metody i techniki
Bardziej szczegółowoPrzestrzeń algorytmów klastrowania
20 listopada 2008 Plan prezentacji 1 Podstawowe pojęcia Przykłady algorytmów klastrowania 2 Odległość algorytmów klastrowania Odległość podziałów 3 Dane wejściowe Eksperymenty Praca źródłowa Podstawowe
Bardziej szczegółowo1. Grupowanie Algorytmy grupowania:
1. 1.1. 2. 3. 3.1. 3.2. Grupowanie...1 Algorytmy grupowania:...1 Grupowanie metodą k-średnich...3 Grupowanie z wykorzystaniem Oracle Data Miner i Rapid Miner...3 Grupowanie z wykorzystaniem algorytmu K-Means
Bardziej szczegółowoAnaliza Skupień Cluster analysis
Metody Eksploracji Danych w wykładzie wykorzystano: 1. materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych Informatyka http://wazniak.mimuw.edu.pl
Bardziej szczegółowoPrzykładowa analiza danych
Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór
Bardziej szczegółowoKodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,
1 Kwantyzacja skalarna Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 10.05.005 Kwantyzacja polega na reprezentowaniu dużego zbioru wartości (być może nieskończonego) za pomocą wartości
Bardziej szczegółowoKwantyzacja wektorowa. Kodowanie różnicowe.
Kwantyzacja wektorowa. Kodowanie różnicowe. Kodowanie i kompresja informacji - Wykład 7 12 kwietnia 2010 Kwantyzacja wektorowa wprowadzenie Zamiast kwantyzować pojedyncze elementy kwantyzujemy całe bloki
Bardziej szczegółowoSZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA WYKŁAD 4. UCZENIE SIĘ INDUKCYJNE Częstochowa 24 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska WSTĘP Wiedza pozyskana przez ucznia ma charakter odwzorowania
Bardziej szczegółowoAlgorytmy zrandomizowane
Algorytmy zrandomizowane www.qed.pl/ai/nai2003 PLAN WYKŁADU Inne zadania optymalizacyjne grupowanie Generowanie liczb losowych Metody Monte Carlo i Las Vegas przykłady zastosowa Przeszukiwanie losowe metoda
Bardziej szczegółowoWymagania egzaminacyjne z matematyki. Klasa 3C. MATeMATyka. Nowa Era. Klasa 3
Wymagania egzaminacyjne z matematyki. lasa 3C. MATeMATyka. Nowa Era. y są ze sobą ściśle powiązane ( + P + R + D + W), stanowiąc ocenę szkolną, i tak: ocenę dopuszczającą (2) otrzymuje uczeń, który spełnił
Bardziej szczegółowoPorównanie szeregów czasowych z wykorzystaniem algorytmu DTW
Zlot użytkowników R Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk 21 września 2010 Miary podobieństwa między szeregami
Bardziej szczegółowoAlgorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
Bardziej szczegółowoPodstawy grupowania danych w programie RapidMiner Michał Bereta
Podstawy grupowania danych w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Grupowanie hierarchiczne Grupowanie (analiza skupieo, ang. clustering) ma na celu automatyczne wykrycie grup istniejących
Bardziej szczegółowoAlgorytmy zrandomizowane
Algorytmy zrandomizowane http://zajecia.jakubw.pl/nai ALGORYTMY ZRANDOMIZOWANE Algorytmy, których działanie uzależnione jest od czynników losowych. Algorytmy typu Monte Carlo: dają (po pewnym czasie) wynik
Bardziej szczegółowoKryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji
Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji Agnieszka Nowak Alicja Wakulicz-Deja Zakład Systemów Informatycznych Instytut Informatyki Uniwersytetu Śląskiego Sosnowiec,
Bardziej szczegółowoTadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
: idea Indeksowanie: Drzewo decyzyjne, przeszukiwania binarnego: F = {5, 7, 10, 12, 13, 15, 17, 30, 34, 35, 37, 40, 45, 50, 60} 30 12 40 7 15 35 50 Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
Bardziej szczegółowoMetoda największej wiarygodności
Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany
Bardziej szczegółowoMetody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.
Bardziej szczegółowoAlgorytmy metaheurystyczne Wykład 11. Piotr Syga
Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,
Bardziej szczegółowoDrzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Bardziej szczegółowoKLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Bardziej szczegółowoMonitorowanie i Diagnostyka w Systemach Sterowania
Monitorowanie i Diagnostyka w Systemach Sterowania Katedra Inżynierii Systemów Sterowania Dr inż. Michał Grochowski Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności:
Bardziej szczegółowoWymagania kl. 3. Zakres podstawowy i rozszerzony
Wymagania kl. 3 Zakres podstawowy i rozszerzony Temat lekcji Zakres treści Osiągnięcia ucznia 1. RACHUNEK PRAWDOPODOBIEŃSTWA 1. Reguła mnożenia reguła mnożenia ilustracja zbioru wyników doświadczenia za
Bardziej szczegółowoWstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.
Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd. M. Czoków, J. Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika w Toruniu 2013-11-26 Projekt pn. Wzmocnienie potencjału
Bardziej szczegółowoPrawdopodobieństwo czerwonych = = 0.33
Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie
Bardziej szczegółowoWykrywanie nietypowości w danych rzeczywistych
Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1 Agenda 1 2 3 4 5 6 Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania
Bardziej szczegółowoPoznań, 14 grudnia 2002. Case Study 2 Analiza skupień
Poznań, 14 grudnia 2002 Case Study 2 Analiza skupień Celem ćwiczenia jest przeprowadzenie procesu grupowania / analizy skupień dla jednego z wybranych zbiorów danych (tj. dostarczonych przez prowadzącego).
Bardziej szczegółowo1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Bardziej szczegółowoEksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Bardziej szczegółowoUczenie nienadzorowane
Uczenie nienadzorowane Nadzorowane, klasyfikacja: Nienadzorowane, analiza skupień (clustering): Zbiór uczacy: { (x 1 1,x1 2 ),c1, (x 2 1,x2 2 ),c2,... (x N 1,xN 2 ),cn } Zbiór uczacy: { (x 1 1,x1 2 ),
Bardziej szczegółowoZagadnienie klasyfikacji (dyskryminacji)
Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka
Bardziej szczegółowoMail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Bardziej szczegółowoSystemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
Bardziej szczegółowoAnaliza skupień (Cluster Analysis)
Rozdział 8 Analiza skupień (Cluster Analysis) 8.1 Wstęp Analiza skupień jest techniką statystyczną i neuronową mającą na celu porównywanie i klasyfikowanie obiektów, opisywanych za pomocą wielu atrybutów.
Bardziej szczegółowoTeoretyczne podstawy informatyki
Teoretyczne podstawy informatyki Wykład 6a: Model danych oparty na zbiorach http://hibiscus.if.uj.edu.pl/~erichter/dydaktyka2010/tpi-2010 Prof. dr hab. Elżbieta Richter-Wąs 1 Model danych oparty na zbiorach
Bardziej szczegółowoWstęp do grupowania danych
Eksploracja zasobów internetowych Wykład 5 Wstęp do grupowania danych mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Istnieją dwie podstawowe metody klasyfikowania obiektów: metoda z nauczycielem, metoda
Bardziej szczegółowoElementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Bardziej szczegółowoMetody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Bardziej szczegółowo7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej
7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach
Bardziej szczegółowoGrupowanie stron WWW. Funkcje oceniające.
Eksploracja zasobów internetowych Wykład 6 Grupowanie stron WWW. Funkcje oceniające. mgr inż. Maciej Kopczyński Białystok 2015 Wstęp Rolą algorytmów grupujących jest pogrupowanie dokumentów na bazie ich
Bardziej szczegółowoZ Wikipedii, wolnej encyklopedii.
Rozkład normalny Rozkład normalny jest niezwykle ważnym rozkładem prawdopodobieństwa w wielu dziedzinach. Nazywa się go także rozkładem Gaussa, w szczególności w fizyce i inżynierii. W zasadzie jest to
Bardziej szczegółowoZmienne losowe. Powtórzenie. Dariusz Uciński. Wykład 1. Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski
Powtórzenie Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski Wykład 1 Podręcznik podstawowy Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych i przyrodnicznych,
Bardziej szczegółowoKatalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć
Katalog wymagań programowych na poszczególne stopnie szkolne Matematyka. Poznać, zrozumieć Kształcenie w zakresie podstawowym. Klasa 3 Poniżej podajemy umiejętności, jakie powinien zdobyć uczeń z każdego
Bardziej szczegółowoZastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego
Bardziej szczegółowoPODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek
PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA Piotr Wiącek ROZKŁAD PRAWDOPODOBIEŃSTWA Jest to miara probabilistyczna określona na σ-ciele podzbiorów borelowskich pewnej przestrzeni metrycznej. σ-ciało podzbiorów
Bardziej szczegółowozadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych
zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych 1. [E.A 5.10.1996/zad.4] Funkcja gęstości dana jest wzorem { 3 x + 2xy + 1 y dla (x y) (0 1) (0 1) 4 4 P (X > 1 2 Y > 1 2 ) wynosi:
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoCo to jest grupowanie
Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Bardziej szczegółowoKompresja danych DKDA (7)
Kompresja danych DKDA (7) Marcin Gogolewski marcing@wmi.amu.edu.pl Uniwersytet im. Adama Mickiewicza w Poznaniu Poznań, 22 listopada 2016 1 Kwantyzacja skalarna Wprowadzenie Analiza jakości Typy kwantyzatorów
Bardziej szczegółowoWprowadzenie do uczenia maszynowego
Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania
Bardziej szczegółowoMETODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Bardziej szczegółowoEstymacja parametrów w modelu normalnym
Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia
Bardziej szczegółowoAnaliza skupień (Cluster analysis)
Analiza skupień (Cluster analysis) Analiza skupień jest to podział zbioru obserwacji na podzbiory (tzw. klastry) tak, że obiekty (obserwacje) w tym samym klastrze były podobne (w pewnym sensie). Jest to
Bardziej szczegółowoData Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
Bardziej szczegółowoWYKŁAD 11 Uczenie maszynowe drzewa decyzyjne
WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne Reprezentacja wiedzy w postaci drzew decyzyjnych entropia, przyrost informacji algorytmy ID3, C4.5 problem przeuczenia wyznaczanie reguł rzykładowe drzewo decyzyjne
Bardziej szczegółowoPrzykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Bardziej szczegółowoRegresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
Bardziej szczegółowoSpacery losowe generowanie realizacji procesu losowego
Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z
Bardziej szczegółowoGenerowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport
Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport Michał Krzemiński Streszczenie Projekt dotyczy metod generowania oraz badania własności statystycznych ciągów liczb pseudolosowych.
Bardziej szczegółowo2. Permutacje definicja permutacji definicja liczba permutacji zbioru n-elementowego
Wymagania dla kl. 3 Zakres podstawowy Temat lekcji Zakres treści Osiągnięcia ucznia 1. RACHUNEK PRAWDOPODOBIEŃSTWA 1. Reguła mnożenia reguła mnożenia ilustracja zbioru wyników doświadczenia za pomocą drzewa
Bardziej szczegółowoRozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej
Rozdział 1 Zmienne losowe, ich rozkłady i charakterystyki 1.1 Definicja zmiennej losowej Zbiór możliwych wyników eksperymentu będziemy nazywać przestrzenią zdarzeń elementarnych i oznaczać Ω, natomiast
Bardziej szczegółowoSztuczna inteligencja : Algorytm KNN
Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr
Bardziej szczegółowoKlasyfikacja metodą Bayesa
Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo
Bardziej szczegółowoALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Bardziej szczegółowoSztuczna inteligencja
POLITECHNIKA KRAKOWSKA WIEiK KATEDRA AUTOMATYKI I TECHNIK INFORMACYJNYCH Sztuczna inteligencja www.pk.edu.pl/~zk/si_hp.html Wykładowca: dr inż. Zbigniew Kokosiński zk@pk.edu.pl Wykład 10: Zbiory przybliżone
Bardziej szczegółowo