Podstawy grupowania danych w programie RapidMiner Michał Bereta
|
|
- Jacek Chrzanowski
- 7 lat temu
- Przeglądów:
Transkrypt
1 Podstawy grupowania danych w programie RapidMiner Michał Bereta 1. Grupowanie hierarchiczne Grupowanie (analiza skupieo, ang. clustering) ma na celu automatyczne wykrycie grup istniejących w zbiorze danych. Każda grupa powinna charakteryzowad się tym, iż przykłady do niej przyporządkowane są bardziej podobne do siebie niż do przykładów z innych grup. Poszczególne grupy powinny byd od siebie jak najlepiej odseparowane. Konkretne znaczenie podobieostwa i separacji zależy od przyjętej miary podobieostwa między obiektami. Podobieostwo nie zawsze musi byd oparte na metryce w sensie matematycznej, jednak dla danych numerycznych częstym wyborem jest wykorzystanie odległości Euklidesa. Dane podlegające analizie nie mają przyporządkowanej etykiety klasy. Zadaniem algorytmu grupowania jest właśnie odszukad takie grupy. Nie jest to zadanie łatwe. Podział danych często nie jest jednoznaczny. Przykładowe problemy: Czy w danych w ogóle istnieją grupy, których poszukujemy? Jak to zweryfikowad dla danych wysokowymiarowych? Ilu grup szukamy? Co z przykładami, które leżą pomiędzy grupami? Jak reprezentowad grupy? Czy szukane skupiska powinny mied minimalną licznośd przykładów do nich należących? Grupowanie hierarchiczne jest bardzo naturalnym podejściem do grupowania. Grupy tworzone są stopniowo. Zaczynamy od grup składających się z pojedynczych przykładów. W każdym kroku łączymy najbliższe sobie grupy (na początku będą to przykłady najbliższe sobie zgodnie z przyjętą miarą podobieostwa). W kolejnych krokach otrzymujemy coraz liczniejsze grupy, aż w koocu tworzona jest jedna grupa zawierająca wszystkie przykłady. W tych metodach nie jest tworzony jeden wyraźny podział lecz cała ich hierarchia. Można jednak w dowolnym kroku zadecydowad o zatrzymaniu procesu łączenia. Często jednak decyzję taką podejmuje się po wizualnej inspekcji dendrogramu, czy wizualnej reprezentacji powstałego hierarchicznego grupowania. Mniej popularne podejście rozpoczyna od umieszczenia wszystkich przykładów w jednej grupie a następnie dzieleniu jej jak i powstałych w ten sposób grup, tak by ostatecznie zakooczyd z grupami zwierającymi dokładnie jeden przykład. Istnieje koniecznośd zdecydowania jak, mając przyjętą miarę podobieostwa między obiektami, definiowad podobieostwo między grupami obiektów. Istnieją trzy najbardziej popularne rozwiązania. Single linkage 1
2 Complete linkage Average linkage Z dokumentacji RM: SingleLink: In single-link hierarchical clustering, we merge in each step the two clusters whose two closest members have the smallest distance (or: the two clusters with the smallest minimum pairwise distance). CompleteLink: In complete-link hierarchical clustering, we merge in each step the two clusters whose merger has the smallest diameter (or: the two clusters with the smallest maximum pairwise distance). AverageLink: Average-link clustering is a compromise between the sensitivity of complete-link clustering to outliers and the tendency of single-link clustering to form long chains that do not correspond to the intuitive notion of clusters as compact, spherical objects. Przykład: Dane dwuwymiarowe zawierające trzy wyraźne grupy Za pomocą operatorów GenerateData generujemy dane złożone z trzech wyraźnych grup. 2
3 Otrzymujemy dane dwuwymiarowe, zatem łatwo je przedstawid na wykresie. Następnym krokiem jest wykonanie grupowania hierarchicznego za pomocą operatora Clustering(Agglomerative Clustering). 3
4 Wyniki: Widok FolderView pokazuje hierarchiczną strukturę grupowania: 4
5 Wizualizacja struktury za pomocą drzewa: W tym widoku można sprawdzid, jakie przykłady należą do kolejno łączonych grup: 5
6 Dendrogram to sposób wizualizacji struktury hierarchicznej. Na poniższym widad trzy wyraźne grupy. Wysokośd poszczególnych krawędzi jest proporcjonalna do odległości między łączonymi grupami. Widad zatem, że trzy grupy są wyraźnie oddzielone od siebie. Informacja taka może posłużyd do ustalenia, jaki przyjąd ostateczny podział danych (w tym przypadku na trzy grupy). Poniżej zaprezentowane są wyniki dla complete link oraz dla average link. One również wskazują na istnienie trzech grup. Te trzy podejścia nie zawsze dają tak zbliżone do siebie wyniki. Przykładowo, complete link ma tendencje do tworzenia rozciągniętych grup, często niepotrzebnie (zbyt wcześnie) łącząc mniejsze grupy. 6
7 7
8 Przykład: Grupowanie hierarchiczne dla bazy irysów. W bazie tej są trzy klasy, jednak etykieta klasy nie jest brana pod uwagę w czasie grupowania. Sprawdzimy, czy te istniejące trzy klasy zostaną wykryte przez algorytm grupowania. 8
9 Na powyższym dendrogramie widad, że jedna grupa jest wyraźnie oddzielona od dwóch pozostałych. Dla przypomnienia, rozkład danych irysów z wykorzystaniem dwóch atrybutów: Wizualizacja: Bez kolorów w oparciu o etykietę klasy 9
10 Z kolorami wyznaczonymi przez etykietę klasy Z powyższego widad, że algorytm grupowania odkrył wyraźnie odrębną klasę Iris-setosa. Widad to również w widoku GraphView: 10
11 Wszystkie przykłady ze wskazanej grupy to przykłady z klasy Iris-setosa. Pozostałe dwie grupy nie są tak wyraźnie oddzielone, można jednak wskazad pewne grupy, które składają się jedynie z przykładów z danej klasy, np.: Zadanie: Wykonaj powyższy przykład dla complete link oraz average link. 11
12 2. Grupowanie za pomocą algorytmu k-średnich (k-means) Inne algorytmy grupowania tworzą od razu konkretny podział na zadaną liczbę grup. W algorytmie k-średnich każdy przykład należy do dokładnie jednej grupy reprezentowanej przez centroid, który jest wyliczany jako średnia ze wszystkich przykładów należących do danej grupy. Przykład: Dane z trzema wyraźnymi grupami Wyniki: 12
13 Możemy użyd indeksu grupy jako etykiety klasy. Widad sensownośd działania algorytmu. 13
14 Przykład: Algortym k-średnich dla danych irysów Wyniki: 14
15 Wykres wykorzystujący oryginalną etykietę klasy do ustalenia kolorów: Wykres wykorzystujący indeks grupy do ustalenia kolorów: Powyższe wykresy są podobne, jednak widad różnice. Warte podkreślenia jest, że algorytm grupowania wykorzystywał wszystkie cztery atrybuty. 15
16 Jak ilościowo wygląda przydział do powstałych grup w porównaniu z prawdziwymi etykietami klas? W celu wizualizacji można wykorzystad wykres typu Bars Stacked. Widad na nim, że klasa Iris-setosa została wyraźnie oddzielona od dwóch pozostałych. 16
17 3. Ocena jakości grupowania W poprzednim przykładzie założyliśmy, że liczba poszukiwanych grup wynosi trzy. W ogólnym przypadku nie jest jednak wiadomo ilu grup poszukujemy. W celu ustalenia liczby istniejących w danych grup można próbowad wykorzystad różne indeksy określające jakośd otrzymanego podziału. Indeksy te są tym lepsze, im dane w każdej grupie są bliżej siebie, a grupy dalej od siebie. Wykonamy przykładową analizę dla wyników algorytmu k-średnich za pomocą dwóch indeksów: średniej odległośd przykładów w każdej grupie (pożądana jest minimalna wartośd tego indeksu) oraz indeksu Daviesa Bouldina ( (szukane jest również minimum). Algorytm k-średnich zostanie uruchomiony dla kolejnych wartości parametru k, określającego szukaną liczbę grup. W tym celu wykorzystamy operator LoopParameters. Jest on operatorem złożonym. Wewnątrz definiujemy go następująco, wykorzystując operator Performance (Cluster Distance Performance): 17
18 Dodajemy logowanie wyników z każdej iteracji. 18
19 W ustawieniach operatora Log ustawiamy, co jest zapamiętywane z każdej iteracji. W ustawieniach operatora Loop Parameter ustawiamy opcje pętli. 19
20 Na koniec przekierowujemy zebrane w logu informacje do operatora Log to Data. Wyniki: 20
21 Oba indeksy wyraźnie wskazują na istnienie trzech grup. Przykład: Analiza liczby grup dla danych irysów Wyniki: 21
22 Jak widad, indeks Daviesa Bouldina wskazuje na dwie grupy, co jest w miarę zgodne z rzeczywistymi danymi, jako że tylko jedna klasa jest wyraźnie oddzielona od dwóch pozostałych. Drugi indeks trudniej zinterpretowad, jako iż sugerowad on może istnienie wielu grup. Można jednak wziąd pod uwagę, że spadek indeksu jest mniej dynamiczny od pewnego momentu i na tę wartośd k się zdecydowad. Zadanie: Powtórz powyższą analizę (grupowanie hierarchiczne oraz k-średnich) dla innych wielowymiarowych wygenerowanych danych oraz innych baz (sonar, glass, pima) ze znaną liczba klas (uwaga: jeśli klasy nie są dobrze oddzielone, liczba klas nie musi przekładad się na liczbę dobrze oddzielonych przestrzennie grup, ale może wskazad, że pewne klasy są łatwiejsze do oddzielenia w n-wymiarach niż pozostałe klasy). 22
Wprowadzenie do programu RapidMiner, część 4 Michał Bereta
Wprowadzenie do programu RapidMiner, część 4 Michał Bereta www.michalbereta.pl 1. Wybór atrybutów (ang. attribute selection, feature selection). Jedną z podstawowych metod analizy współoddziaływania /
Bardziej szczegółowoData Mining z wykorzystaniem programu Rapid Miner
Data Mining z wykorzystaniem programu Rapid Miner Michał Bereta www.michalbereta.pl Program Rapid Miner jest dostępny na stronie: http://rapid-i.com/ Korzystamy z bezpłatnej wersji RapidMiner Community
Bardziej szczegółowoReguły asocjacyjne w programie RapidMiner Michał Bereta
Reguły asocjacyjne w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Reguły asocjacyjne mają na celu odkrycie związków współwystępowania pomiędzy atrybutami. Stosuje się je często do danych
Bardziej szczegółowoWprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta
Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta www.michalbereta.pl W tej części: Zachowanie wytrenowanego modelu w celu późniejszego użytku Filtrowanie danych (brakujące etykiety
Bardziej szczegółowoAlgorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, rozważane dotychczas problemy koncentrowały się na nauczeniu na podstawie zbioru treningowego i zbioru etykiet klasyfikacji
Bardziej szczegółowo4.3 Grupowanie według podobieństwa
4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi
Bardziej szczegółowoEksploracja danych w środowisku R
Eksploracja danych w środowisku R Moi drodzy, niniejszy konspekt nie omawia eksploracji danych samej w sobie. Nie dowiecie się tutaj o co chodzi w generowaniu drzew decyzyjnych czy grupowaniu danych. Te
Bardziej szczegółowoBioinformatyka Laboratorium, 30h. Michał Bereta
Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Filogenetyka molekularna wykorzystuje informację zawartą w sekwencjach aminokwasów lub nukleotydów do kontrukcji drzew
Bardziej szczegółowoCLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Bardziej szczegółowoAlgorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
Bardziej szczegółowoWybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.
Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny
Bardziej szczegółowoAlgorytmy immunologiczne. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki
Algorytmy immunologiczne Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Metody uczenia maszynowego Uczenie z nauczycielem Uczenie
Bardziej szczegółowoText mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Bardziej szczegółowoTechniki grupowania danych w środowisku Matlab
Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe
Bardziej szczegółowoWyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
Bardziej szczegółowoSupervised Hierarchical Clustering with Exponential Linkage. Nishant Yadav
Supervised Hierarchical Clustering with Exponential Linage Nishant Yadav Ari Kobren Nicholas Monath Andrew McCallum At train time, learn A :2 X! Y Supervised Clustering aaab8nicbvdlssnafl2pr1pfvzdugvwvrirdfl147kcfuabymq6aydozslmjvbcp8onc0xc+jxu/bsnbrbaemdgcm69zlntaq36hnftmltfwnzq7xd2dnd2z+ohh61juo1zs2qhnldbgmugqt5chyn9gmxkfgnxbyl/udj6ynv/irpwlyjkspokuojv6/zjgmbkr3cwg1zpx9+zwv4lfbouaa6qx/2homnmjfjbjon5xojbrjryktis08nswidbhrwspjzeyqzspp3dordn1iafsunp190zgymomcwgn84hm2cvf/7xeitf1hgzpmgxxwupcjf5eb3u0ouguuxtyrqzw1wl46jjhrtsxvbgr988ippx9r9yx8ua43boo4ynmapnimpv9cae2hccygoeizxehpqexheny/fampdo7hd5zph3bqvc=
Bardziej szczegółowoMetody wypełniania braków w danych ang. Missing values in data
Analiza danych wydobywanie wiedzy z danych III Metody wypełniania braków w danych ang. Missing values in data W rzeczywistych zbiorach danych dane są często nieczyste: - niekompletne (brakujące ważne atrybuty,
Bardziej szczegółowoSieci Kohonena Grupowanie
Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie
Bardziej szczegółowoWprowadzenie do programu RapidMiner, częśd 1 Michał Bereta www.michalbereta.pl. Program RapidMiner (RM) ma trzy główne widoki (perspektywy):
Wprowadzenie do programu RapidMiner, częśd 1 Michał Bereta www.michalbereta.pl Program Rapid Miner jest dostępny na stronie: http://rapid-i.com/ Korzystamy z bezpłatnej wersji RapidMiner Community Edition.
Bardziej szczegółowoSpacery losowe generowanie realizacji procesu losowego
Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z
Bardziej szczegółowoUkłady VLSI Bramki 1.0
Spis treści: 1. Wstęp... 2 2. Opis edytora schematów... 2 2.1 Dodawanie bramek do schematu:... 3 2.2 Łączenie bramek... 3 2.3 Usuwanie bramek... 3 2.4 Usuwanie pojedynczych połączeń... 4 2.5 Dodawanie
Bardziej szczegółowo1. Grupowanie Algorytmy grupowania:
1. 1.1. 2. 3. 3.1. 3.2. Grupowanie...1 Algorytmy grupowania:...1 Grupowanie metodą k-średnich...3 Grupowanie z wykorzystaniem Oracle Data Miner i Rapid Miner...3 Grupowanie z wykorzystaniem algorytmu K-Means
Bardziej szczegółowoTEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 14c 2 Definicje indukcyjne Twierdzenia dowodzone przez indukcje Definicje indukcyjne Definicja drzewa
Bardziej szczegółowoJęzyk C zajęcia nr 5
Język C zajęcia nr 5 Instrukcja wyboru switch switch ( wyr ) inst Głównym przeznaczeniem instrukcji switch jest rozgałęzianie wykonania programu na wiele różnych ścieżek w zależności od wartości pewnego
Bardziej szczegółowoGrupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Bardziej szczegółowoElementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Bardziej szczegółowoWykrywanie nietypowości w danych rzeczywistych
Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1 Agenda 1 2 3 4 5 6 Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania
Bardziej szczegółowoJava Podstawy. Michał Bereta
Prezentacja współfinansowana przez Unię Europejską ze środków Europejskiego Funduszu Społecznego w ramach projektu Wzmocnienie znaczenia Politechniki Krakowskiej w kształceniu przedmiotów ścisłych i propagowaniu
Bardziej szczegółowoMetody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania
Wielowymiarowe metody segmentacji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Cele CHAID Dane CHAID Przebieg analizy CHAID Parametry CHAID Wyniki Metody analizy skupień Wprowadzenie Charakterystyka
Bardziej szczegółowoSzukanie rozwiązań funkcji uwikłanych (równań nieliniowych)
Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Funkcja uwikłana (równanie nieliniowe) jest to funkcja, która nie jest przedstawiona jawnym przepisem, wzorem wyrażającym zależność wartości
Bardziej szczegółowoData Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Bardziej szczegółowoAnaliza skupień (Cluster analysis)
Analiza skupień (Cluster analysis) Analiza skupień jest to podział zbioru obserwacji na podzbiory (tzw. klastry) tak, że obiekty (obserwacje) w tym samym klastrze były podobne (w pewnym sensie). Jest to
Bardziej szczegółowoPolitechnika Wrocławska, Katedra Inżynierii Biomedycznej Systemy Pomiarowo-Diagnostyczne, laboratorium
Politechnika Wrocławska, Katedra Inżynierii Biomedycznej Systemy Pomiarowo-Diagnostyczne, laboratorium Zajęcia wprowadzające 1. Cel ćwiczenia Przyswojenie podstawowych informacji dotyczących zasad tworzenia
Bardziej szczegółowoCzym jest analiza skupień?
Statystyczna analiza danych z pakietem SAS Analiza skupień metody hierarchiczne Czym jest analiza skupień? wielowymiarowa technika pozwalająca wykrywać współzależności między obiektami; ściśle związana
Bardziej szczegółowoUczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0
Uczenie się pojedynczego neuronu W0 X0=1 W1 x1 W2 s f y x2 Wp xp p x i w i=x w+wo i=0 Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z=0 Wówczas: W 1 x 1 + w 2 x 2 + = 0 Algorytm
Bardziej szczegółowoArcGIS. Jakub Nowosad
2013 ArcGIS Jakub Nowosad ArcGIS 10 to oprogramowanie GIS od firmy ERSI (ang. Environmental System Research Institute). Dzieli się ono na trzy licencje o różnych możliwościach: Basic (ArcView), Standard
Bardziej szczegółowoIdea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień
Idea jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień. Obiekty należące do danego skupienia
Bardziej szczegółowoMetody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty
Bardziej szczegółowoWprowadzenie do maszyny Turinga
Wprowadzenie do maszyny Turinga Deterministyczna Maszyna Turinga (DTM) jest pewną klasą abstrakcyjnych modeli obliczeń. W tej instrukcji omówimy konkretną maszynę Turinga, którą będziemy zajmować się podczas
Bardziej szczegółowoNaszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.
ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.
Bardziej szczegółowoRozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki
Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Twierzdzenie: Prawdopodobieostwo, że n obserwacji wybranych
Bardziej szczegółowoJak pobrad mapę z PK? Na stronie Pucharu Warszawy i Mazowsza w RJnO 2019 należy odszukad interesujący nas etap:
Do nanoszenia śladu na mapę przydatny może byd programu QuickRoute, do pobrania ze strony http://www.matstroeng.se/quickroute/en/download.php Zanim zacznie się pracę z programem należy przygotowad sobie
Bardziej szczegółowoEksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
Bardziej szczegółowoRozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów
Rozpoznawanie twarzy metodą PCA Michał Bereta www.michalbereta.pl 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów Wiemy, że możemy porównywad klasyfikatory np. za pomocą kroswalidacji.
Bardziej szczegółowoINDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
Bardziej szczegółowoCLUSTERING METODY GRUPOWANIA DANYCH
CLUSTERING METODY GRUPOWANIA DANYCH Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.
Bardziej szczegółowoPomoc do serwisu biomart projektu GERMINATE-BD
Pomoc do serwisu biomart projektu GERMINATE-BD Wojciech Frohmberg 30 maja 2012 1 Strona domowa dostęp do pomocy możliwość zalogowania wybór zbioru danych informacje o projekcie 1.1 Logowanie Celem zalogowania
Bardziej szczegółowoA Zadanie
where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona
Bardziej szczegółowoAnaliza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
Bardziej szczegółowoInstrukcje cykliczne (pętle) WHILE...END WHILE
Instrukcje cykliczne (pętle) Pętle pozwalają na powtarzanie fragmentu kodu programu. PĘTLE LOGICZNE WHILE...END WHILE While (warunek)...... End While Pętla będzie się wykonywała dopóki warunek jest spełniony.
Bardziej szczegółowoKorespondencja seryjna
Korespondencja seryjna Listy seryjne - część druga W poprzednim tutorialu opisano sposób tworzenia korespondencji seryjnej. W bieżącym tutorialu poznacie sposób na filtrowanie oraz sortowanie źródła danych,
Bardziej szczegółowoBudowa argumentacji bezpieczeństwa z użyciem NOR-STA Instrukcja krok po kroku
Budowa argumentacji bezpieczeństwa z użyciem NOR-STA Instrukcja krok po kroku NOR-STA jest narzędziem wspierającym budowę, ocenę oraz zarządzanie strukturą argumentacji wiarygodności (assurance case),
Bardziej szczegółowoTworzenie i modyfikacja modelu geologicznego
Tworzenie i modyfikacja modelu geologicznego Program: Stratygrafia 3D Plik powiązany: Demo_manual_39.gsg Poradnik Inżyniera Nr 39 Aktualizacja: 12/2018 Wprowadzenie Celem niniejszego Przewodnika Inżyniera
Bardziej szczegółowoTABLICA (ang. array) pojedyncza zmienna z wieloma komórkami, w których można zapamiętać wiele wartości tego samego typu danych.
Złożone typy danych - TABLICE TABLICA (ang. array) pojedyncza zmienna z wieloma komórkami, w których można zapamiętać wiele wartości tego samego typu danych. * Może przechowywać dowolny typ danych, typ
Bardziej szczegółowoSPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Bardziej szczegółowoBackend Administratora
Backend Administratora mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Katowice, 2011 W tym celu korzystając z konsoli wydajemy polecenie: symfony generate:app backend Wówczas zostanie stworzona
Bardziej szczegółowoAutomatyczna klasyfikacja zespołów QRS
Przetwarzanie sygnałów w systemach diagnostycznych Informatyka Stosowana V Automatyczna klasyfikacja zespołów QRS Anna Mleko Tomasz Kotliński AGH EAIiE 9 . Opis zadania Tematem projektu było zaprojektowanie
Bardziej szczegółowo[ HTML ] Tabele. 1. Tabela, wiersze i kolumny
[ HTML ] Tabele 1. Tabela, wiersze i kolumny Opis tabeli znajdowad się powinien wewnątrz znaczników . W ich ramach umieszczone są definicje rzędów, komórek w rzędach oraz dane w komórkach.
Bardziej szczegółowoHierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Bardziej szczegółowoZajęcia nr VII poznajemy Rattle i pakiet R.
Okno główne Rattle wygląda następująco: Zajęcia nr VII poznajemy Rattle i pakiet R. Widzimy główne zakładki: Data pozwala odczytad dane z różnych źródeł danych (pliki TXT, CSV) i inne bazy danych. Jak
Bardziej szczegółowoPętle instrukcje powtórzeo
Pętle instrukcje powtórzeo Pętle - zbiór instrukcji, które należy wykonad wielokrotnie. Program dyktuje: - ile razy pętla ta wykona zawarty w niej blok instrukcji - jakie mają byd warunki zakooczenia jej
Bardziej szczegółowo3.7. Wykresy czyli popatrzmy na statystyki
3.7. Wykresy czyli popatrzmy na statystyki Współczesne edytory tekstu umożliwiają umieszczanie w dokumentach prostych wykresów, służących do graficznej reprezentacji jakiś danych. Najprostszym sposobem
Bardziej szczegółowooperacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.
Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie
Bardziej szczegółowoSztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
Bardziej szczegółowoMicrosoft Access materiały pomocnicze do ćwiczeń cz. 1
Microsoft Access materiały pomocnicze do ćwiczeń cz. 1 I. Tworzenie bazy danych za pomocą kreatora Celem ćwiczenia jest utworzenie przykładowej bazy danych firmy TEST, zawierającej informacje o pracownikach
Bardziej szczegółowoAnaliza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Bardziej szczegółowoZadanie 0 gdy nie mamy logiki rozmytej. Zadanie 1- gdy już mamy logikę rozmytą
Zadanie 0 gdy nie mamy logiki rozmytej Wyobraźmy sobie, że chcemy oceniad czy dana temperatura świadczy o tym, że jest gorąco czy raczej zimno. A więc znając wartośd liczbową temperatury chcemy oceniad
Bardziej szczegółowoRaporty zostały pogrupowane według pięciu kategorii (dla Personelu, dla Zasobów, dla Instruktorów, dla Serwisantów oraz Dowolny).
3. RAPORTY (szkolenia przeglądy i badania) Na poniższym rysunku została zaprezentowana główna ramka modułu szkoleń. Do trzeciej części głównego menu należą Raporty. ISO FT DMS. Rysunek 19 Raporty zostały
Bardziej szczegółowoGrupowanie stron WWW. Funkcje oceniające.
Eksploracja zasobów internetowych Wykład 6 Grupowanie stron WWW. Funkcje oceniające. mgr inż. Maciej Kopczyński Białystok 2015 Wstęp Rolą algorytmów grupujących jest pogrupowanie dokumentów na bazie ich
Bardziej szczegółowoGrupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Tematem wykładu są zagadnienia związane z grupowaniem. Rozpoczniemy od krótkiego wprowadzenia
Bardziej szczegółowoInteraktywne wyszukiwanie informacji w repozytoriach danych tekstowych
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury
Bardziej szczegółowoCena do wartości księgowej (C/WK, P/BV)
Cena do wartości księgowej (C/WK, P/BV) Wskaźnik cenadowartości księgowej (ang. price to book value ratio) jest bardzo popularnym w analizie fundamentalnej. Informuje on jaką cenę trzeba zapład za 1 złotówkę
Bardziej szczegółowoMiejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej
Miejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej Sport, promocja i turystyka Instrukcja użytkownika Historia zmian Wersja Data Kto Opis zmian 1.0 2013-12-13 MGGP S.A. Utworzenie
Bardziej szczegółowoPrzestrzenne bazy danych Podstawy języka SQL
Przestrzenne bazy danych Podstawy języka SQL Stanisława Porzycka-Strzelczyk porzycka@agh.edu.pl home.agh.edu.pl/~porzycka Konsultacje: wtorek godzina 16-17, p. 350 A (budynek A0) 1 SQL Język SQL (ang.structured
Bardziej szczegółowoWstęp do grupowania danych
Eksploracja zasobów internetowych Wykład 5 Wstęp do grupowania danych mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Istnieją dwie podstawowe metody klasyfikowania obiektów: metoda z nauczycielem, metoda
Bardziej szczegółowoData Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
Bardziej szczegółowoKLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Bardziej szczegółowoInstrukcja obsługi aplikacji PQ-CONTROL
Instrukcja obsługi aplikacji PQ-CONTROL Spis treści 1. Wprowadzenie... 3 1.1. Wymagania sprzętowe... 3 1.2. Objaśnienia... 3 1.3. Instalacja aplikacji... 3 1.4. Logowanie i wybór języka... 4 1.5. Widok
Bardziej szczegółowoPrawdopodobieństwo czerwonych = = 0.33
Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie
Bardziej szczegółowoZadanie 5 - Algorytmy genetyczne (optymalizacja)
Zadanie 5 - Algorytmy genetyczne (optymalizacja) Marcin Pietrzykowski mpietrzykowski@wi.zut.edu.pl wersja 1.0 1 Cel Celem zadania jest zapoznanie się z Algorytmami Genetycznymi w celu rozwiązywanie zadania
Bardziej szczegółowoInstrukcja zmian w wersji 1.13. Vincent Office
Instrukcja zmian w wersji 1.13 Vincent Office a)dostęp do baz danych możliwość blokowania dostępu do bazy danych dla wybranych użytkowników. Opcja ograniczania dostępu do baz danych jest częścią programu
Bardziej szczegółowoJĘZYKI PROGRAMOWANIA Z PROGRAMOWANIEM OBIEKTOWYM. Wykład 6
JĘZYKI PROGRAMOWANIA Z PROGRAMOWANIEM OBIEKTOWYM Wykład 6 1 SPECYFIKATOR static Specyfikator static: Specyfikator ten powoduje, że zmienna lokalna definiowana w obrębie danej funkcji nie jest niszczona
Bardziej szczegółowoMateriały do laboratorium MS ACCESS BASIC
Materiały do laboratorium MS ACCESS BASIC Opracowała: Katarzyna Harężlak Access Basic jest językiem programowania wykorzystywanym w celu powiązania obiektów aplikacji w jeden spójny system. PROCEDURY I
Bardziej szczegółowoLaboratorium z przedmiotu Programowanie obiektowe - zestaw 04
Laboratorium z przedmiotu Programowanie obiektowe - zestaw 04 Cel zajęć. Celem zajęć jest zapoznanie się ze sposobem działania popularnych kolekcji. Wprowadzenie teoretyczne. Rozważana w ramach niniejszych
Bardziej szczegółowoWyszukiwanie binarne
Wyszukiwanie binarne Wyszukiwanie binarne to technika pozwalająca na przeszukanie jakiegoś posortowanego zbioru danych w czasie logarytmicznie zależnym od jego wielkości (co to dokładnie znaczy dowiecie
Bardziej szczegółowoCo to jest grupowanie
Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie
Bardziej szczegółowoPROLOG INNE PRZYKŁADY MACIEJ KELM
PROLOG INNE PRZYKŁADY MACIEJ KELM PREDYKAT RANDOM Funkcja random zwraca losową liczbę całkowitą w przedziale od 1 do X. Gdzie X jest parametrem funkcji random. Przed użyciem random należy zainicjować tak
Bardziej szczegółowoArchiwizacja baz MSSQL /BKP_SQL/ opis oprogramowania
Archiwizacja baz MSSQL /BKP_SQL/ opis oprogramowania Kraków 2010 Przeznaczenie programu. Program BKP_SQL powstał z myślą ułatwienia procesy archiwizacji baz danych MSSQL. Program umożliwia seryjne wykonanie
Bardziej szczegółowoZawartość. Wstęp. Moduł Rozbiórki. Wstęp Instalacja Konfiguracja Uruchomienie i praca z raportem... 6
Zawartość Wstęp... 1 Instalacja... 2 Konfiguracja... 2 Uruchomienie i praca z raportem... 6 Wstęp Rozwiązanie przygotowane z myślą o użytkownikach którzy potrzebują narzędzie do podziału, rozkładu, rozbiórki
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie
Bardziej szczegółowoPrzykładowe zadania z teorii liczb
Przykładowe zadania z teorii liczb I. Podzielność liczb całkowitych. Liczba a = 346 przy dzieleniu przez pewną liczbę dodatnią całkowitą b daje iloraz k = 85 i resztę r. Znaleźć dzielnik b oraz resztę
Bardziej szczegółowoSprzedawaj jeszcze więcej dzięki usłudze Ads!
allegro ads.manual wstęp co to jest? Sprzedawaj jeszcze więcej dzięki usłudze Ads! Zaprezentuj pierwszy swoją Ofertę klientom dokładnie w momencie, w którym szukają jej w Allegro. Zapłacisz tylko wtedy,
Bardziej szczegółowoetrader Pekao Podręcznik użytkownika Ustawienia
etrader Pekao Podręcznik użytkownika Ustawienia Spis treści 1. Opis Ustawienia... 3 2. Zakres usług... 3 2.1. Pakiety notowań... 4 2.2. Informacja o obrotach... 5 3. Profil użytkownika... 5 3.1. Podstawowe
Bardziej szczegółowoDobór parametrów algorytmu ewolucyjnego
Dobór parametrów algorytmu ewolucyjnego 1 2 Wstęp Algorytm ewolucyjny posiada wiele parametrów. Przykładowo dla algorytmu genetycznego są to: prawdopodobieństwa stosowania operatorów mutacji i krzyżowania.
Bardziej szczegółowoPRZEWODNIK PO ETRADER PEKAO ROZDZIAŁ XIX. USTAWIENIA SPIS TREŚCI
PRZEWODNIK PO ETRADER PEKAO ROZDZIAŁ XIX. USTAWIENIA SPIS TREŚCI 1. OPIS USTAWIENIA 3 2. ZAKRES USŁUG 3 2.1. PAKIETY NOTOWAŃ 4 2.2. INFORMACJA O OBROTACH 5 3. PROFIL UŻYTKOWNIKA 6 3.1. PODSTAWOWE DANE
Bardziej szczegółowoAnaliza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
Bardziej szczegółowo