1. Grupowanie Algorytmy grupowania:
|
|
- Damian Kosiński
- 6 lat temu
- Przeglądów:
Transkrypt
1 Grupowanie...1 Algorytmy grupowania:...1 Grupowanie metodą k-średnich...3 Grupowanie z wykorzystaniem Oracle Data Miner i Rapid Miner...3 Grupowanie z wykorzystaniem algorytmu K-Means w środowisku ODM...3 Grupowanie w środowisku Rapid Miner a Grupowanie Grupowanie jest metodą tzw. klasyfikacji bez nadzoru (ang. unsupervised learning). Podział obiektów na klasy jednorodne realizowany jest na podstawie podobieństwa elementów. Kryteria podziału: P={Aq} q, gdzie qaq=i Aq Aq =Ø, q<>q, I zbiór obiektów, W celu określenia podobieństwa rekordów bazy danych należy wykonać: Przekształcenie wszystkich wartości zmiennych w zmienne numeryczne. Gdy dwa punkty są bliskie w sensie geometrycznym odpowiadają podobnym rekordom w bazie danych. Podobieństwo zmiennych ilościowych określa się jako: Odległość między punktami Kąt miedzy wektorami Zmiennych nominalnych i zmiennych porządkowych nie można traktować jako składowe wektora położenia, Podobieństwo zmiennych jakościowych określa się jako liczbę wspólnych cech Zmienne mogą mieć różny wkład w położenie punktu, by uniknąć nadmiarowości zmiennych stosuje się: Dzielenie każdej zmiennej przez średnią Normalizacja - Dzielenie każdej zmiennej przez zakres, po odjęciu najmniejszej wartości Standaryzacja - Odjęcie średniej od każdej zmiennej i podzielnie zmiennej przez odchylenie standardowe 1.1. Algorytmy grupowania: Algorytmy poszukiwania ogólnego ekstremum funkcji kryterialnej, Wyznaczeniu wszystkich możliwych podziałów elementów przestrzeni na zadaną ilość grup. Określenie wartości przyjętej funkcji kryterialnej dla każdego z wyznaczonych podziałów. Za optymalny uznaje się ten, dla którego wartość funkcji kryterialnej osiągnęła ekstremum.
2 Algorytmy hierarchicznego podziału i grupowania. Algorytmy hierarchicznego podziału - poszukiwanie takiego podziału elementów przestrzeni na dwa rozłączne podzbiory, aby przyjęta funkcja kryterialna osiągnęła dla niego ekstremum. Po wyznaczeniu optymalnego podziału na dwie grupy, algorytm ma za zadanie wybrać spośród wszystkich grup, tę o najmniejszej spójności, i podzielić ją na dwie grupy, aby osiągnąć ekstremum przyjętej funkcji kryterialnej. Algorytmy hierarchicznego grupowania - łączenie w grupy elementów o największym podobieństwie. W pierwszym kroku każdy element przestrzeni stanowi oddzielną jednoelementową grupę. Następnie kolejno w każdym kroku następuje łączenie w grupy elementów, których wzajemne podobieństwo jest największe. Metody iteracyjne Wybór elementów, które można uznać za początkowe przybliżenie reprezentantów q(v1),...,q(vl). Przeprowadzenie klasyfikacji elementów, polegającej na takim przyporządkowaniu każdego elementu do grupy wyznaczonej przez reprezentanta, dla którego funkcja podobieństwa osiąga ekstremum. Określenie nowego położenie reprezentantów dla nowo wyznaczonych grup Gdy nowo wyznaczeni reprezentanci grup różnią się od reprezentantów z poprzedniego kroku iteracji, należy powrócić do kroku drugiego uwzględniając nowych reprezentantów grup. Natomiast w przypadku, gdy nowo wyznaczeni reprezentanci są identyczni z tymi z poprzedniego kroku iteracji, wówczas uzyskany podział uważa się za optymalny. Gdy obiekty nie poddają sie transformacji do przestrzeni euklidesowej, proces grupowania wymaga zdefiniowania innych miar odległości (podobieństwa): sekwencja dostępów do stron WWW, sekwencje DNA, sekwencje zbiorów, zbiory atrybutów kategorycznych, dokumenty tekstowe, XML, grafy, itp.. Ocena podobieństwa stron WWW: punkty w przestrzeni wielowymiarowej, w której pojedynczy wymiar odpowiada jednemu słowu z określonego słownika. Podobieństwo (odległość) D(x, y) stron x i y zdefiniowane jako znormalizowany iloczyn skalarny wektorów reprezentujących x i y, tj. miarę kosinusową. Współrzędne dokumentu w przestrzeni są zdefiniowane jako względna częstość występowania słów ze słownika
3 2. Grupowanie metodą k-średnich Klasyczny algorytm k-średnich (J. MacQueena), nazywany algorytmem centroidów, został spopularyzowany przez Hartigana i Wonga. Grupowanie metodą k-średnich polega na przypisaniu obserwacji (przy ustalonej liczbie k) do skupień. Następnie uzyskany podział jest poprawiany w ten sposób, że niektóre elementy są przenoszone do innych klas, tak, aby uzyskać minimalną wariancję wewnątrz uzyskanych klas. Proces ten powtarzany jest iteracyjnie tak długo, aż żaden z obiektów nie zmieni swej przynależności do klastra. 3. Grupowanie z wykorzystaniem Oracle Data Miner i Rapid Miner Zaimportuj tabelę z danymi. Dane: churn.txt Grupowanie z wykorzystaniem algorytmu K-Means w środowisku ODM. 1. Uruchom narzędzie Oracle Data Miner i połącz sie z serwerem bazy danych. 2. Z menu głównego wybierz Activity_Build. 3. Z listy Function Type wybierz Clustering. Rozwin listę Algorithm i wybierz z niej algorytm K-Means. 4. Wskaż schemat DMUSER i tabele CHURN (sprawdź nazwę pliku) jako zródło danych do eksploracji. Jako klucz podstawowy wskaż atrybut CUST_ID. W grupowaniu wykorzystaj następujące zmienne: account_length (czas współpracy) international_plan (plan międzynarodowy) voice_mail_plan (poczta głosowa) total_day_minutes (całkowita liczba minut w ciągu dnia) total_eve_minutes (całkowita liczba minut wieczorem)
4 total_night_minutes (całkowita liczba minut w nocy) total_intl_minutes (całkowita liczba minut rozmów międzynarodowych) total_intl_calls (całkowita liczba rozmów międzynarodowych) number_customer_service_calls, ( liczba rozmów z biurem klienta) 5. Podaj nazwę i krótki opis procesu eksploracji. 6. Kliknij przycisk Advanced Settings. Upewnij sie, że na zakładce Sample opcja próbkowania jest wyłączona (pole wyboru Enable Step jest odznaczone). Analogicznie upewnij sie, że wyłączone są kroki Outlier Treatement, Missing Values i Normalize. Przejdz na zakładke Build, wpisz wartosc 3 jako liczba klastrów (Number of Clusters). Wybierz euklidesowa funkcje odległosci (Distance Function - Euclidean), oraz Split Criterion ustaw na Size. Kliknij przycisk OK. 7. Upewnij sie, że opcja Run upon finish jest włączona. 8. Kliknij na odnośnik Result w bloku Build. Zaznacz opcję Show Leaves Only.
5 9. Przejdź na zakładkę Rules. Zaznacz opcję Only Show Rules for Leaf Clusters. Wybierz dowolny klaster i przeanalizuj atrybuty, które trafiają do wybranego klastra. 10. Zastosuj zbudowany model. W tym celu Z menu głównego wybierz Activity_Apply. Wybierz odpowiedni model (zbudowany w punkcie B) Wybierz odpowiedni zbiór danych
6 Wybierz atrybuty cust_id, churn, number_vmail_messages, international_plane Zaznacz Number of best cluster id Wprowadź opis 3. Przeprowadź analizę uzyskanych wyników
7 3.2. Grupowanie w środowisku Rapid Miner a Przygotuj diagram procesu analizy z wykorzystaniem algorytmu k-means Utwórz nowy proces ksrednich Zamieść operator Retrive (Repository Access->Retrive), który umożliwi wczytanie danych ze zbióru Iris (dostepny w przykładach). Wykorzystaj operator Select Attributes (Data Transformations -> Attribute Set Reduction and Transformations -> Selection -> Select Attributes). W algorytmie grupowania wykorzystane zostaną tylko a3, a4 i label Zamieścć operator grupowania metodą k-średnich (Modeling -> Clustering and Segmentation -> k-means). Ustal liczbę klastrów na 2
8 Uruchom proces Przeprowadź analizę uzyskanych wyników. Sprawdź jak zmieniają się wyniki przy zmianie liczby ugrupowań. Wykres rozproszenia dla badanych atrybutow Wyniki grupowania:
9 Przeprowadź analizę dla innej liczby klastrów Żródła: ABCEACC BFDDJB %2Ftextbook%2Fstcluan.html
Laboratorium 11. Regresja SVM.
Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z
Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.
Laboratorium 10 Odkrywanie cech i algorytm Non-Negative Matrix Factorization. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie
Laboratorium 6. Indukcja drzew decyzyjnych.
Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Laboratorium 13. Eksploracja danych tekstowych.
Laboratorium 13 Eksploracja danych tekstowych. Eksploracja danych tekstowych oraz kroki wstępne przetwarzania tekstu zostaną wykonane zarówno w środowisku SQL, jak i za pomocą narzędzia Oracle Data Miner.
Laboratorium 4. Naiwny klasyfikator Bayesa.
Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Laboratorium 5. Adaptatywna sieć Bayesa.
Laboratorium 5 Adaptatywna sieć Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>.
Laboratorium 3. Odkrywanie reguł asocjacyjnych.
Laboratorium 3 Odkrywanie reguł asocjacyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Tools SQL Worksheet. W górnym oknie wprowadź i wykonaj
Laboratorium 12. Odkrywanie osobliwości.
Laboratorium 12 Odkrywanie osobliwości. Odkrywanie osobliwości (ang. outliers) za pomocą algorytmu SVM zostanie w pierwszej części ćwiczenia przeprowadzone w środowisku SQL, a w drugiej części wykorzystamy
Przykład Rezygnacja z usług operatora
Przykład Rezygnacja z usług operatora Zbiór CHURN Zbiór zawiera dane o 3333 klientach firmy telefonicznej razem ze wskazaniem, czy zrezygnowali z usług tej firmy Dane pochodzą z UCI Repository of Machine
Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
1. Odkrywanie asocjacji
1. 2. Odkrywanie asocjacji...1 Algorytmy...1 1. A priori...1 2. Algorytm FP-Growth...2 3. Wykorzystanie narzędzi Oracle Data Miner i Rapid Miner do odkrywania reguł asocjacyjnych...2 3.1. Odkrywanie reguł
Laboratorium 2. Określanie ważności atrybutów.
Laboratorium 2 Określanie ważności atrybutów. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Algorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, rozważane dotychczas problemy koncentrowały się na nauczeniu na podstawie zbioru treningowego i zbioru etykiet klasyfikacji
2. Ocena dokładności modelu klasyfikacji:
Spis treści: 1. Klasyfikacja... 1 2. Ocena dokładności modelu klasyfikacji:...1 2.1. Miary dokładności modelu...2 2.2. Krzywe oceny...2 3. Wybrane algorytmy...3 3.1. Naiwny klasyfikator Bayesa...3 3.2.
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Laboratorium 7. Support Vector Machines (klasyfikacja).
Laboratorium 7 Support Vector Machines (klasyfikacja). 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Algorytmy klastujące Problem 3 Mając daną chmurę punktów chcielibyśmy zrozumieć ich
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego
Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Tematem wykładu są zagadnienia związane z grupowaniem. Rozpoczniemy od krótkiego wprowadzenia
Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.
ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.
Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Algorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
Grupowanie danych. Wprowadzenie. Przykłady
Grupowanie danych str. 1 Wprowadzenie Celem procesu grupowania jest podział zbioru obiektów, fizycznych lub abstrakcyjnych, na klasy obiektów o podobnych cechach, nazywane klastrami lub skupieniami Klaster
1. Cele eksploracyjnej analizy danych Rapid Miner zasady pracy i wizualizacja danych Oracle Data Miner -zasady pracy.
Spis treści: 1. Cele eksploracyjnej analizy danych...1 2. Rapid Miner zasady pracy i wizualizacja danych...3 3. Oracle Data Miner -zasady pracy.12 3.1 ODM PL/SQL.......12 3.2 ODM JAVA API......12 3.2.1
1. Przygotowanie danych do analizy. Transformacja danych
Spis treści: 1. 2. 3. 3. Przygotowanie danych do analizy. Transformacja danych.1 Rapid Miner transformacja danych.2 Oracle Data Miner - Przygotowanie danych do analizy...5 Transformacja danych w ODM JAVA
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
b) Umiejętność wykonania analizy zależności zmiennych i interpretacji uzyskanych wyników.
Cele: a) Umiejętność przeprowadzenia analizy struktury wybranego zbioru obserwacji Obliczanie miar tendencji centralnych, miar rozproszenia, współczynnika skośności i miary spłaszczenia z wykorzystaniem
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana II stopień studiów Wykład 13b 2 Eksploracja danych Co rozumiemy pod pojęciem eksploracja danych Algorytmy grupujące (klajstrujące) Graficzna
Wykrywanie nietypowości w danych rzeczywistych
Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1 Agenda 1 2 3 4 5 6 Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania
Wielowymiarowe metody segmentacji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Cele CHAID Dane CHAID Przebieg analizy CHAID Parametry CHAID Wyniki Metody analizy skupień Wprowadzenie Charakterystyka
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Ćwiczenie 12. Metody eksploracji danych
Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych
Graficzna prezentacja danych statystycznych
Szkolenie dla pracowników Urzędu Statystycznego nt. Wybrane metody statystyczne w analizach makroekonomicznych Katowice, 12 i 26 czerwca 2014 r. Dopasowanie narzędzia do typu zmiennej Dobór narzędzia do
Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
2. Text Mining...11 Realizacja analizy tekstów z wykorzystaniem ODM...12 Realizacja analizy tekstów z wykorzystaniem RM...17
1. Sieci neuronowe...1 1.1. Model neuronu...1 1.2. Perceptron...2 1.3. Sieci RBF...2 1.4. Definiowanie i trenowanie sieci neuronowych...3 1.4.1. Reguła delty...3 1.4.2. Algorytm wstecznej propagacji...4
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Praca z danymi zaczyna się od badania rozkładu liczebności (częstości) zmiennych. Rozkład liczebności (częstości) zmiennej to jakie wartości zmienna
Eksploracja danych - wykład II
- wykład 1/29 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Październik 2015 - wykład 2/29 W kontekście odkrywania wiedzy wykład - wykład 3/29 CRISP-DM - standaryzacja
Sieci Kohonena Grupowanie
Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie
Finanse. Jak wykonać import listy płac z programu Płace Optivum do aplikacji Finanse?
Finanse Jak wykonać import listy płac z programu Płace Optivum do aplikacji Finanse? Operacja importu list płac z programu Płace Optivum do aplikacji Finanse przebiega w następujących krokach: 1. wybór
INSTRUKCJA AKTYWACJI I OBSŁUGI BRAMKI SMS DLA FIRM. (Bramka SMS dla małych Firm, Bramka SMS Pro)
INSTRUKCJA AKTYWACJI I OBSŁUGI BRAMKI SMS DLA FIRM (Bramka SMS dla małych Firm, Bramka SMS Pro) 1. AKTYWACJA USŁUGI... 2 2. OPIS PODSTAWOWYCH FUNKCJONALNOŚCI BRAMKI SMS... 4 2.1. DEFINIOWANIE GRUPY ODBIORCÓW...
Techniki grupowania danych w środowisku Matlab
Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe
Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje
Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje Opracował: Zbigniew Rudnicki Powtórka z poprzedniego wykładu 2 1 Dokument, regiony, klawisze: Dokument Mathcada realizuje
Informatyka Ćwiczenie 10. Bazy danych. Strukturę bazy danych można określić w formie jak na rysunku 1. atrybuty
Informatyka Ćwiczenie 10 Bazy danych Baza danych jest zbiór informacji (zbiór danych). Strukturę bazy danych można określić w formie jak na rysunku 1. Pracownik(ID pracownika, imie, nazwisko, pensja) Klient(ID
Bazy danych TERMINOLOGIA
Bazy danych TERMINOLOGIA Dane Dane są wartościami przechowywanymi w bazie danych. Dane są statyczne w tym sensie, że zachowują swój stan aż do zmodyfikowania ich ręcznie lub przez jakiś automatyczny proces.
Krzysztof Kluza proste ćwiczenia z baz danych
Bazy danych Baza danych to uporządkowany zbiór danych, dający się łatwo przeszukiwać. Każda pozycja bazy danych nazywana jest rekordem, z kolei rekordy składają się z pól. Przyjmując, że dysponujemy bazą
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin Henryk Bujak e-mail: h.bujak@ihar.edu.pl Ocena różnorodności fenotypowej Różnorodność fenotypowa kolekcji roślinnych zasobów
STATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.
Programowanie w języku C++ Grażyna Koba
Programowanie w języku C++ Grażyna Koba Kilka definicji: Program komputerowy to ciąg instrukcji języka programowania, realizujący dany algorytm. Język programowania to zbiór określonych instrukcji i zasad
4.3 Grupowanie według podobieństwa
4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi
Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.
Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide. 1. Załóż we własnym folderze podfolder o nazwie cw2 i przekopiuj do niego plik
Wprowadzenie do programu RapidMiner, część 4 Michał Bereta
Wprowadzenie do programu RapidMiner, część 4 Michał Bereta www.michalbereta.pl 1. Wybór atrybutów (ang. attribute selection, feature selection). Jedną z podstawowych metod analizy współoddziaływania /
Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Podstawowa charakterystyka statystyczna
Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Podstawowa charakterystyka statystyczna 1. Załóż we własnym folderze podfolder o nazwie cw2 i przekopiuj do niego plik babulice100.xls
Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica
Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica 1. Zarządzanie danymi. Pierwszą czynnością w pracy z pakietem Statistica jest zazwyczaj wprowadzenie danych do arkusza. Oprócz możliwości
Analiza danych i data mining.
Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data
Ćwiczenie 5. Eksploracja danych
Ćwiczenie 5. Eksploracja danych 1. Uruchomienie i skonfigurowanie środowiska do ćwiczeń Czas trwania: 15 minut Zadaniem niniejszych ćwiczeń jest przedstawienie podstawowych zagadnień dotyczących wykorzystywania
Skalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
Sposób tworzenia tabeli przestawnej pokażę na przykładzie listy krajów z podstawowymi informacjami o nich.
Tabele przestawne Tabela przestawna to narzędzie służące do tworzenia dynamicznych podsumowań list utworzonych w Excelu lub pobranych z zewnętrznych baz danych. Raporty tabeli przestawnej pozwalają na
Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie
Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych
Porównanie systemów automatycznej generacji reguł działających w oparciu o algorytm sekwencyjnego pokrywania oraz drzewa decyzji
Porównanie systemów automatycznej generacji reguł działających w oparciu o algorytm sekwencyjnego pokrywania oraz drzewa decyzji Wstęp Systemy automatycznego wyodrębniania reguł pełnią bardzo ważną rolę
Analiza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
KLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Reprezentacja i analiza obszarów
Cechy kształtu Topologiczne Geometryczne spójność liczba otworów liczba Eulera szkielet obwód pole powierzchni środek ciężkości ułożenie przestrzenne momenty wyższych rzędów promienie max-min centryczność
Kostki OLAP i język MDX
Kostki OLAP i język MDX 24 kwietnia 2015 r. Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików PDF sformatowanych jak ten. Będą się na nie składały różne rodzaje zadań,
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Analiza Skupień Cluster analysis
Metody Eksploracji Danych w wykładzie wykorzystano: 1. materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych Informatyka http://wazniak.mimuw.edu.pl
Ćwiczenie 5. Metody eksploracji danych
Ćwiczenie 5. Metody eksploracji danych Reguły asocjacyjne (association rules) Badaniem atrybutów lub cech, które są powiązane ze sobą, zajmuje się analiza podobieństw (ang. affinity analysis). Metody analizy
SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Algorytm k-średnich. Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 2005.
Algorytm k-średnich Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 005. Dane a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,) Algorytm k-średnich
Mail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Analiza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0
Słowem wstępu Część rodziny języków XSL Standard: W3C XSLT 1.0-1999 razem XPath 1.0 XSLT 2.0-2007 Trwają prace nad XSLT 3.0 Problem Zakładane przez XML usunięcie danych dotyczących prezentacji pociąga
Wprowadzenie do hurtowni danych
Wprowadzenie do hurtowni danych przygotował: Paweł Kasprowski Kostka Kostka (cube) to podstawowy element hurtowni Kostka jest wielowymiarowa (od 1 do N wymiarów) Kostka składa się z: faktów wektora wartości
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Wykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
Oracle Application Express
Oracle Application Express Dla Oracle Application Express 4.2.2 Część 3. Projekt aplikacji zaawansowanej W niniejszej części ćwiczenia zbudujemy stronę aplikacji, której zadaniem będzie wyświetlenie dla
KOMPUTEROWY SYSTEM WSPOMAGANIA OBSŁUGI JEDNOSTEK SŁUŻBY ZDROWIA KS-SOMED
KOMPUTEROWY SYSTEM WSPOMAGANIA OBSŁUGI JEDNOSTEK SŁUŻBY ZDROWIA KS-SOMED Podręcznik użytkownika Katowice 2010 Producent programu: KAMSOFT S.A. ul. 1 Maja 133 40-235 Katowice Telefon: (0-32) 209-07-05 Fax:
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
NARZĘDZIA BADAWCZE W QGIS LOSOWANIE PUNKTÓW NA WARSTWIE LINIOWEJ
NARZĘDZIA BADAWCZE W QGIS LOSOWANIE PUNKTÓW NA WARSTWIE LINIOWEJ LOSOWE PUNKTY WZDŁUŻ LINII, CONVERT LINES TO POINTS, PUNKTY WZDŁUŻ GEOMETRII + ZAZNACZENIE LOSOWE WOJCIECH CHLEBOWSKI;PAWEŁ ZMUDA-TRZEBIATOWSKI
Grupowanie. Iteracyjno-optymalizacyjne metody grupowania Algorytm k-średnich Algorytm k-medoidów. Eksploracja danych. Grupowanie wykład 2
Grupowanie Iteracyjno-optymalizacyjne metody grupowania Algorytm k-średnich Algorytm k-medoidów Grupowanie wykład 2 Tematem wykładu są iteracyjno-optymalizacyjne algorytmy grupowania. Przedstawimy i omówimy
Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON 3
Wydawnictwo UR 2016 ISSN 2080-9069 ISSN 2450-9221 online Edukacja Technika Informatyka nr 4/18/2016 www.eti.rzeszow.pl DOI: 10.15584/eti.2016.4.46 TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON
Data Mining z wykorzystaniem programu Rapid Miner
Data Mining z wykorzystaniem programu Rapid Miner Michał Bereta www.michalbereta.pl Program Rapid Miner jest dostępny na stronie: http://rapid-i.com/ Korzystamy z bezpłatnej wersji RapidMiner Community
c) Sprawdź, czy jest włączone narzędzie Image classification. Jeśli nie, to je włącz: Customize Toolbars Image Classification
3. KLASYFIKACJA Proces klasyfikacji obrazów satelitarnych polega na utworzeniu ze zbioru danych wejściowych pojedynczej mapy wynikowej. Dane multispektralne stanowią zbiór map rastrowych z tym samym odniesieniem
Systemy baz danych. mgr inż. Sylwia Glińska
Systemy baz danych Wykład 1 mgr inż. Sylwia Glińska Baza danych Baza danych to uporządkowany zbiór danych z określonej dziedziny tematycznej, zorganizowany w sposób ułatwiający do nich dostęp. System zarządzania
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
Zagadnienie klasyfikacji (dyskryminacji)
Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka
HOTSPOT. [ konfiguracja, rejestracja, użytkowanie ]
G [ internet.partner ] HOTSPOT [ konfiguracja, rejestracja, użytkowanie ] 1.Konfiguracja połączenia bezprzewodowego W pierwszej kolejności należy upewnić się, iż komputer jest poprawnie skonfigurowany,
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2017/2018
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2017/2018 Grupowanie zmiennych 2 Grupowanie zmiennych W eksploracji danych zajmujemy się
Jak zainstalować i skonfigurować komunikator MIRANDA, aby wyglądał i funkcjonował jak Gadu Gadu Tutorial by t800.
Jak zainstalować i skonfigurować komunikator MIRANDA, aby wyglądał i funkcjonował jak Gadu Gadu Tutorial by t800. Wraz z niniejszym tutorialem, dołączone są 4 pliki (krok0, krok1, itd). Nie należy ich
Dokąd on zmierza? Przemieszczenie i prędkość jako wektory
A: 1 OK Muszę to powtórzyć... Potrzebuję pomocy Dokąd on zmierza? Przemieszczenie i prędkość jako wektory Łódź żegluje po morzu... Płynie z szybkością 10 węzłów (węzeł to 1 mila morska na godzinę czyli
Przykładowa analiza danych
Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
programu X-lite Spis treści
instrukcja instalacji i konfiguracji programu X-lite Spis treści Instalacja programu X-lite... 2 Konfiguracja programu X-lite... 3 Aktywacja poczty głosowej tp... 4 Opcje powiadamiania poczty głosowej