Eksploracja danych w środowisku R
|
|
- Jan Piątkowski
- 7 lat temu
- Przeglądów:
Transkrypt
1 Eksploracja danych w środowisku R Moi drodzy, niniejszy konspekt nie omawia eksploracji danych samej w sobie. Nie dowiecie się tutaj o co chodzi w generowaniu drzew decyzyjnych czy grupowaniu danych. Te informacje znajdziecie w osobnych materiałach do których źródła wam podaję w odpowiednich częściach tego konspektu. Jest on natomiast instrukcją do wykonania algorytmów drzew decyzyjnych oraz analizy skupieo (metody grupowania) dla wybranego przeze mnie zbioru danych irysów z repozytorium danych UCI Machine Learning Repository. Algorytmy wywołacie w środowisku R gdyż ma on zaimplementowane odpowiednie do tego pakiety. Część I: Drzewa decyzyjne Jeśli chcecie zdobyd szerszą wiedzę z zakresu drzew decyzyjnych, nie obejdzie się bez lektury wykładu: Lektura tego wykładu bądź innych materiałów dotyczących drzew decyzyjnych jest niezbędna byście dobrze zrozumieli ideę tej grupy metod eksploracji wiedzy. Drzewa decyzyjne budują z danych drzewo, którego odczyt w kierunku od korzenia do liścia, odpowiada regule, w której po spełnieniu określonych warunków podejmowana jest pewna decyzja. Atrybut decyzyjny (ang. class) występuje w drzewie jako liśd, zaś wierzchołki drzewa nie będące liśdmi są atrybutami warunkowymi. Istnieje wiele algorytmów budowy drzew decyzyjnych: ID3, CART, C4.5 itp. Ale ich poznanie nie jest tutaj niezbędne. Istotą tego dwiczenia jest próba zbudowania dla własnego zbioru danych drzewa decyzyjnego w środowisku R. Najpierw przybliżmy sobie zbiór irysów. Link: Opis danych znajdziecie pod linkiem: Po krótkim spojrzeniu na zbiór można bez problemów dostrzec, że dane dotyczą 150 kwiatów irysów, które opisano 4 cechami (atrybuty warunkowe): długośd i szerokośd płatka, oraz długośd i szerokośd łodygi. Dodatkowo mamy atrybut decyzyjny (class) który przyjmuje 3 możliwe wartości: Iris-setosa, Iris-Versicolor oraz Iris-virginica, które równo dzielą zbiór po 50 obserwacji dla każdej z tych klas (33.3%).
2 Najpierw musimy wczytad poprawnie zbiór danych. Jako że w pliku Iris.data nie ma nagłówków a dane są rozdzielone przecinkiem,, należy użyd odpowiedniej formuły w R, która wczyta dane do tablicy, i rozdzieli do osobnych kolumn dane rozdzielone separatorem,. Drzewa decyzyjne to taka specyficzna metoda budowy klasyfikatorów w której model klasyfikacji (tutaj drzewo) jest budowane nie z całego zbioru danych, ale z ich części. My więc wczytamy cały zbiór 1:150 obserwacji ale do wygenerowania drzewa użyjemy jedynie 75 obserwacje. Teraz załadujemy bibliotekę rpart, która dostarcza algorytmów generowania drzew decyzyjnych. Pozostaje nam wywoład algorytm do generowania drzewa decyzyjnego i jego wyświetlenie: Taki zapis na 1 rzut oka może się wydad nieczytelny. Przybliżę Wam go zaraz. Uwaga 1: Irysy$V5 to atrybut decyzyjny użyty do budowy drzewa decyzyjnego. Wiec jeśli w waszych zbiorach macie atrybut decyzyjny jako V11 to pamiętajcie by użyd odpowiedniej formuły. Uwaga 2: jeśli u was atrybut decyzyjny jest liczbą to trzeba go najpierw zamienid na cechę jakościową. Czyli np. dane 1,2,3 na : klasa1,klasa2 i klasa3. Jako pierwszy (tutaj czerwone kółeczko) widzimy numer wierzchołka w drzewie. Zielony prostokąt to warunek który musi byd spełniony by podjąd pewne decyzje (tutaj zakreślone na niebiesko). A więc odczyt tego przykładowego drzewa powinien byd następujący: Jeżeli V3 < 2.45 to class=iris-setosa Jeżeli V3>=2.45 to:
3 Jeżeli V3<4.85 to class=iris-versicolor Jeżeli V3>=4.85 to class=iris-virginica < 2.45 V3 >= 2.45 V3 < 4.85 >=4.85 Irissetosa Irisversicolor Irisvirginica W wyniku wywołania algorytmu widzimy także dodatkowe informacje (liczby): Oznaczają one odpowiednio prawdopodobieostwa przynależności do jednej z 3 znanych nam już teraz klas irysów. Widad, że w wierszu drugim (który jest jednocześnie już liściem w drzewie (o czym świadczy m.in. znak * na koocu)) mamy prawdopodobieostwo przynależności do 1 klasy równe 1.00, do drugiej klasy równe 0 i do 3 klasy także 0. Dlatego 0 gdyż tutaj nie zaklasyfikowano obserwacji innych niż te z klasy 1. W przypadku wierzchołka nr 6 widzimy, że nowy obiekt który spełni warunki: V3 > 2.45 i jednocześnie V3 < 4.85, zostanie zaklasyfikowany przez drzewo do klasy iris=versicolor ale jednocześnie dowiadujemy się, że będzie tak dlatego, że prawdopodobieostwo, że trafi on do klasy 1 wynosi 0, do klasy 3: 0.09 a do klasy 2: 0.90 a więc najwięcej stąd taka klasyfikacja. Graficzna reprezentacja drzewa możliwa będzie dzięki zastosowaniu funkcji: Czego efektem będzie rysunek:
4 Który odczytujemy od korzenia do liści.i widad, że potwierdza to opis uzyskany przez wywołanie funkcji rpart (wyżej). Całośd drzewa możemy odczytad jako następujący zbiór reguł: Jeśli V3 < 2.45 to Iris-Setosa Jeśli V3 >= 2.45 i V3 <4.85 to Iris-versicolor Jeśli V3 >=2.45 I V3>=4.85 to iris-virginica Część II: Analiza skupień Niezbędna jest lektura wykładu: jeśli chcecie zdobyd wiedzę z zakresu analizy skupieo. Generalnie analiza skupieo pozwala znajdowad w dużych zbiorach danych pewne grupy obiektów, które są do siebie podobne biorąc pod uwagę ich cechy (atrybuty warunkowe). Nie musi byd tu określony atrybut decyzyjny ( w drzewach decyzyjnych musi!). Ważne jednak, że nie da się algorytmami, które tu zostaną wykorzystane pogrupowad danych nienumerycznych. Wyróżnia się 2 typy algorytmów: hierarchiczne i niehierarchiczne. Jak się domyślacie, pierwsze budują drzewa z obiektów (hierarchie), drugie tworzą struktury, które nie mają hierarchii. Wśród tych niehierarchicznych przedstawimy algorytm k-średnich (o którym m.in. wyczytacie w wykładzie, którego link podaję wyżej) oraz hierarchiczny aglomeracyjny (o nim też znajdziecie informacje w ww. wykładzie). W algorytmach niehierarchicznych musimy określid liczbę grup która ma zostad utworzona, co nie zawsze jest możliwe. Dlatego często korzysta się z algorytmów hierarchicznych, które takich wymagao nie mają. Mają jednak inne wady. Najpierw podejrzymy raz jeszcze z jakimi danymi mamy do czynienia. Można użyd funkcji summary, która wyświetli podstawowe statystyki dotyczące każdej z analizowanych cech.
5 Widzimy, że atrybut decyzyjny (w typ wypadku V5) ma 3 klasy, więc najpierw spróbujemy sprawdzid czy nie biorąc pod uwagę tego atrybutu, algorytm analizy skupieo faktycznie przydzieli nam poprawnie 150 obiektów do tych 3 klas: Irissetosa, Iris-versicolor i Iris-virginica. Najpierw musimy zatem poddad obróbce nasz wejściowy zbiór tak by nie był brany pod uwagę atrybut decyzyjny (bo w zbiorze irysów taki atrybut występuje, jest on dodatkowo nienumeryczny, co uniemożliwiłoby wykonanie algorytmu): Spreparowaliśmy sobie jakby nowy zbioru o nazwie irysy_grupowane który jest obcięciem dotychczasowego zbioru 150 irysów o atrybut decyzyjny (a więc tylko pierwsze 4 kolumny). Następnie wywołaliśmy metodę kmeans która jest odpowiednikiem algorytmu k-średnich i spróbujemy podzielid tym algorytmem zbiór irysy_grupowane na 3 grupy. Wyświetlimy wyniki wywołując metodę print Widzimy m.in. rozkład średnich w grupach (sekcja Cluster means ). W sekcji Clustering vector widzimy przynależnośd każdego ze 150 obiektów do 3 klas. Pozostałe informacje nie są istotne na tym etapie. Teraz wywołamy funkcję do wyrysowania struktury skupieo. Wystarczy wywoład metodę plot i podad jej jako argumenty źródłowy zbiór irysów:
6 Efekt jest mało czytelny. Widzimy rozkład obiektów osobno dla każdej z cech: V1, V2, V3, V4. Jak dołożyd kolory? Co w efekcie da
7 Grupowanie realizowane jest także poprzez metodę mclust z pakietu o tej samej nazwie. W podstawowej wersji wywołania metody nie podaje się liczby skupieo (grup), a jedynie zbiór danych, które chcemy pogrupowad. Możemy użyd komend: Uwaga: Najpierw trzeba zainstalowad pakiet mclust a potem go załadowad wybierając z menu R opcję load packages i wybrad wspomniany pakiet.
8 Metody hierarchiczne Efekt: Jeżeli dla tego samego zbioru danych chcemy zastosowad algorytm grupowania hierarchicznego, możemy użyd funkcji hclust a do jej graficznej reprezentacji funkcji plot, tak jak to pokazuje kod:
9 Efektem będzie wykres zwany dendrogramem, z tym, że będzie on mało czytelny dla dużych zbiorów obserwacji, z tego względu, że wszystkie liście drzewa są wyrysowane na jednym poziomie na wykresie, i zwyczajnie nachodzą na siebie. Klasycznym algorytmem hierarchicznym jest właśnie algorytm aglomeracyjny, którego jednym z wersji jest algorytm o nazwie agnes (ang. AGlomerative NESting). Został on również zaimplementowany w środowisku R i realizowany jest przez wywołanie komendy o tej samej nazwie co nazwa algorytmu a więc agnes: Wymagało to :
10 Ważnym aspektem algorytmu jest wybór metody tworzenia kolejnych skupieo (na kolejnych poziomach w hierarchii). Są metody m.in. average, single oraz complete. Występują istotne różnice między nimi. Możemy zaprezentowad wyniki grupowania w zależności od wybranej metody. Utworzymy jeden obraz na który naniesiemy 3 różne wykresy: Daje efekt: Koniec! Waszym zadaniem jest teraz dla swojego zbioru danych wczytad go, a następnie spróbowad jeśli nie dla całego zbioru to dla jego części zbudowad i opisad drzewo decyzyjne oraz pogrupowad dane zarówno algorytmami niehierarchicznym jak i hierarchicznym. Powodzenia!
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Bardziej szczegółowoZajęcia nr VII poznajemy Rattle i pakiet R.
Okno główne Rattle wygląda następująco: Zajęcia nr VII poznajemy Rattle i pakiet R. Widzimy główne zakładki: Data pozwala odczytad dane z różnych źródeł danych (pliki TXT, CSV) i inne bazy danych. Jak
Bardziej szczegółowoData Mining z wykorzystaniem programu Rapid Miner
Data Mining z wykorzystaniem programu Rapid Miner Michał Bereta www.michalbereta.pl Program Rapid Miner jest dostępny na stronie: http://rapid-i.com/ Korzystamy z bezpłatnej wersji RapidMiner Community
Bardziej szczegółowoALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
Bardziej szczegółowoPodstawy grupowania danych w programie RapidMiner Michał Bereta
Podstawy grupowania danych w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Grupowanie hierarchiczne Grupowanie (analiza skupieo, ang. clustering) ma na celu automatyczne wykrycie grup istniejących
Bardziej szczegółowoWprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
Bardziej szczegółowoAby zastosowad tabelę przestawną należy wybrad dowolną komórkę w arkuszu i z menu Wstawianie wybierz opcję Tabela Przestawna.
Zajęcia nr 3: Tabele i wykresy przestawne Przypuśdmy, że mamy zbiór do analizy: Aby zastosowad tabelę przestawną należy wybrad dowolną komórkę w arkuszu i z menu Wstawianie wybierz opcję Tabela Przestawna.
Bardziej szczegółowoPrawdopodobieństwo czerwonych = = 0.33
Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie
Bardziej szczegółowoPrzykład Rezygnacja z usług operatora
Przykład Rezygnacja z usług operatora Zbiór CHURN Zbiór zawiera dane o 3333 klientach firmy telefonicznej razem ze wskazaniem, czy zrezygnowali z usług tej firmy Dane pochodzą z UCI Repository of Machine
Bardziej szczegółowoPrzestrzeń algorytmów klastrowania
20 listopada 2008 Plan prezentacji 1 Podstawowe pojęcia Przykłady algorytmów klastrowania 2 Odległość algorytmów klastrowania Odległość podziałów 3 Dane wejściowe Eksperymenty Praca źródłowa Podstawowe
Bardziej szczegółowoCLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Bardziej szczegółowoTemat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji
Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT Część I: analiza regresji Krok 1. Pod adresem http://zsi.tech.us.edu.pl/~nowak/adb/eksport.txt znajdziesz zbiór danych do analizy. Zapisz plik na dysku w dowolnej
Bardziej szczegółowoMateriał dotyczy generowania różnego typu wykresów w środowisku R.
Materiał dotyczy generowania różnego typu wykresów w środowisku R. Pamiętajmy, że niektóre typy wykresów są dedykowane do pewnych typów danych. Na potrzeby ćwiczeń początkowych załadujemy sobie zbiór danych
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego
Bardziej szczegółowoText mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Bardziej szczegółowoInformatyka, studia dzienne, inż I st. Inteligentna analiza danych 2010/2011 Prowadzący: dr inż. Arkadiusz Tomczyk środa, 8:30
Informatyka, studia dzienne, inż I st. semestr VI Inteligentna analiza danych 2010/2011 Prowadzący: dr inż. Arkadiusz Tomczyk środa, 8:30 Data oddania: Ocena: Marek Rogalski 150982 Paweł Tarasiuk 151021
Bardziej szczegółowoOsadzanie playera Video CMS na Facebooku
Osadzanie playera Video CMS na Facebooku Video CMS jako jedna z nielicznych platform wideo umożliwia osadzanie odtwarzacza wideo na stronach Facebooka. Dzięki temu możliwe jest publikowanie wideo wraz
Bardziej szczegółowo1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.
Laboratorium z ekonometrii (GRETL) 1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych. Okno startowe: Póki nie wczytamy jakiejś bazy danych (lub nie stworzymy własnej), mamy dostęp tylko do dwóch
Bardziej szczegółowoMetody wypełniania braków w danych ang. Missing values in data
Analiza danych wydobywanie wiedzy z danych III Metody wypełniania braków w danych ang. Missing values in data W rzeczywistych zbiorach danych dane są często nieczyste: - niekompletne (brakujące ważne atrybuty,
Bardziej szczegółowoAnaliza skupień. Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 28 maja 2012
Analiza skupień Konspekt do zajęć: Statystyczne metody analizy danych Agnieszka Nowak-Brzezińska 28 maja 2012 1 Wprowadzenie Celem laboratorium jest analiza skupień wybranych zbiorów danych w środowisku
Bardziej szczegółowoINSTRUKCJA UŻYTKOWNIKA. Wielkopolski system doradztwa. edukacyjno-zawodowego
INSTRUKCJA UŻYTKOWNIKA DLA INSTYTUCJI RYNKU PRACY JAK KORZYSTAĆ Z MODUŁU ANALITYCZNEGO narzędzia informatycznego opracowanego w ramach projektu Wielkopolski system doradztwa edukacyjno-zawodowego Poznań,
Bardziej szczegółowoSystemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
Bardziej szczegółowoTechniki grupowania danych w środowisku Matlab
Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe
Bardziej szczegółowoWprowadzenie do programu RapidMiner, częśd 1 Michał Bereta www.michalbereta.pl. Program RapidMiner (RM) ma trzy główne widoki (perspektywy):
Wprowadzenie do programu RapidMiner, częśd 1 Michał Bereta www.michalbereta.pl Program Rapid Miner jest dostępny na stronie: http://rapid-i.com/ Korzystamy z bezpłatnej wersji RapidMiner Community Edition.
Bardziej szczegółowoIndukowane Reguły Decyzyjne I. Wykład 8
Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne
Bardziej szczegółowoUruchom polecenie z menu Wstaw Wykres lub ikonę Kreator wykresów na Standardowym pasku narzędzi.
Tworzenie wykresów w Excelu. Część pierwsza. Kreator wykresów Wpisz do arkusza poniższą tabelę. Podczas tworzenia wykresów nie ma znaczenia czy tabela posiada obramowanie lub inne elementy formatowania
Bardziej szczegółowoKonkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Bardziej szczegółowoUwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.
Inteligencja obliczeniowa stud. niestac. Laboratorium 4: Zadanie klasyfikacji poznanie trzech algorytmów klasyfikujących: knn, NaiveBayes, drzewo decyzyjne. Przy pomnijmy sobie bazę danych z irysami. Na
Bardziej szczegółowoWprowadzenie do technologii informacyjnej.
Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja
Bardziej szczegółowoOpis konfiguracji Sz@rk ST do współpracy z kolektorem DENSO BHT 8000
Opis konfiguracji Sz@rk ST do współpracy z kolektorem DENSO BHT 8000 1. Wstęp Program Sz@rk ST od wersji 10.10.20 został rozbudowany o możliwośd współpracy z kolektorami typu DENSO BHT 80xx z zainstalowanym
Bardziej szczegółowoWYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI I INFORMATYKI INSTYTUT AUTOMATYKI I INFORMATYKI KIERUNEK AUTOMATYKA I ROBOTYKA STUDIA STACJONARNE I STOPNIA
WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI I INFORMATYKI INSTYTUT AUTOMATYKI I INFORMATYKI KIERUNEK AUTOMATYKA I ROBOTYKA STUDIA STACJONARNE I STOPNIA PRZEDMIOT : : LABORATORIUM PODSTAW AUTOMATYKI 1. WSTĘP DO
Bardziej szczegółowoĆwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie
Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych
Bardziej szczegółowoDane w poniższej tabeli przedstawiają sprzedaż w dolarach i sztukach oraz marżę wyrażoną w dolarach dla:
Przykład 1. Dane w poniższej tabeli przedstawiają sprzedaż w dolarach i sztukach oraz marżę wyrażoną w dolarach dla: 24 miesięcy, 8 krajów, 5 kategorii produktów, 19 segmentów i 30 brandów. Tabela ta ma
Bardziej szczegółowoWprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta
Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta www.michalbereta.pl W tej części: Zachowanie wytrenowanego modelu w celu późniejszego użytku Filtrowanie danych (brakujące etykiety
Bardziej szczegółowoSystemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Bardziej szczegółowoMatematyka grupa Uruchom arkusz kalkulacyjny. 2. Wprowadź do arkusza kalkulacyjnego wartości znajdujące się w kolumnach A i B.
Zadanie nr 1 Matematyka grupa 2 Wykonaj poniższe czynności po kolei. 1. Uruchom arkusz kalkulacyjny. 2. Wprowadź do arkusza kalkulacyjnego wartości znajdujące się w kolumnach A i B. A B 32 12 58 45 47
Bardziej szczegółowoLEGISLATOR. Dokument zawiera opis sposobu tworzenia tabel w załącznikach. Data dokumentu:30 maja 2012 Wersja: 1.2 Autor: Paweł Jankowski
LEGISLATOR Dokument zawiera opis sposobu tworzenia tabel w załącznikach Data dokumentu:30 maja 2012 Wersja: 1.2 Autor: Paweł Jankowski Zawartość Wprowadzenie... 3 Strukturalizowanie tabel... 3 Najczęściej
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Test niezależności chi-kwadrat (χ 2 ) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y druga cecha Przykłady
Bardziej szczegółowoMiejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej
Miejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej Sport, promocja i turystyka Instrukcja użytkownika Historia zmian Wersja Data Kto Opis zmian 1.0 2013-12-13 MGGP S.A. Utworzenie
Bardziej szczegółowoMetody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych
Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych WMIM, Uniwersytet Warszawski ul. Banacha 2, 02-097 Warszawa, Polska andrzejanusz@gmail.com 13.06.2013 Dlaczego
Bardziej szczegółowoPrzykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Bardziej szczegółowoZagadnienie klasyfikacji (dyskryminacji)
Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka
Bardziej szczegółowoWspólne Zaawansowana tabela
Wspólne Zaawansowana tabela Wersja 3.59.305 4.04.2013 r. W systemie Streamsoft Prestiż umożliwiono tworzenie zaawansowanych analiz w każdym oknie z tabelą. Analizy takie umożliwiają wielopoziomowe grupowanie
Bardziej szczegółowo1 Moduł Bramki xcomfort
1 Moduł Bramki xcomfort Moduł Bramki xcomfort daje użytkowników możliwość integracji Systemu Vision z urządzeniami bezprzewodowymi systemu Moeller xcomfort. Odpowiada on za zapewnienie łącza komunikacyjnego,
Bardziej szczegółowoData Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoRozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach
Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach maja, 7 Rozglądanie się w D Plan Klasyka z brodą: zbiór danych Iris analiza składowych głównych (PCA), czyli redukcja
Bardziej szczegółowo1 Moduł Bramki xcomfort 3
Spis treści 1 Moduł Bramki xcomfort 3 1.1 Konfigurowanie Modułu Bramki xcomfort............... 3 1.1.1 Lista elementów Modułu Bramki xcomfort.......... 3 1.1.2 Konfiguracja Modułu Bramki xcomfort............
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoBioinformatyka Laboratorium, 30h. Michał Bereta
Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Filogenetyka molekularna wykorzystuje informację zawartą w sekwencjach aminokwasów lub nukleotydów do kontrukcji drzew
Bardziej szczegółowoKorespondencja seryjna
Korespondencja seryjna Listy seryjne - część druga W poprzednim tutorialu opisano sposób tworzenia korespondencji seryjnej. W bieżącym tutorialu poznacie sposób na filtrowanie oraz sortowanie źródła danych,
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoJęzyk JAVA podstawy. wykład 2, część 1. Jacek Rumiński. Politechnika Gdańska, Inżynieria Biomedyczna
Język JAVA podstawy wykład 2, część 1 1 Język JAVA podstawy Plan wykładu: 1. Rodzaje programów w Javie 2. Tworzenie aplikacji 3. Tworzenie apletów 4. Obsługa archiwów 5. Wyjątki 6. Klasa w klasie! 2 Język
Bardziej szczegółowoOtwórz R. Zmień katalog roboczy za pomocą File/Change Dir. Wczytaj plik przypisując go obiektowi o nazwie students:
1. Wczytywanie danych do programu R Otwórz R. Zmień katalog roboczy za pomocą File/Change Dir. Wczytaj plik przypisując go obiektowi o nazwie students: > students
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Bardziej szczegółowoWirtualna Uczelnia - konto dydaktyka
Wirtualna Uczelnia - konto dydaktyka AKADEMIA WYCHOWANIA FIZYCZNEGO JÓZEFA PIŁSUDSKIEGO W WARSZAWIE Informacje ogólne Dokumentacja została opracowana w celu ułatwienia i wspomagania pracy dziekanatu oraz
Bardziej szczegółowoDrzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Bardziej szczegółowoKNIME podstawy obsługi programu. Pracownia Chemometrii Środowiska Katedra Chemii i Radiochemii Środowiska Wydział Chemii UG
KNIME podstawy obsługi programu Pracownia Chemometrii Środowiska Katedra Chemii i Radiochemii Środowiska Wydział Chemii UG KNIME KNIME jest programem działającym na licencji GNU można go pobrać za darmo
Bardziej szczegółowoMetody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Bardziej szczegółowo8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
Bardziej szczegółowoData Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Bardziej szczegółowoAlgorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
Bardziej szczegółowoSpis treści. Laboratorium II: Analiza opisowa. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
1 Laboratorium II: Analiza opisowa Spis treści Laboratorium II: Analiza opisowa...1 Wiadomości ogólne...2 1. Zarządzanie danymi....2 1.2 Scalanie danych....2 1.2 Sprawdzanie danych....3 1.3 Sortowanie
Bardziej szczegółowoEksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
Bardziej szczegółowoZastosowania sieci neuronowych
Zastosowania sieci neuronowych klasyfikacja LABORKA Piotr Ciskowski zadanie 1. klasyfikacja zwierząt sieć jednowarstwowa żródło: Tadeusiewicz. Odkrywanie własności sieci neuronowych, str. 159 Przykład
Bardziej szczegółowoERGODESIGN - Podręcznik użytkownika. Wersja 1.0 Warszawa 2010
ERGODESIGN - Podręcznik użytkownika Wersja 1.0 Warszawa 2010 Spis treści Wstęp...3 Organizacja menu nawigacja...3 Górne menu nawigacyjne...3 Lewe menu robocze...4 Przestrzeń robocza...5 Stopka...5 Obsługa
Bardziej szczegółowoInteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Bardziej szczegółowoEksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Bardziej szczegółowonowe idee nowe inspiracje City Network wersja demonstracyjna
[ nowe idee nowe inspiracje I n n o w a c y j n e s y s t e m y ] t e l e m e t r y c z n e City Network wersja demonstracyjna Z d a l n y o d c z y t w o d o m i e r z y i c i e p o m i e r z y [ nowe
Bardziej szczegółowoRozdział ten zawiera informacje na temat zarządzania Modułem Modbus TCP oraz jego konfiguracji.
1 Moduł Modbus TCP Moduł Modbus TCP daje użytkownikowi Systemu Vision możliwość zapisu oraz odczytu rejestrów urządzeń, które obsługują protokół Modbus TCP. Zapewnia on odwzorowanie rejestrów urządzeń
Bardziej szczegółowoStochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych
PROJEKT: Analiza kluczowych parametrów turbin wiatrowych Projekt jest wykonywany z wykorzystaniem pakietu statystycznego STATISTICA. Praca odbywa się w grupach 2-3 osobowych. Aby zaliczyć projekt, należy
Bardziej szczegółowoTadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
: idea Indeksowanie: Drzewo decyzyjne, przeszukiwania binarnego: F = {5, 7, 10, 12, 13, 15, 17, 30, 34, 35, 37, 40, 45, 50, 60} 30 12 40 7 15 35 50 Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
Bardziej szczegółowoKwerenda. parametryczna, z polem wyliczeniowym, krzyżowa
Kwerenda parametryczna, z polem wyliczeniowym, krzyżowa Operatory stosowane w wyrażeniach pól wyliczeniowych Przykład: wyliczanie wartości w kwerendach W tabeli Pracownicy zapisano wartości stawki godzinowej
Bardziej szczegółowoAlgorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Bardziej szczegółowoKlasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Bardziej szczegółowoStruktury Danych i Złożoność Obliczeniowa
Struktury Danych i Złożoność Obliczeniowa Zajęcia 1 Podstawowe struktury danych Tablica Najprostsza metoda przechowywania serii danych, zalety: prostota, wady: musimy wiedzieć, ile elementów chcemy przechowywać
Bardziej szczegółowoObiektowy PHP. Czym jest obiekt? Definicja klasy. Składowe klasy pola i metody
Obiektowy PHP Czym jest obiekt? W programowaniu obiektem można nazwać każdy abstrakcyjny byt, który programista utworzy w pamięci komputera. Jeszcze bardziej upraszczając to zagadnienie, można powiedzieć,
Bardziej szczegółowoQualitySpy moduł reports
QualitySpy moduł reports Testy akceptacyjne dla przypadku użycia: Pobranie metryk produktu w wybranym formacie dla wybranch wersji przez interfejs REST Nazwa pliku: /QualitySpy/modules/qualityspyreports/src/test/java/pl/wroc/pwr/qualityspy/reports
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie
Bardziej szczegółowo3. Wprowadź opis: kolumna A J. angielski, kolumna B J. polski. Obejrzyj animację pt. Wprowadzanie danych, aby dowiedzieć się, jak to zrobić.
Język angielski grupa 3 Zadanie nr 1 Wykonaj poniższe czynności po kolei. 1. Uruchom arkusz kalkulacyjny. 2. Wprowadź do arkusza kalkulacyjnego wyrazy znajdujące się w kolumnach A i B tabeli: A dog cat
Bardziej szczegółowoKONFIGURACJA PROGRAMÓW MAGAZYNOWYCH DO OBSŁUGI TERMINALI Z PROGRAMEM ELZAB KOLEKTOR CE
KONFIGURACJA PROGRAMÓW MAGAZYNOWYCH DO OBSŁUGI TERMINALI Z PROGRAMEM ELZAB KOLEKTOR CE kwiecieo 2011 Elzab Soft sp. z o.o. SPIS TREŚCI Programy magazynowe obsługiwane przez ELZAB Kolektor CE... 3 WF-MAG
Bardziej szczegółowo1 Wstęp. 2 Uruchomienie programu
1 Wstęp Weka jest zestawem narzędzi związanych z uczeniem maszynowego. System został stowrzony i jest rozwijany przez Uniwersystet Waikato w Nowej Zelandii. Nazwa WEKA jest akronimem dla Waikato Environment
Bardziej szczegółowoAnaliza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Bardziej szczegółowoDrzewo binarne BST. LABORKA Piotr Ciskowski
Drzewo binarne BST LABORKA Piotr Ciskowski zadanie 1. drzewo binarne - 1 Zaimplementuj drzewo binarne w postaci: klasy Osoba przechowującej prywatne zmienne: liczbę całkowitą to będzie klucz, wg którego
Bardziej szczegółowoINSTRUKCJA OTWIERANIA PLIKU DPT (data point table)
INSTRUKCJA OTWIERANIA PLIKU DPT (data point table) Plik DPT jest tekstowym zapisem widma. Otwarty w notatniku wygląda następująco: Aby móc stworzyć wykres, należy tak zaimportować plik do arkusza kalkulacyjnego,
Bardziej szczegółowoENOVA2PSMOBILE. Copyright Polsoft Engineering Sp. z o. o.
PSMobile 2 System wspierający pracę przedstawicieli handlowych Polsoft Engineering Sp. z o.o. ENOVA2PSMOBILE Copyright Polsoft Engineering Sp. z o. o. Niniejszy dokument stanowi własnośd Polsoft Engineering
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoImport danych w formacie txt
Przewodnik Inżyniera Nr 27 Aktualizacja: 06/2017 Import danych w formacie txt Program powiązany: Fundament bezpośredni Plik GEO5: Demo_manual_27_1.gpa (przykład przygotowany do importu danych) Demo_manual_27_2.gpa
Bardziej szczegółowoIdea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień
Idea jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień. Obiekty należące do danego skupienia
Bardziej szczegółowoMail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Bardziej szczegółowoKomunikaty statystyczne medyczne
Komunikaty statystyczne-medyczne (raporty statystyczne SWX) zawierają informację o usługach medycznych wykonanych przez świadczeniodawcę. Przekazany przez świadczeniodawcę komunikat podlega sprawdzeniu
Bardziej szczegółowoWykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
Bardziej szczegółowoMetody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty
Bardziej szczegółowoWykrywanie twarzy na zdjęciach przy pomocy kaskad
Wykrywanie twarzy na zdjęciach przy pomocy kaskad Analiza i przetwarzanie obrazów Sebastian Lipnicki Informatyka Stosowana,WFIIS Spis treści 1. Wstęp... 3 2. Struktura i funkcjonalnośd... 4 3. Wyniki...
Bardziej szczegółowoLaboratorium z przedmiotu MED. Lab1 - wprowadzenie
Laboratorium z przedmiotu MED Lab1 - wprowadzenie Grzegorz Protaziuk Konsultacje: środa godz. 11.00 12.00 pok. 301 Gmach EiTI email: gprotazi@elka.pw.edu.pl (w temacie mejla proszę dodać frazę MED) www.ii.pw.edu.pl/~gprotazi
Bardziej szczegółowoAnaliza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
Bardziej szczegółowoDrzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber
Drzewa decyzyjne Inteligentne Obliczenia Wydział Mechatroniki Politechniki Warszawskiej Anna Sztyber INO (IAiR PW) Drzewa decyzyjne Anna Sztyber / Drzewa decyzyjne w podstawowej wersji algorytm klasyfikacji
Bardziej szczegółowoOpracował: mgr inż. Marcin Olech 2010-10-04
Laboratorium 4 Strona 1 z 17 Spis treści: 1. Wielowymiarowa analiza danych w arkusza kalkulacyjnych z wykorzystaniem MS Excel: a. tworzenie tabel przestawnych, b. tworzenie wykresów przestawnych. 2. Praca
Bardziej szczegółowo