Przegląd darmowego oprogramowania do analizy dużych zbiorów danych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Przegląd darmowego oprogramowania do analizy dużych zbiorów danych"

Transkrypt

1 Przegląd darmowego oprogramowania do analizy dużych zbiorów danych Tomasz Jach, Tomasz Xięski Uniwersytet Śląski, Instytut Informatyki, ul. Będzińska 39, Sosnowiec {tomasz.jach Streszczenie Eksploracja danych może być rozumiana jako proces badania za pomocą źautomatyzowanych lub częściowo zautomatyzowanych środków"dużych zbiorów danych, celem wykrycia nieznanych i potencjalnie użytecznych wzorców [8]. Coraz częściej algorytmy eksploracji danych wspomagane są graficznymi metodami wizualizacji. Celem pracy jest przegląd darmowych rozwiązań programowych do analizy dużych zbiorów danych, pod kątem możliwości grupowania i wizualizacji skupień. 1. Wprowadzanie Do skutecznego przeprowadzenia procesu analizy danych, prócz dobrej znajomości badanej dziedziny, zbioru danych, czy wybrania właściwej techniki eksploracji, niezbędnym jest wykorzystanie odpowiedniego oprogramowania. Celem niniejszej pracy jest analiza porównawcza dostępnych rozwiązań programowych w zakresie analizy dużych zbiorów danych, pod kątem oferowanych możliwości generowania grup i ich wizualizacji. Dokonany zostanie przegląd wybranych programów należących do tzw. otwartego oprogramowania (ang. open source software), czyli z możliwością dokonywania zmian w kodzie źródłowym. Wybór oprogramowania do analizy przeprowadzono na podstawie ankiety serwisu KDnuggets, agregującego artykuły, opinie i materiały dotyczące teorii oraz oprogramowania analizy danych. W maju 2012 roku zebrano odpowiedzi na pytanie jakie narzędzia eksploracji i analizy danych zostały przez respondenta użyte w ciągu minionych 12 miesięcy podczas prac nad rzeczywistym projektem. Najważniejsze wyniki ankiety 1 (wśród 798 głosujących) przedstawiono na rysunku 1. Pakiet R jest według badań serwisu KDnuggets najczęściej wybieranym systemem analizy danych (ponad 30% użytkowników potwierdziło korzystanie z niego podczas realizacji rzeczywistych projektów). Jest to zapewne zasługa bezpłatnej dystrybucji i sięgającej ponad 4000 liczbie dodatkowych bibliotek. Należy również nadmienić, że wśród pięciu najczęściej wybieranych programów, cztery to narzędzia otwarto-źródłowe (czyli udostępniające możliwość ingerencji w ich kod źródłowy), dlatego też zostały one wybrane do dalszej analizy. 1 Pełna wersja ankiety dostępna jest pod adresem /analytics-data-mining-big-data-software.html. Należy również nadmienić, że możliwy był wybór kilku rozwiązań przez pojedynczego respondenta, dlatego wyniki nie sumują się do stu procent. 1

2 Rysunek 1. Wykorzystywane oprogramowanie do analizy danych. 2. Przegląd programów do analizy danych Wszystkie omawiane przykłady programów niekomercyjnych są zgodne z ideą otwartego oprogramowania co oznacza, że dostępny jest ich kod źródłowy oraz oparte są na licencjach, które umożliwiają dokonywanie zmian w kodzie jak również integrację z własnymi rozwiązaniami KNIME KNIME (ang. KoNstanz Information MinEr) jest modularnym oprogramowaniem do analizy danych, opartym na interfejsie środowiska programistycznego Eclipse. Sposób posługiwania się programem polega na łączeniu w graf elementów (zwanych węzłami) symbolizujących ładowanie danych, ich transformację, wizualizację, generowanie statystyk, modelowanie, zapisywanie wyników (jak zaprezentowano na rysunku 2). Cały system został zrealizowany przy uwzględnieniu trzech głównych zasad: interaktywnego środowiska graficznego, modularności i rozszerzalności [5]. Cele te osiągnięto implementując mechanizm przeciągnij i upuść, dzięki czemu zarządzanie czy zmiana poszczególnych etapów analizy danych jest bardzo intuicyjna. Ponadto struktury danych wykorzystywane w zaimplementowanych algorytmach są od siebie niezależne, przez co można tworzyć dowolne kombinacje połączeń między węzłami. Zdolność do rozszerzenia istniejącej funkcjonalności uzyskano integrując zarządcę pakietów, który pobiera ze zdalnego repozyto- 2

3 rium nowe dodatki, a zadaniem użytkownika jest jedynie dokonanie wyboru jaki element chce dołączyć. Rysunek 2. Interfejs programu KNIME. Możliwości omawianego oprogramowania w kategorii analizy skupień domyślnie ograniczają się do algorytmów: k-średnich, hierarchicznego (zarówno aglomeracyjnego jak i deglomeracyjnego), fuzzy c-means oraz SOTA Lerner. W przypadku klasycznego algorytmu k-średnich wykorzystywana jest wyłącznie odległość euklidesowa (w odniesieniu do danych ilościowych). Należy jednak zaznaczyć, że dostępny jest osobny węzeł (komponent) o nazwie Distance Matrix Calculate, którego zadaniem jest wyznaczenie macierzy niepodobieństwa, z użyciem miar takich jak: odległość euklidesowa, miejska, Tanimoto, korelacji kosinusowej, czy współczynnika Dice a. Dodatkowo (ale tylko dla cech ilościowych) można za jego pomocą przeprowadzić grupowanie dla zbioru danych rzeczywistych cell_loss 2 przyjmując liczbę skupień równą Dla algorytmu hierarchicznego zaimplementowano trzy standardowe miary łączenia skupień: pojedynczego, średniego oraz całkowitego wiązania, a dostępne miary niepodobieństwa (odległości) to odległość euklidesowa i miejska. Metoda fuzzy c-means działa analogicznie do algorytmu k-średnich, z tą różnicą, że dany obiekt nie musi należeć wyłącznie do jednego skupienia jest to tzw. grupowanie rozmyte. Węzeł SOTA Lerner to algorytm generujący hierarchię skupień na podstawie budowy tzw. drzewa samoorganizującego się (ang. Self-Organising Tree Algorithm). Jest to sieć neuronowa, zorganizowana zgodnie z topologią drzewa binarnego, często wykorzystywana przy analizie danych mikromacierzowych 4. Jedną z istotnych cech opisywanego oprogramowania jest jego rozszerzalność. Dzięki temu do ogólnie dostępnej palety technik analizy skupień można dołączyć algorytm k-medoidów oraz wszystkie dostępne w systemie Weka (opisywanym w dalszej części pracy). Po zainstalowaniu dodatkowych pakietów, użytkownik uzyskuje zatem dostęp m. in. do algorytmów gęstościowych DBSCAN [6] i OPTICS [3]. Niestety sposób integracji z innymi rozwiązaniami do eksploracji danych to również 2 Zbiór danych używany do testów oprogramowania został omówiony w [9]. 3 Liczbę 500 skupień dobrano arbitralnie, uznając ją jako wystarczająco dużą do przetestowania możliwości grupowania dużych zbiorów danych. 4 Szczegóły na temat budowy i zasady działania wspomnianego algorytmu można znaleźć w [7]. 3

4 największa wada opisywanego programu. Wyniki działania dodatkowych algorytmów analizy skupień wyświetlane są w innym oknie i interfejsie zgodnym z oprogramowaniem, z którego zostały zapożyczone. Implikuje to również niemożność uwzględnienia tych rezultatów, w dalszych etapach procesu wydobywania wiedzy projektowanego w KNIME wyjścia algorytmów zapożyczonych z pakietu Weka nie da się połączyć z innymi elementami (węzłami) dostępnymi w KNIME. KNIME pełni zatem pewnego rodzaju warstwę pośredniczącą, która dokonuje załadowania i transformacji danych, a następnie uruchamia procedury innego oprogramowania generując w nim wyniki. Metody opisu i wizualizacji danych wśród których można wyróżnić wykresy pudełkowe, rozrzutu, radarowe, histogramy, technikę współrzędnych równoległych można dodatkowo rozszerzyć o możliwości reprezentacji graficznej biblioteki JFreeChart i wszystkich komend dostępnych w pakiecie R. Jest to zatem bardzo rozbudowane i modyfikowalne oprogramowanie, które z powodzeniem może konkurować z rozwiązaniami komercyjnymi R z nakładką Rattle Rattle (ang. R Analytical Tool To Learn Easily) jest graficzną nakładką na powszechnie znany pakiet statystyczny R. Pozwala na ładowanie danych z wielu źródeł (w tym z baz danych, plików tekstowych, arkuszy kalkulacyjnych itp.), ich wstępną eksplorację (na podstawie statystyk opisowych oraz technik graficznych typu histogramy czy wykresy pudełkowe), transformację (poprzez normalizację czy usuwanie wartości pustych), tworzenie modeli (jak skupienia czy reguły asocjacyjne) oraz ewaluację (wykorzystując krzywe ROC) [2]. Interfejs programu został przedstawiony na rysunku 3 i składa się z jednego okna podzielonego na szereg zakładek. Zakładki powinny być przetwarzane kolejno lub autonomicznie, jeżeli użytkownika interesuje wyłącznie zastosowanie konkretnej techniki eksploracji. Rysunek 3. Graficzny interfejs Rattle w wersji Szczegóły na temat możliwości (wizualizacyjnych i statystycznych) KNIME znajdują się w książce jego autorów poświęconej eksploracji danych [4]. 4

5 Z poziomu zakładki Cluster dostępne są cztery algorytmy analizy skupień: hierarchiczny, Ewkm, k-średnich oraz BiCluster 6 (służący do grupowania zarówno obiektów jak i cech jednocześnie). Technika k-średnich ograniczona jest do przetwarzania danych ilościowych, jednakże potrafi wygenerować dla zbioru cell_loss, uznaną jako testową, liczbę 500 skupień. Ewkm jest wariantem metody k-średnich, przyporządkowującym wagi cechom uznanym za istotne, podczas wyznaczania podobieństwa dwóch obiektów 7. Niestety algorytm generujący hierarchię nie może zostać zastosowany do zbioru danych rzeczywistych cell_loss i większych, ponieważ oprogramowanie wyświetla komunikat, o niewystarczającej ilości dostępnej pamięci operacyjnej i zbyt dużej liczbie obiektów w zbiorze 8, zaprezentowany na rysunku 4. Proponowane rozwiązanie tego problemu to wykorzystanie metody próbkowania (i operowanie wyłącznie na dużo mniejszym podzbiorze obiektów). Rysunek 4. Komunikat informujący o ograniczeniu algorytmu hclust. Dostępne w Rattle algorytmy nie mogą być zatem bezpośrednio zastosowane przy grupowaniu dużych zbiorów danych. Małą liczbę algorytmów można rozszerzyć instalując, poprzez konsolę oprogramowania R, pakiet fpc 9, który dostarcza sześć dodatkowych metod analizy skupień, wśród których znajduje się również technika gęstościowa DBSCAN. Brak jest jednak metody OPTICS (której implementacja w R jest poszukiwana na wielu grupach dyskusyjnych). Dodatkowo posługiwanie się algorytmem DBSCAN możliwe jest wyłącznie przez linię komend R, co wymaga stosownej wiedzy na temat syntaktyki poleceń. Podobnie jest w przypadku generowania niedostępnych przez Rattle wykresów czy technik wizualizacyjnych RapidMiner RapidMiner jest środowiskiem do analizy danych, które posiada zarówno wersję darmową (na licencji AGPL) oraz szereg wariantów komercyjnych. Poszczególne wersje różnią się m.in. możliwościami ładowania danych, wykorzystaniem procesorów wielordzeniowych, dostępnością edytora danych oraz prowadzeniem procesu eksploracji na silniku bazy danych. 6 Szczegóły na temat działania algorytmu BiCluster dostępne są pod adresem r-project.org/web/packages/biclust/biclust.pdf. 7 Szczegóły na temat działania i zastosowania algorytmu Ewkm dostępne są pod adresem http: //cran.r-project.org/web/packages/weightedkmeans/weightedkmeans.pdf. 8 Programy analizy danych testowane były wykorzystując system Windows 7 oraz komputer wyposażony w procesor Core i5 3,33 GHz i 8 GB pamięci RAM. 9 Szczegółowy opis możliwości pakietu fpc znajduje się pod adresem r-project.org/web/packages/fpc/fpc.pdf. 10 Szczegóły odnośnie pełnych możliwości współpracy nakładki Rattle oraz pakietu R (jak również innych algorytmów grupowania) prezentuje książka [10]. 5

6 Rysunek 5. Interfejs programu RapidMiner Interfejs omawianego programu (zaprezentowany na rysunku 5) jest bardzo podobny do rozwiązania stosowanego w KNIME, gdzie dostępnych jest szereg mniejszych okien (zintegrowanych z głównym) podzielonych na zakładki, które można dowolnie przemieszczać. Również projektowanie przebiegu procesu analizy danych wygląda podobnie z okna w lewym górnym rogu ekranu wybiera się tzw. operatory (będące analogią do węzłów KNIME) czyli elementy realizujące ładowanie danych, transformacje, modelowanie, wizualizację oraz inne, a następnie łączy się operatory w graf skierowany, korzystając z centralnie ustawionego okna obszaru roboczego. Rysunek 6. Komunikat o zbyt małej ilości dostępnej pamięci. RapidMiner posiada jedenaście zaimplementowanych algorytmów analizy skupień, wśród których można wyróżnić: cztery warianty metody k-średnich, technikę k-medoids, DBSCAN, EM, metodę wektorów nośnych SVC (ang. Support Vector Clustering), grupowanie hierarchiczne (aglomeracyjne i deglomeracyjne) oraz przyporządkowanie losowe 11. Należy nadmienić, że dla algorytmu DBSCAN dostępna jest miara nazywana Mixed Euclidean, która jest modyfikacją miary euklidesowej umożliwiającą porównywanie danych ilościowych i jakościowych dla cech nominalnych miara przyporządkowuje wartość zero lub jeden w zależności od tego czy wartości (dla dwóch porównywanych obiektów) są sobie równe. Algorytm 11 Szczegółowe omówienie działania algorytmów znajduje się w com/files/rapidminer/rapidminer_operatorreference_en.pdf. 6

7 jednakże zgłasza błąd, gdy w analizowanym zbiorze występują wartości puste. Przy przetwarzaniu dużych zbiorów danych może również dojść do problemów pamięciowych program przechowuje wszystkie dane w pamięci operacyjnej, dlatego w zależności od złożoności procesu analizy danych może pojawić się komunikat (jak zaprezentowano na rys. 6) informujący o konieczności zmniejszenia objętości analizowanego zbioru lub powiększenia zasobów wolnej pamięci. Taka sytuacja miała miejsce podczas próby zastosowania algorytmu k-średnich do testowego zbioru danych cell_loss. Wśród dostępnych algorytmów brak jest także techniki OPTICS. Możliwości wizualizacyjne 12 oprogramowania obejmują m.in. generowanie histogramów, wykresów i macierzy rozrzutu, bąbelkowych, map samoorganizujących się itp. Ponadto, jako jedyne z opisywanych rozwiązań posiada możliwość graficznego przedstawienia struktury skupień w formie interaktywnego grafu. Jednakże rozwiązanie to sprawdza się tylko w przypadku niewielkiej liczby grup Weka Kolejny omawiany w niniejszej pracy program nosi nazwę Weka (ang. Waikato Environment for Knowledge Analysis) i agreguje szereg algorytmów uczenia maszynowego dedykowanych do realizacji zadań eksploracji danych. Algorytmy te mogą być stosowane bezpośrednio do zestawu danych lub za pomocą odpowiednich procedur wywoływanych z autorskiego kodu napisanego w języku Java. Weka zawiera narzędzia do wstępnego przetwarzania danych, klasyfikacji, zadań regresji, grupowania, generowania reguł asocjacyjnych i wizualizacji. Jednym z czynników wyróżniających to oprogramowanie od pozostałych jest fakt, iż posiada ono cztery różne interfejsy: Explorer (do analizy danych korzystając z szeregu zakładek), Experimenter (umożliwiający automatyczne wykonanie przygotowanych wcześniej eksperymentów), KnowledgeFlow (wykorzystujący zasadę przeciągnij i upuść) oraz Simple CLI (udostępniający konsolę do przetwarzania wsadowego). W dalszej części pracy zostanie omówiony tryb Explorer programu, zaprezentowany na rysunku 7. Interakcja użytkownika z programem odbywa się przez wybór odpowiedniej zakładki z siedmiu dostępnych w programie. Pierwsza służy wstępnemu przetwarzaniu i analizie eksploracyjnej przedstawionych w formie statystyk opisowych (jak średnia czy odchylenie standardowe) i histogramów. Dzięki czemu można oszacować rozkład danych, zidentyfikować wartości brakujące lub odstające i na tych przypadkach skupić dalszą analizę. W przypadku wybrania zakładki Cluster dedykowanej grupowaniu danych, można zastosować jeden z dziewięciu algorytmów analizy skupień jak k-średnich, hierarchiczny, EM, czy DBSCAN 13. Jest to również jedyne rozwiązanie niekomercyjne, które posiada bezpośrednio zaimplementowany algorytm OPTICS. Niestety twórcy Weka nie zdecydowali się na dołożenie do niego procedury generującej skupienia (gdyż OPTICS domyślnie generuje jedynie specyficzne uporządkowanie obiektów). Ponadto, dla algorytmów gęstościowych dostępne są jedynie dwie miary podobieństwa takie jak odległość euklidesowa i miejska, zmodyfikowane tak, by możliwe było ich bezpośrednie zastosowanie do danych opisanych za pomocą atrybutów ilościowych i jakościowych. Wyniki procesu grupowania wizualizowane są wyłącznie jako macierz wykresów rozrzutu (lub 12 Szczegółowe informacje o dostępnych metodach graficznej prezentacji danych zawiera dokumentacja dostępna pod adresem RapidMiner-5.2-Advanced-Charts-english-v1.0.pdf. 13 Szczegółowy opis algorytmów znajduje się w weka/files/documentation/3.7.x/wekamanual pdf. 7

8 Rysunek 7. Interfejs w trybie Explorer programu Weka. pojedynczy trójwymiarowy wykres rozrzutu). Dlatego też niewielkie możliwości wizualizacji rezultatów analizy skupień są największą wadą omawianego oprogramowania Pakiet scikit-learn: Machine Learning in Python Prace nad tym pakietem [1] zostały rozpoczęte dzięki programowi Google Summer of Code. Głównym twórcą jest David Cournepeau. Nazwa wywodzi się ze skrótowca SciKit rozwijanego jako Science Toolkit wchodzący w skład języka Python. SciKit jest odrębnym rozszerzeniem ze swoją, niezależną od głównego nurtu języka Python, grupą twórców. Uznaje się powszechnie, że scikit-learn jest jednym z popularniejszych oraz bardziej efektywniej napisanych pakietów języka Python. Od roku 2013 pakiet scikit-learn jest regularnie wspierany przez francuską organizację INRIA i okazjonalnie przez amerykańską firmę Google. Projekt jest wykorzysytwany m.in. w oprogramowaniu Evernote (zaimplementowany naiwny klasyfikator Bayesa do odnajdywania przepisów kulinarnych wśród notatek użytkowników) oraz przez pakiet do przetwarzania języka naturalnego NTLK (wchodzący w skład Pythona). W sferze komercyjnej, scikit-learn jest wykorzystywany przez firmę wiso.io. Oferuje ona zamkniętoźródłową implementację losowych lasów nazywaną wiserf. Firma ta twierdzi, że zdołała przyspieszyć proces przetwarzania danych siedimioipółkrotnie. Od czasu wystosowania tego oświadczenia twórcy scikit-learn dokonali daleko idącej optymalizacji pakietu i obecnie efektywność tych dówch rozwiązań jest porównywalna (oprócz zapotrzebowania na pamięć operacyjną). Pakiet scikit-learn nie ma swojego dedykowanego interfejsu graficznego. Całe przetwarzanie odbywa się za pomocą programów opartych o język Python. Przykładowo, kod przedstawiony na rysunku 8 generuje diagram z rysunku 9. Ze względu na duże możliwości oraz obsługę dużych zbiorów danych, pakiet ten wydaje się być najbliższy założeniom autorów. Łatwe przetwarzanie danych w języku Python oraz obecność dużej liczby dodatkowych pakietów (do analizy 8

9 Rysunek 8. Przykładowy kod wykorzystujący scikit-learn danych, grupowania i innych) połączona z dobrze znanymi i szeroko wykorzystywanymi połączeniami z innymi językami programowania pozwoli w przyszłości na wykorzystanie pakietu scikit-learn. 3. Podsumowanie Celem pracy było dokonanie przeglądu możliwości oprogramowania do wydobywania wiedzy z danych, w szczególności pod kątem zaimplementowanych algorytmów analizy skupień, ich graficznej reprezentacji oraz metod opisu danych. Porównanie dotyczyło programów niekomercyjnych (udostępniających kod źródłowy), które w wielu przypadkach posiadają podobny zestaw funkcjonalności w odniesieniu do ich płatnych odpowiedników. Wyniki przeglądu oprogramowania wskazują jednoznacznie, że żaden z testowanych pakietów analizy danych nie udostępnia interaktywnej metody graficznej reprezentacji skupień, dostosowanej do wizualizacji dużej liczby grup. Ponadto tylko niewielka liczba programów implementuje bardziej zaawansowane algorytmy analizy skupień (np. gęstościowe) i umożliwia ich zastosowanie do danych opisanych atrybutami ilościowymi oraz jakościowymi. Dlatego też uzasadniona wydaje się konieczność stworzenia autorskiego systemu analizy dużych zbiorów danych, który realizuje proces graficznej analizy eksploracyjnej [8]. Najbardziej zgodny z założeniami poczynionymi przez autorów wydaje się ostatni omówiony pakiet scikit-learn. Jakkolwiek dostosowanie wypracowanych już narzędzi do nowego języka programowania może być czasochłonne, tak zysk z korzystania z języka Python powinien zrekompensować ten dodatkowy nakład pracy. 9

10 Rysunek 9. Rezultat wykonania kodu z rys Podziękowania Niniejsza praca jest częścią projektu Eksploracja regułowych baz wiedzy sfinansowanego ze środków Narodowego Centrum Nauki (NCN: 2011/03/D/ST6/03027). Literatura [1] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss,V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, E. Duchesnay. Scikit-learn: Machine Learning in Python Journal of Machine Learning Research, strony , 2011 r. [2] G. Williams. Strona internetowa pakietu Rattle. rattle-features.html, [Online; dostęp 1-maja-2014]. [3] M. Ankerst, M. M. Breunig, H.-P. Kriegel, J. Sander. Optics: Ordering points to identify the clustering structure. SIGMOD 1999, Proceedings ACM SIGMOD International Conference on Management of Data, USA, [4] M. R. Berthold, C. Borgelt, F. Höppner, F. Klawonn. Guide to Intelligent Data Analysis: How to Intelligently Make Sense of Real Data. Springer-Verlag, Londyn, Anglia, [5] M. R. Berthold, N. Cebron, F. Dill, T. R. Gabriel, T. Kötter, T. Meinl, P. Ohl, K. Thiel, B. Wiswedel. KNIME - The Konstanz Information Miner: Version 2.0 and Beyond. SIGKDD Explorations Newsletter, 11(1), strony 26 31, [6] M. Ester, K. Ester, H.-P. Sander, J. Sander, X. Xiaowei. A density-based algorithm for discovering clusters in large spatial databases with noise. International Conference on Knowledge Discovery and Data Mining, USA,

11 [7] J. Herrero, A. Valencia, J. Dopazo. A hierarchical unsupervised growing neural network for clustering gene expression patterns. Bioinformatics, 17(1), strony , [8] D. T. Larose. Discovering Knowledge in Data: An Introduction to Data Mining. Wiley-Interscience, USA, [9] A. Wakulicz-Deja, A. Nowak-Brzezińska, T. Xięski. Efficiency of complex data clustering. Lecture Notes in Computer Science, 6954, strony , [10] G. Williams. Data Mining with Rattle and R The Art of Excavating Data for Knowledge Discovery. Springer Science+Business, LLC, USA,

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska Michał Kozielski Łukasz Warchał Instytut Informatyki, Politechnika Śląska Algorytm DBSCAN Algorytm OPTICS Analiza gęstego sąsiedztwa w grafie Wstępne eksperymenty Podsumowanie Algorytm DBSCAN Analiza gęstości

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Dodatkowo planowane jest przeprowadzenie oceny algorytmów w praktycznym wykorzystaniu przez kilku niezależnych użytkowników ukończonej aplikacji.

Dodatkowo planowane jest przeprowadzenie oceny algorytmów w praktycznym wykorzystaniu przez kilku niezależnych użytkowników ukończonej aplikacji. Spis Treści 1. Wprowadzenie... 2 1.1 Wstęp... 2 1.2 Cel pracy... 2 1.3 Zakres pracy... 2 1.4 Użyte technologie... 2 1.4.1 Unity 3D... 3 2. Sztuczna inteligencja w grach komputerowych... 4 2.1 Zadanie sztucznej

Bardziej szczegółowo

Analiza i projektowanie aplikacji Java

Analiza i projektowanie aplikacji Java Analiza i projektowanie aplikacji Java Modele analityczne a projektowe Modele analityczne (konceptualne) pokazują dziedzinę problemu. Modele projektowe (fizyczne) pokazują system informatyczny. Utrzymanie

Bardziej szczegółowo

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS Dotyczy cyklu kształcenia 2014-2018 Realizacja w roku akademickim 2016/2017 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu

Bardziej szczegółowo

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop. 2017 Spis treści O autorach 9 0 recenzencie 10 Wprowadzenie 11 Rozdział 1. Pierwsze kroki 15 Wprowadzenie do nauki o danych

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Wprowadzenie do technologii informacyjnej.

Wprowadzenie do technologii informacyjnej. Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja

Bardziej szczegółowo

ViLab- program służący do prowadzenia obliczeń charakterystyki energetycznej i sporządzania świadectw charakterystyki energetycznej

ViLab- program służący do prowadzenia obliczeń charakterystyki energetycznej i sporządzania świadectw charakterystyki energetycznej ViLab- program służący do prowadzenia obliczeń charakterystyki energetycznej i sporządzania świadectw charakterystyki energetycznej ViLab jest samodzielnym programem służącym do prowadzenia obliczeń charakterystyki

Bardziej szczegółowo

System wspomagania harmonogramowania przedsięwzięć budowlanych

System wspomagania harmonogramowania przedsięwzięć budowlanych System wspomagania harmonogramowania przedsięwzięć budowlanych Wojciech Bożejko 1 Zdzisław Hejducki 2 Mariusz Uchroński 1 Mieczysław Wodecki 3 1 Instytut Informatyki, Automatyki i Robotyki Politechnika

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

Informatyka studia stacjonarne pierwszego stopnia

Informatyka studia stacjonarne pierwszego stopnia #382 #379 Internetowy system obsługi usterek w sieciach handlowych (The internet systems of detection of defects in trade networks) Celem pracy jest napisanie aplikacji w języku Java EE. Główne zadania

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Webowy generator wykresów wykorzystujący program gnuplot

Webowy generator wykresów wykorzystujący program gnuplot Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej Marcin Nowak nr albumu: 254118 Praca inżynierska na kierunku informatyka stosowana Webowy generator wykresów wykorzystujący

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

INFORMATYKA W SELEKCJI

INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne

Bardziej szczegółowo

CUDA Median Filter filtr medianowy wykorzystujący bibliotekę CUDA sprawozdanie z projektu

CUDA Median Filter filtr medianowy wykorzystujący bibliotekę CUDA sprawozdanie z projektu CUDA Median Filter filtr medianowy wykorzystujący bibliotekę CUDA sprawozdanie z projektu inż. Daniel Solarz Wydział Fizyki i Informatyki Stosowanej AGH 1. Cel projektu. Celem projektu było napisanie wtyczki

Bardziej szczegółowo

Mail: Pokój 214, II piętro

Mail: Pokój 214, II piętro Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja

Bardziej szczegółowo

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak OpenAI Gym Adam Szczepaniak, Kamil Walkowiak Plan prezentacji Programowanie agentowe Uczenie przez wzmacnianie i problemy związane z rozwojem algorytmów Charakterystyka OpenAI Gym Biblioteka gym Podsumowanie

Bardziej szczegółowo

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)

Bardziej szczegółowo

Metody eksploracji danych Laboratorium 2. Weka + Python + regresja

Metody eksploracji danych Laboratorium 2. Weka + Python + regresja Metody eksploracji danych Laboratorium 2 Weka + Python + regresja KnowledgeFlow KnowledgeFlow pozwala na zdefiniowanie procesu przetwarzania danych Komponenty realizujące poszczególne czynności można konfigurować,

Bardziej szczegółowo

Cechy systemu X Window: otwartość niezależność od producentów i od sprzętu, dostępny kod źródłowy; architektura klient-serwer;

Cechy systemu X Window: otwartość niezależność od producentów i od sprzętu, dostępny kod źródłowy; architektura klient-serwer; 14.3. Podstawy obsługi X Window 14.3. Podstawy obsługi X Window W przeciwieństwie do systemów Windows system Linux nie jest systemem graficznym. W systemach Windows z rodziny NT powłokę systemową stanowi

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia ZP/ITS/11/2012 Załącznik nr 1a do SIWZ ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych

Bardziej szczegółowo

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych Grupa efektów kierunkowych: Matematyka stosowana I stopnia - profil praktyczny (od 17 października 2014) Matematyka Stosowana I stopień spec. Matematyka nowoczesnych technologii stacjonarne 2015/2016Z

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Wykład Ćwiczenia Laboratorium Projekt Seminarium

Wykład Ćwiczenia Laboratorium Projekt Seminarium WYDZIAŁ ELEKTRONIKI KARTA PRZEDMIOTU Nazwa w języku polskim Języki programowania Nazwa w języku angielskim Programming languages Kierunek studiów (jeśli dotyczy): Informatyka - INF Specjalność (jeśli dotyczy):

Bardziej szczegółowo

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka L.p. Nazwisko i imię studenta Promotor Temat pracy magisterskiej 1. Wojciech Kłopocki dr Bartosz Ziemkiewicz Automatyczne

Bardziej szczegółowo

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych - Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,

Bardziej szczegółowo

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Program, to lista poleceń zapisana w jednym języku programowania zgodnie z obowiązującymi w nim zasadami. Celem programu jest przetwarzanie

Bardziej szczegółowo

Tworzenie oprogramowania

Tworzenie oprogramowania Tworzenie oprogramowania dr inż. Krzysztof Konopko e-mail: k.konopko@pb.edu.pl 1 Tworzenie oprogramowania dla systemów wbudowanych Program wykładu: Tworzenie aplikacji na systemie wbudowanym. Konfiguracja

Bardziej szczegółowo

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1. Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1. Grażyna Koba MIGRA 2019 Spis treści (propozycja na 2*32 = 64 godziny lekcyjne) Moduł A. Wokół komputera i sieci komputerowych

Bardziej szczegółowo

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa Autorzy scenariusza: SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH

Bardziej szczegółowo

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko

Bardziej szczegółowo

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery http://xqtav.sourceforge.net XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery dr hab. Jerzy Tyszkiewicz dr Andrzej Kierzek mgr Jacek Sroka Grzegorz Kaczor praca mgr pod

Bardziej szczegółowo

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych WEKA klasyfikacja z użyciem sztucznych sieci neuronowych 1 WEKA elementy potrzebne do zadania WEKA (Data mining software in Java http://www.cs.waikato.ac.nz/ml/weka/) jest narzędziem zawierającym zbiór

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo

Bardziej szczegółowo

Część I Rozpoczęcie pracy z usługami Reporting Services

Część I Rozpoczęcie pracy z usługami Reporting Services Spis treści Podziękowania... xi Wprowadzenie... xiii Część I Rozpoczęcie pracy z usługami Reporting Services 1 Wprowadzenie do usług Reporting Services... 3 Platforma raportowania... 3 Cykl życia raportu...

Bardziej szczegółowo

Jak utworzyć diagram

Jak utworzyć diagram Drukowanie struktury organizacyjnej... 1 Jak utworzyć diagram... 1 Wyświetlanie fragmentu struktury organizacyjnej... 2 Wyświetlanie na wykresie informacji szczegółowych... 3 Uwzględnianie wszystkich rekordów...

Bardziej szczegółowo

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego. Opis oferowanego przedmiotu zamówienia

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego. Opis oferowanego przedmiotu zamówienia Załącznik 1C do SIWZ Opis oferowanego przedmiotu zamówienia w postępowaniu pn. Dostawa sprzętu komputerowego i oprogramowania dla Urzędu Miejskiego w Słupsku w ramach projektu pn. e-urząd dodaj do ulubionych!

Bardziej szczegółowo

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:

Bardziej szczegółowo

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, 2016 Spis treści Przedmowa XI I Podstawy języka Python 1. Wprowadzenie 3 1.1. Język i środowisko

Bardziej szczegółowo

Zajęcia nr VII poznajemy Rattle i pakiet R.

Zajęcia nr VII poznajemy Rattle i pakiet R. Okno główne Rattle wygląda następująco: Zajęcia nr VII poznajemy Rattle i pakiet R. Widzimy główne zakładki: Data pozwala odczytad dane z różnych źródeł danych (pliki TXT, CSV) i inne bazy danych. Jak

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Międzyplatformowy interfejs systemu FOLANessus wykonany przy użyciu biblioteki Qt4

Międzyplatformowy interfejs systemu FOLANessus wykonany przy użyciu biblioteki Qt4 Uniwersytet Mikołaja Kopernika w Toruniu Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej Agnieszka Holka Nr albumu: 187396 Praca magisterska na kierunku Informatyka

Bardziej szczegółowo

data mining machine learning data science

data mining machine learning data science data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe

Bardziej szczegółowo

Nadzorowanie stanu serwerów i ich wykorzystania przez użytkowników

Nadzorowanie stanu serwerów i ich wykorzystania przez użytkowników Uniwersytet Mikołaja Kopernika w Toruniu Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej Tomasz Kapelak Nr albumu: 187404 Praca magisterska na kierunku Informatyka

Bardziej szczegółowo

1. Grupowanie Algorytmy grupowania:

1. Grupowanie Algorytmy grupowania: 1. 1.1. 2. 3. 3.1. 3.2. Grupowanie...1 Algorytmy grupowania:...1 Grupowanie metodą k-średnich...3 Grupowanie z wykorzystaniem Oracle Data Miner i Rapid Miner...3 Grupowanie z wykorzystaniem algorytmu K-Means

Bardziej szczegółowo

Informatyka I stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny)

Informatyka I stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod Nazwa Nazwa w języku angielskim Obowiązuje od roku akademickiego 2012/2013 Programy grafiki rastrowej,

Bardziej szczegółowo

Process Automation Toolkit (PAT)

Process Automation Toolkit (PAT) Process Automation Toolkit (PAT) Wprowadzenie Process Automation Tool Kit (PAT) zapewnia innowacyjną metodę automatyzacji procedur testowych dla testerów radiokomunikacyjnych Freedom. Przez wiele lat

Bardziej szczegółowo

Raport Hurtownie Danych

Raport Hurtownie Danych Raport Hurtownie Danych Algorytm Apriori na indeksie bitmapowym oraz OpenCL Mikołaj Dobski, Mateusz Jarus, Piotr Jessa, Jarosław Szymczak Cel projektu: Implementacja algorytmu Apriori oraz jego optymalizacja.

Bardziej szczegółowo

WebPack nadal bezpłatnie, ale z licencją

WebPack nadal bezpłatnie, ale z licencją Narzędzia konstruktora WebPack nadal bezpłatnie, ale z licencją Xilinx zmienił zasady udostępniania bezpłatnego oprogramowania Dodatkowe materiały na CD Czytelnicy zainteresowani realizacją projektów na

Bardziej szczegółowo

Platformy programistyczne:.net i Java L ABORATORIUM 7,8: HACKATHON - JTTT

Platformy programistyczne:.net i Java L ABORATORIUM 7,8: HACKATHON - JTTT Platformy programistyczne:.net i Java L ABORATORIUM 7,8: HACKATHON - JTTT O co chodzi? - Przypomnienie Hackathon - http://en.wikipedia.org/wiki/hackathon A hackathon is an event in which computer programmers

Bardziej szczegółowo

Temat: Ułatwienia wynikające z zastosowania Frameworku CakePHP podczas budowania stron internetowych

Temat: Ułatwienia wynikające z zastosowania Frameworku CakePHP podczas budowania stron internetowych PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W ELBLĄGU INSTYTUT INFORMATYKI STOSOWANEJ Sprawozdanie z Seminarium Dyplomowego Temat: Ułatwienia wynikające z zastosowania Frameworku CakePHP podczas budowania stron internetowych

Bardziej szczegółowo

Aplikacja (oprogramowanie) będzie umożliwiać przygotowanie, przeprowadzenie badania oraz analizę wyników według określonej metody.

Aplikacja (oprogramowanie) będzie umożliwiać przygotowanie, przeprowadzenie badania oraz analizę wyników według określonej metody. Załącznik nr 1 Specyfikacja przedmiotu zamówienia Aplikacja (oprogramowanie) będzie umożliwiać przygotowanie, przeprowadzenie badania oraz analizę wyników według określonej metody. Słowniczek pojęć Badanie

Bardziej szczegółowo

Analiza i wizualizacja danych Data analysis and visualization

Analiza i wizualizacja danych Data analysis and visualization KARTA MODUŁU / KARTA PRZEDMIOTU Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/2013

Bardziej szczegółowo

Regresja linearyzowalna

Regresja linearyzowalna 1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:

Bardziej szczegółowo

Uniwersytet Mikołaja Kopernika. Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej

Uniwersytet Mikołaja Kopernika. Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej Marcin HENRYKOWSKI Nr albumu: 158069 Praca magisterska na kierunku Informatyka Archiwizacja

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Programowanie obiektowe

Programowanie obiektowe Laboratorium z przedmiotu Programowanie obiektowe - zestaw 03 Cel zajęć. Celem zajęć jest zapoznanie z praktycznymi aspektami projektowania oraz implementacji klas abstrakcyjnych i interfejsów. Wprowadzenie

Bardziej szczegółowo

Dokument Detaliczny Projektu Temat: Księgarnia On-line Bukstor

Dokument Detaliczny Projektu Temat: Księgarnia On-line Bukstor Koszalin, 15.06.2012 r. Dokument Detaliczny Projektu Temat: Księgarnia On-line Bukstor Zespół projektowy: Daniel Czyczyn-Egird Wojciech Gołuchowski Michał Durkowski Kamil Gawroński Prowadzący: Dr inż.

Bardziej szczegółowo

Michał Strzelecki Metody przetwarzania i analizy obrazów biomedycznych (3)

Michał Strzelecki Metody przetwarzania i analizy obrazów biomedycznych (3) Michał Strzelecki Metody przetwarzania i analizy obrazów biomedycznych (3) Prezentacja multimedialna współfinansowana przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie Innowacyjna

Bardziej szczegółowo

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot

Bardziej szczegółowo

Wymagania edukacyjne z informatyki w klasie VIII

Wymagania edukacyjne z informatyki w klasie VIII Wymagania edukacyjne z informatyki w klasie VIII Wymagania konieczne K dotyczą zagadnień elementarnych, stanowiących swego rodzaju podstawę, powinien je zatem opanować każdy uczeń. Wymagania podstawowe

Bardziej szczegółowo

SCENARIUSZ LEKCJI Przesuwanie paraboli - wykorzystanie arkusza kalkulacyjnego na lekcjach matematyki

SCENARIUSZ LEKCJI Przesuwanie paraboli - wykorzystanie arkusza kalkulacyjnego na lekcjach matematyki SCENARIUSZ LEKCJI Przesuwanie paraboli - wykorzystanie arkusza kalkulacyjnego na lekcjach matematyki OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA

Bardziej szczegółowo

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9 Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9 Uruchamianie edytora OpenOffice.ux.pl Writer 9 Dostosowywanie środowiska pracy 11 Menu Widok 14 Ustawienia dokumentu 16 Rozdział 2. OpenOffice

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

4.3 Grupowanie według podobieństwa

4.3 Grupowanie według podobieństwa 4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi

Bardziej szczegółowo

Integracja systemu CAD/CAM Catia z bazą danych uchwytów obróbkowych MS Access za pomocą interfejsu API

Integracja systemu CAD/CAM Catia z bazą danych uchwytów obróbkowych MS Access za pomocą interfejsu API Dr inż. Janusz Pobożniak, pobozniak@mech.pk.edu.pl Instytut Technologii Maszyn i Automatyzacji produkcji Politechnika Krakowska, Wydział Mechaniczny Integracja systemu CAD/CAM Catia z bazą danych uchwytów

Bardziej szczegółowo

Wydział Informatyki, Elektroniki i Telekomunikacji. Katedra Informatyki

Wydział Informatyki, Elektroniki i Telekomunikacji. Katedra Informatyki Wydział Informatyki, Elektroniki i Telekomunikacji Katedra Informatyki Pastebin w wersji zorientowanej na środowisko mobilne z klientem pozwalającym na oba kierunki przeklejania. Dokumentacja deweloperska

Bardziej szczegółowo

Opracowanie dodatkowego rodzaju pytań dla systemu Moodle

Opracowanie dodatkowego rodzaju pytań dla systemu Moodle Uniwersytet Mikołaja Kopernika w Toruniu Wydział Fizyki, Astronomii i Informatyki Stosowanej Rafał Święch Nr albumu: 236418 Praca inżynierska na kierunku Informatyka Stosowana Opracowanie dodatkowego rodzaju

Bardziej szczegółowo

Automatyczna klasyfikacja zespołów QRS

Automatyczna klasyfikacja zespołów QRS Przetwarzanie sygnałów w systemach diagnostycznych Informatyka Stosowana V Automatyczna klasyfikacja zespołów QRS Anna Mleko Tomasz Kotliński AGH EAIiE 9 . Opis zadania Tematem projektu było zaprojektowanie

Bardziej szczegółowo

Architektura Systemu. Architektura systemu umożliwia kontrolowanie iteracyjnego i przyrostowego procesu tworzenia systemu.

Architektura Systemu. Architektura systemu umożliwia kontrolowanie iteracyjnego i przyrostowego procesu tworzenia systemu. Architektura Systemu Architektura systemu umożliwia kontrolowanie iteracyjnego i przyrostowego procesu tworzenia systemu. Architektura jest zbiorem decyzji dotyczących: organizacji systemu komputerowego,

Bardziej szczegółowo

ICD Wprowadzenie. Wprowadzenie. Czym jest In-Circuit Debugger? 2. O poradniku 3. Gdzie szukać dodatkowych informacji? 4

ICD Wprowadzenie. Wprowadzenie. Czym jest In-Circuit Debugger? 2. O poradniku 3. Gdzie szukać dodatkowych informacji? 4 ICD 2 Czym jest In-Circuit Debugger? 2 O poradniku 3 Gdzie szukać dodatkowych informacji? 4 ICD 1 ICD 25.08.2009 Czym jest In-Circuit Debugger? Większość procesorów dostarcza systemów debugowania (ang.

Bardziej szczegółowo

Ewelina Dziura Krzysztof Maryański

Ewelina Dziura Krzysztof Maryański Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

SPINACZ.edu.pl platforma współpracy nauki z biznesem w zakresie innowacyjnych rozwiązań informatycznych

SPINACZ.edu.pl platforma współpracy nauki z biznesem w zakresie innowacyjnych rozwiązań informatycznych SPINACZ.edu.pl platforma współpracy nauki z biznesem w zakresie innowacyjnych rozwiązań informatycznych Poznańska Impreza Wolnego Oprogramowania Poznań, 3 grudnia 2011 Rafał Brzychcy rafal.brzychcy@fwioo.pl

Bardziej szczegółowo

Dokument Detaliczny Projektu

Dokument Detaliczny Projektu Dokument Detaliczny Projektu Dla Biblioteki miejskiej Wersja 1.0 Streszczenie Niniejszy dokument detaliczny projektu(ddp) przedstawia szczegóły pracy zespołu projektowego, nad stworzeniem aplikacji bazodanowej

Bardziej szczegółowo

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS Modelowanie Data Mining na wielką skalę z SAS Factory Miner Paweł Plewka, SAS Wstęp SAS Factory Miner Nowe narzędzie do data mining - dostępne od połowy 2015 r. Aktualna wersja - 14.1 Interfejs webowy

Bardziej szczegółowo