Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r.
Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data mining); praktycznych umiejętności - pozyskania danych, ich obróbki i analizy w programie Statistica.
Wprowadzenie Postępujący rozwój informatyzacji, coraz większy dostęp do sieci komputerowych, powszechne gromadzenie informacji w bazach i hurtowniach danych prowadzi do stałego wzrostu ilości przechowywanych danych.
Wprowadzenie Codziennie sklepy, banki, firmy, agencje marketingowo-reklamowe, portale internetowe, ośrodki medyczne lub naukowo-badawcze wykonują i zapisują tysiące: operacji handlowych, transakcji, raportów opisów.
Wprowadzenie Na rynku finansowym sukces osiągają te firmy, które mając szybki dostęp do danych potrafią odpowiednio je wykorzystać. Przedsiębiorczy student 2016 Analiza danych i data mining. mgr K. Racka
Wprowadzenie We współczesnych bazach i hurtowniach danych gromadzone są ogromne ilości informacji, których człowiek sam nie jest w stanie szybko przeanalizować. Do tego celu używa się metod eksploracji danych (data mining), które umożliwiają odkrywanie nowej wiedzy, w dużych bazach danych.
Wprowadzenie Za pomocą metod data mining zgromadzone dane opisujące działania przedsiębiorstwa i jego klientów pozwalają na: analizę trendów, anomalii rozwoju firmy, ocenę klienta a także przewidywania istotnych zagrożeń finansowych, wspomaganie procesów decyzyjnych.
Definicja Data mining - eksploracja danych definiowane jest jako proces odkrywania: nowych reguł, wzorców, zależności w dużych zbiorach danych (hurtownie danych).
Etapy procesu odkrywania wiedzy Czyszczenie danych (ang. data cleaning); Integracja danych; Wybieranie danych; Transformacja danych; Eksploracja danych; Ocena odkrytych wzorców, reguł, zależności; Prezentacja odkrytej wiedzy;
Eksploracja danych jako jeden z kroków w procesie odkrywania wiedzy.
Metody eksploracji danych Wśród najbardziej znanych metod eksploracji danych możemy wyróżnić: Wyszukiwanie asocjacji Klasyfikacja Grupowanie Wykrywanie zmian i odchyleń Odkrywanie wzorców sekwencji Eksploracja danych tekstowych
Ranking programów do analizy i eksploracji danych oraz Big Data Jakie oprogramowanie do analiz, eksploracji danych, Big Data było przez Ciebie wybrane w ciągu ostatnich 12 miesięcy do prawdziwego projektu? Źródło: www.kdnuggets.com
Przykłady programów do analizy i eksploracji danych
Weka
Rapid Miner
Statistica Data Miner
Zadanie W programie Statistica dokonaj: importu danych z przygotowanego arkusza programu Microsoft Excel, nadaj etykiety dwóm pierwszym zmiennym, dokonaj czyszczenia danych, utwórz wykres 2W skategoryzowany, utwórz wykres rozrzutu, dokonaj analizy opisowej.
Podsumowanie Metody eksploracji danych (data mining) są narzędziem odkrywania nieznanej wiedzy, reguł, wzorców i zależności w bazach danych (hurtowniach danych). Ich zastosowanie można wskazać we wszystkich dziedzinach, w których należy dokonywać analizy i oceny dużej ilości danych, których człowiek sam nie jest w stanie szybko przeanalizować. Przedsiębiorczy student 2016 Analiza danych i data mining. mgr K. Racka
Podsumowanie Pamiętać należy, aby wnioski otrzymane z metod eksploracji danych były formułowane w postaci domniemań, a nie w postaci kategorycznych stwierdzeń. Wiedza pozyskana z analiz i metod eksploracji danych powinna być rozważnie wykorzystywana w procesach decyzyjnych. Nie każda bowiem odkryta reguła czy wzorzec będą przydatne. Człowiek musi dokonać ostatecznej oceny otrzymanej wiedzy.
Koniec