Nazwa modułu: Metody eksploracji danych Rok akademicki: 2015/2016 Kod: OWT-1-607-s Punkty ECTS: 4 Wydział: Odlewnictwa Kierunek: Wirtotechnologia Specjalność: - Poziom studiów: Studia I stopnia Forma i tryb studiów: - Język wykładowy: Polski Profil kształcenia: Ogólnoakademicki (A) Semestr: 6 Strona www: Osoba odpowiedzialna: prof. dr hab. inż. Kusiak Jan (kusiak@agh.edu.pl) Osoby prowadzące: Opis efektów kształcenia dla modułu zajęć Kod EKM Student, który zaliczył moduł zajęć wie/umie/potrafi Powiązania z EKK Sposób weryfikacji efektów kształcenia (forma zaliczeń) Wiedza M_W001 ma pogłębioną wiedzę z zakresu probabilistyki i statystyki w tym zagadnień związanych z analizą regresji i szeregów czasowych M_W002 zna podstawowe metody, techniki i narzędzia stosowane w zagadnieniach dotyczących analizy danych zapisanych w bazach danych, w tym algorytmy indukcji reguł, klasyfikacji i analizy skupień M_W003 ma podbudowaną teoretycznie szczegółową wiedzę związaną z zagadnieniami eksploracji danych jak: analiza asocjacji, czy eksploracji tekstu i stron WWW M_W004 ma wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach z zakresu odkrywania wiedzy w danych WT1A_W17, WT1A_W27 Umiejętności 1 / 5
M_U001 potrafi pozyskiwać informacje z literatury, baz danych oraz innych właściwie dobranych źródeł, także w języku angielskim z zakresu eksploracji danych; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie WT1A_U14 Projekt M_U002 potrafi przygotować i przedstawić prezentację ustną, dotyczącą szczegółowych zagadnień z zakresu metod pozyskiwania wiedzy z baz danych WT1A_U11 Projekt M_U003 potrafi samodzielnie dokonać eksploracyjnej analizy danych w aspekcie pozyskania wiedzy z danych z wykorzystaniem poznanych w trakcie zajęć narzędzi (STATISTICA i inne pakiety obliczeniowe) WT1A_U14 Wykonanie ćwiczeń laboratoryjnych Kompetencje społeczne M_K001 rozumie potrzebę uczenia się przez całe życie i nadążania za nowymi rozwiązaniami z zakresu analizy danych w bazach danych oraz potrafi odpowiednio określić priorytety służące realizacji określonego przez siebie lub innych zadania WT1A_K01, WT1A_K05 Zaangażowanie w pracę zespołu Matryca efektów kształcenia w odniesieniu do form zajęć Kod EKM Student, który zaliczył moduł zajęć wie/umie/potrafi Forma zajęć Wykład audytoryjne laboratoryjne projektowe Konwersatori um seminaryjne praktyczne terenowe warsztatowe Inne E-learning Wiedza M_W001 M_W002 M_W003 ma pogłębioną wiedzę z zakresu probabilistyki i statystyki w tym zagadnień związanych z analizą regresji i szeregów czasowych zna podstawowe metody, techniki i narzędzia stosowane w zagadnieniach dotyczących analizy danych zapisanych w bazach danych, w tym algorytmy indukcji reguł, klasyfikacji i analizy skupień ma podbudowaną teoretycznie szczegółową wiedzę związaną z zagadnieniami eksploracji danych jak: analiza asocjacji, czy eksploracji tekstu i stron WWW 2 / 5
M_W004 Umiejętności M_U001 M_U002 M_U003 ma wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach z zakresu odkrywania wiedzy w danych potrafi pozyskiwać informacje z literatury, baz danych oraz innych właściwie dobranych źródeł, także w języku angielskim z zakresu eksploracji danych; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie potrafi przygotować i przedstawić prezentację ustną, dotyczącą szczegółowych zagadnień z zakresu metod pozyskiwania wiedzy z baz danych potrafi samodzielnie dokonać eksploracyjnej analizy danych w aspekcie pozyskania wiedzy z danych z wykorzystaniem poznanych w trakcie zajęć narzędzi (STATISTICA i inne pakiety obliczeniowe) Kompetencje społeczne M_K001 rozumie potrzebę uczenia się przez całe życie i nadążania za nowymi rozwiązaniami z zakresu analizy danych w bazach danych oraz potrafi odpowiednio określić priorytety służące realizacji określonego przez siebie lub innych zadania Treść modułu zajęć (program wykładów i pozostałych zajęć) Wykład Program wykładów: 1.Wprowadzenie do Eksploracji Danych (ED) I. 2.Wprowadzenie do ED II: przebieg procesu ED, przykłady zastosowań, typy zadań ED. Repetytorium z probabilistyki i statystyki: podstawy probabilistyki, twierdzenie Bayesa, parametry charakterystyczne wektora losowego, estymacja punktowa i przedziałowa, testowanie hipotez statystycznych. 3.Przygotowanie i wstępna obróbka danych: postacie danych, wczytywanie danych, ocena jakości, filtrowanie oraz czyszczenie danych, konsolidacja danych, 3 / 5
przekształcenia danych. 4.Dobór, eliminacja i redukcja liczby zmiennych: metoda analizy macierzy współczynników korelacji, metoda eliminacji zmiennych oparta o statystykę chikwadrat, analiza składowych głównych (PCA) 5.Klasyfikacja I: wprowadzenie, metoda k-najbliższych sąsiadów, przestrzenie metryczne, cechy metod i modeli klasyfikacyjnych,. drzewa klasyfikacyjne 6.Klasyfikacja II:, liniowe funkcje dyskryminacyjne, logistyczne funkcje dyskryminacyjne, klasyfikacja za pomocą sztucznych sieci neuronowych, klasyfikacja bayesowska, techniki modyfikacji oraz ewaluacji klasyfikatorów, ocena jakości klasyfikatora, polepszanie klasyfikatorów. 7.Regresja: wprowadzenie, regresja liniowa i nieliniowa, ewaluacja modelu regresyjnego 8.Analiza szeregów czasowych. 9.Analiza skupień: wprowadzenie, metoda k-średnich, metody hierarchiczne, sieci Kohonena, grupowanie probabilistyczne algorytm EM. 10.Zaawansowane metody klasteryzacji dla bardzo dużych zbiorów danych algorytm BIRCH, Grupowanie oparte na gęstości. 11.Analiza asocjacji I: wprowadzenie, algorytm A-Priori, ocena jakości reguł asocjacyjnych. 12.Analiza asocjacji II: algorytm FP-Growth, wielopoziomowe reguły asocjacyjne. 13.Eksploracja zasobów internetowych podział metod ze względu na rodzaj opracowywanych danych. Wykorzystanie robotów internetowych. Indeksowanie i wyszukiwanie danych na podstawie słów kluczowych. Reprezentacja dokumentu w postaci wektora indeks odwrócony. Ranking stron algorytm PageRank, HITS 14.Inne zagadnienia ED: eksploracja tekstu i sieci WWW, analiza przeżycia. 15.Przykłady eksploracyjnej analizy danych. laboratoryjne Program pozostałych zajęć (laboratoria, projekty) 1.Pierwsza polowa ćwiczeń odbywa się w laboratorium studenci poznają narzędzia eksploracji danych wchodzące w skład programu Statistica oraz innych pakietów do data mining u 2.W ramach drugiej części ćwiczeń studenci samodzielnie wykonują projekt polegający na eksploracyjnej analizie wybranego zbioru danych. Sposób obliczania oceny końcowej Ocena końcowa (OK) to średnia ważona: Ocena z ćwiczeń laboratoryjnych (OL) + ocena projektu (OP) + ocena z egzaminu (OE) OK = 0,3 OP + 0,2 OL + 0,5 OE Ocenę z projektu może obniżyć niedotrzymanie terminu realizacji Wymagania wstępne i dodatkowe Nie podano wymagań wstępnych lub dodatkowych. Zalecana literatura i pomoce naukowe 1.Hand D., Mannila H., Smyth P., Eksploracja danych, WNT, Warszawa, 2005. 2.Larose D.T., Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, PWN, Warszawa, 2006. 3.Larose D.T., Odkrywanie wiedzy z danych. Metody i Modele eksploracji danych, PWN, Warszawa, 2008. 4.Stanisz A., Przystępny kurs statystyki : w oparciu o program STATISTICA PL na przykładach z medycyny, T.1-3, Statsoft, Kraków, 2006. 5.Cichosz P., Systemy uczące się, WNT, Warszawa, 2000. 4 / 5
6.Koronacki J., Ćwik J., Statystyczne systemy uczące się, WNT, Warszawa, 2005. 7.Brandt S., Analiza danych : metody statystyczne i obliczeniowe, PWN, Warszawa, 1998. 8.Hastie T., Tibshirani R., Friedman J., The elements of Statistical Learning, Springer, 2009. Publikacje naukowe osób prowadzących zajęcia związane z tematyką modułu Regulski K., Rojek G., Szeliga D., Kusiak J., Optymalizacja technologii walcowania blach na gorąco z wykorzystaniem metod eksploracji danych. Optimization of strip hot rolling technology using data mining methods. Hutnik Wiadomości Hutnicze, 4, 82, 2015, 248-255. Regulski K., Szeliga D., Kusiak J., Application of regression trees in optimization of metal forming processes. Key Engineering Materials, v. 622-623, 2014, 749-755. G. Rojek, J. Kusiak, System optymalizacji procesu produkcyjnego z zastosowaniem agentowego systemu przetwarzania informacji. Hutnik Wiadomości Hutnicze, 79, 1, 2012, 71 74. K. Regulski, G. Rojek, M. Skóra, J. Kusiak, Data exploration approach in control of metal forming manufacturing chain : example of fasteners production. Steel Research International, special volume, 2012. Jarosz P., Talar J., Kusiak J., Association rules as an example of data mining in the analysis of copper flash smelting process the metallurgist s point of view. Computer Methods in Materials Science, 9 (2009) 392 399. Informacje dodatkowe Brak Nakład pracy studenta (bilans punktów ECTS) Forma aktywności studenta lub kolokwium zaliczeniowe Udział w wykładach Udział w ćwiczeniach laboratoryjnych Przygotowanie sprawozdania, pracy pisemnej, prezentacji, itp. Samodzielne studiowanie tematyki zajęć Sumaryczne obciążenie pracą studenta Punkty ECTS za moduł Obciążenie studenta 2 godz 15 godz 30 godz 48 godz 25 godz 120 godz 4 ECTS 5 / 5