Nazwa modułu: Eksploracja danych Rok akademicki: 2030/2031 Kod: MIS-2-105-MT-s Punkty ECTS: 5 Wydział: Inżynierii Metali i Informatyki Przemysłowej Kierunek: Informatyka Stosowana Specjalność: Modelowanie i technologie informacyjne Poziom studiów: Studia II stopnia Forma i tryb studiów: Stacjonarne Język wykładowy: Polski Profil kształcenia: Ogólnoakademicki (A) Semestr: 1 Strona www: http://tempus.metal.agh.edu.pl/~regulski Osoba odpowiedzialna: dr inż. Regulski Krzysztof (regulski@agh.edu.pl) Osoby prowadzące: dr inż. Regulski Krzysztof (regulski@agh.edu.pl) Opis efektów kształcenia dla modułu zajęć Kod EKM Student, który zaliczył moduł zajęć wie/umie/potrafi Powiązania z EKK Sposób weryfikacji efektów kształcenia (forma zaliczeń) Wiedza M_W001 ma pogłębioną wiedzę z zakresu probabilistyki i statystyki w tym zagadnień związanych z analizą regresji i szeregów czasowych IS2A_W01 M_W002 zna podstawowe metody, techniki i narzędzia stosowane w zagadnieniach dotyczących analizy danych zapisanych w bazach danych, w tym algorytmy indukcji reguł, klasyfikacji i analizy skupień IS2A_W02 M_W003 ma podbudowaną teoretycznie szczegółową wiedzę związaną z zagadnieniami eksploracji danych jak: analiza asocjacji, czy eksploracji tekstu i stron WWW IS2A_W03 M_W004 ma wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach z zakresu odkrywania wiedzy w danych IS2A_W04 Umiejętności 1 / 6
M_U001 potrafi pozyskiwać informacje z literatury, baz danych oraz innych właściwie dobranych źródeł, także w języku angielskim z zakresu eksploracji danych; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie IS2A_U01 Projekt M_U002 potrafi przygotować i przedstawić prezentację ustną, dotyczącą szczegółowych zagadnień z zakresu metod pozyskiwania wiedzy z baz danych IS2A_U02 Projekt M_U003 potrafi samodzielnie dokonać eksploracyjnej analizy danych w aspekcie pozyskania wiedzy z danych z wykorzystaniem poznanych w trakcie zajęć narzędzi (STATISTICA i inne pakiety obliczeniowe) IS2A_U03 Wykonanie ćwiczeń laboratoryjnych M_U004 potrafi dokonać identyfikacji i sformułować specyfikację złożonych zadań z zakresu pozyskiwania wiedzy z danych IS2A_U04 Wykonanie ćwiczeń laboratoryjnych M_U005 potrafi ocenić przydatność metod i narzędzi służących do rozwiązania zadania z zakresu eksploracji danych i wykorzystać je do rozwiązania postawionego zadania IS2A_U05 Projekt Kompetencje społeczne M_K001 rozumie potrzebę uczenia się przez całe życie i nadążania za nowymi rozwiązaniami z zakresu analizy danych w bazach danych IS2A_K01 Wykonanie ćwiczeń M_K002 potrafi odpowiednio określić priorytety służące realizacji określonego przez siebie lub innych zadania IS2A_K02, IS2A_K03 Wykonanie projektu M_K003 potrafi współdziałać i pracować w grupie przyjmując w niej różne role IS2A_K02 Wykonanie projektu Matryca efektów kształcenia w odniesieniu do form zajęć Kod EKM Student, który zaliczył moduł zajęć wie/umie/potrafi Forma zajęć Wykład Ćwiczenia audytoryjne Ćwiczenia laboratoryjne Ćwiczenia projektowe Konwersatori um seminaryjne praktyczne Inne terenowe E-learning Wiedza M_W001 ma pogłębioną wiedzę z zakresu probabilistyki i statystyki w tym zagadnień związanych z analizą regresji i szeregów czasowych 2 / 6
M_W002 M_W003 M_W004 Umiejętności M_U001 M_U002 M_U003 M_U004 M_U005 zna podstawowe metody, techniki i narzędzia stosowane w zagadnieniach dotyczących analizy danych zapisanych w bazach danych, w tym algorytmy indukcji reguł, klasyfikacji i analizy skupień ma podbudowaną teoretycznie szczegółową wiedzę związaną z zagadnieniami eksploracji danych jak: analiza asocjacji, czy eksploracji tekstu i stron WWW ma wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach z zakresu odkrywania wiedzy w danych potrafi pozyskiwać informacje z literatury, baz danych oraz innych właściwie dobranych źródeł, także w języku angielskim z zakresu eksploracji danych; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie potrafi przygotować i przedstawić prezentację ustną, dotyczącą szczegółowych zagadnień z zakresu metod pozyskiwania wiedzy z baz danych potrafi samodzielnie dokonać eksploracyjnej analizy danych w aspekcie pozyskania wiedzy z danych z wykorzystaniem poznanych w trakcie zajęć narzędzi (STATISTICA i inne pakiety obliczeniowe) potrafi dokonać identyfikacji i sformułować specyfikację złożonych zadań z zakresu pozyskiwania wiedzy z danych potrafi ocenić przydatność metod i narzędzi służących do rozwiązania zadania z zakresu eksploracji danych i wykorzystać je do rozwiązania postawionego zadania 3 / 6
Kompetencje społeczne M_K001 M_K002 M_K003 rozumie potrzebę uczenia się przez całe życie i nadążania za nowymi rozwiązaniami z zakresu analizy danych w bazach danych potrafi odpowiednio określić priorytety służące realizacji określonego przez siebie lub innych zadania potrafi współdziałać i pracować w grupie przyjmując w niej różne role Treść modułu zajęć (program wykładów i pozostałych zajęć) Wykład <strong>program wykładów:</strong> 1.Wprowadzenie do Eksploracji Danych (ED) I. 2.Wprowadzenie do ED II: przebieg procesu ED, przykłady zastosowań, typy zadań ED. Repetytorium z probabilistyki i statystyki: podstawy probabilistyki, twierdzenie Bayesa, parametry charakterystyczne wektora losowego, estymacja punktowa i przedziałowa, testowanie hipotez statystycznych. 3.Przygotowanie i wstępna obróbka danych: postacie danych, wczytywanie danych, ocena jakości, filtrowanie oraz czyszczenie danych, konsolidacja danych, przekształcenia danych. 4.Dobór, eliminacja i redukcja liczby zmiennych: metoda analizy macierzy współczynników korelacji, metoda eliminacji zmiennych oparta o statystykę chikwadrat, analiza składowych głównych (PCA) 5.Klasyfikacja I: wprowadzenie, metoda k-najbliższych sąsiadów, przestrzenie metryczne, cechy metod i modeli klasyfikacyjnych,. drzewa klasyfikacyjne 6.Klasyfikacja II:, liniowe funkcje dyskryminacyjne, logistyczne funkcje dyskryminacyjne, klasyfikacja za pomocą sztucznych sieci neuronowych, klasyfikacja bayesowska, techniki modyfikacji oraz ewaluacji klasyfikatorów, ocena jakości klasyfikatora, polepszanie klasyfikatorów. 7.Regresja: wprowadzenie, regresja liniowa i nieliniowa, ewaluacja modelu regresyjnego 8.Analiza szeregów czasowych. 9.Analiza skupień: wprowadzenie, metoda k-średnich, metody hierarchiczne, sieci Kohonena, grupowanie probabilistyczne algorytm EM. 10.Zaawansowane metody klasteryzacji dla bardzo dużych zbiorów danych algorytm BIRCH, Grupowanie oparte na gęstości. 11.Analiza asocjacji I: wprowadzenie, algorytm A-Priori, ocena jakości reguł asocjacyjnych. 12.Analiza asocjacji II: algorytm FP-Growth, wielopoziomowe reguły asocjacyjne. 13.Eksploracja zasobów internetowych podział metod ze względu na rodzaj opracowywanych danych. Wykorzystanie robotów internetowych. Indeksowanie i wyszukiwanie danych na podstawie słów kluczowych. Reprezentacja dokumentu w postaci wektora indeks odwrócony. Ranking stron algorytm PageRank, HITS 14.Inne zagadnienia ED: eksploracja tekstu i sieci WWW, analiza przeżycia. 15.Przykłady eksploracyjnej analizy danych. 4 / 6
Ćwiczenia laboratoryjne Pierwsza polowa ćwiczeń odbywa się w laboratorium studenci poznają narzędzia eksploracji danych wchodzące w skład programu Statistica oraz innych pakietów do data mining u Ćwiczenia projektowe W ramach drugiej części ćwiczeń studenci samodzielnie wykonują projekt polegający na eksploracyjnej analizie wybranego zbioru danych. Sposób obliczania oceny końcowej Ocena końcowa (OK) to średnia ważona: Ocena z ćwiczeń laboratoryjnych (OL) + ocena projektu (OP) + ocena z kolokwium z wykładu (OW) OK = 0,4 OP + 0,3 OL + 0,3 OW Ocenę z projektu może obniżyć niedotrzymanie terminu realizacji Wymagania wstępne i dodatkowe Znajomość podstawowych zagadnień ze statystyki i opracowania danych. Zalecana literatura i pomoce naukowe 1.Hand D., Mannila H., Smyth P., Eksploracja danych, WNT, Warszawa, 2005. 2.Larose D.T., Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, PWN, Warszawa, 2006. 3.Larose D.T., Odkrywanie wiedzy z danych. Metody i Modele eksploracji danych, PWN, Warszawa, 2008. 4.Stanisz A., Przystępny kurs statystyki : w oparciu o program STATISTICA PL na przykładach z medycyny, T.1-3, Statsoft, Kraków, 2006. 5.Cichosz P., Systemy uczące się, WNT, Warszawa, 2000. 6.Koronacki J., Ćwik J., Statystyczne systemy uczące się, WNT, Warszawa, 2005. 7.Brandt S., Analiza danych : metody statystyczne i obliczeniowe, PWN, Warszawa, 1998. 8.Hastie T., Tibshirani R., Friedman J., The elements of Statistical Learning, Springer, 2009. Publikacje naukowe osób prowadzących zajęcia związane z tematyką modułu http://www.bpp.agh.edu.pl/ Informacje dodatkowe Brak 5 / 6
Nakład pracy studenta (bilans punktów ECTS) Forma aktywności studenta Udział w wykładach Samodzielne studiowanie tematyki zajęć Udział w ćwiczeniach laboratoryjnych Przygotowanie do zajęć Udział w ćwiczeniach projektowych Wykonanie projektu Sumaryczne obciążenie pracą studenta Punkty ECTS za moduł Obciążenie studenta 15 godz 15 godz 150 godz 5 ECTS 6 / 6