KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angieskim Obowiązuje od roku akademickiego 0/06 Z-ID-608a Anaiza danych niestrukturanych Unstructured Data Anaysis A. USYTUOWANIE MODUŁU W SYSTEMIE STUDIÓW Kierunek studiów Poziom kształcenia Profi studiów Forma i tryb prowadzenia studiów Specjaność Jednostka prowadząca moduł Koordynator modułu Inżynieria danych I stopień Praktyczny Studia stacjonarne Anaityka danych i modeowanie Katedra Informatyki i Matematyki Stosowanej Mgr inż. Karoina Karwowska Dr hab. Marzena Nowakowska Zatwierdził B. OGÓLNA CHARAKTERYSTYKA PRZEDMIOTU Przynaeżność do grupy/boku przedmiotów Status modułu Język prowadzenia zajęć Usytuowanie modułu w panie studiów - semestr Usytuowanie reaizacji przedmiotu w roku akademickim Wymagania wstępne Egzamin (TAK/NIE) Liczba punktów ECTS Specjanościowy Obowiązkowy Poski Semestr VI Semestr etni Wprowadzenie do programowania w środowisku anaitycznym, Odkrywanie związków w danych wieowymiarowych NIE Forma prowadzenia zajęć Liczba godzin w semestrze wykład w ćwiczenia ć aboratorium 0 0 projekt p inne i
C. EFEKTY KSZTAŁCENIA I METODY SPRAWDZANIA EFEKTÓW KSZTAŁCENIA Ce modułu Zwiększenie świadomości studentów na temat użyteczności dużych iości danych tekstowych. Zapoznanie z technikami eksporacji tekstu. Nabycie umiejętności posługiwania się programem SAS Text Miner oraz testowanie niekomercyjnych narzędzi do eksporacji tekstu. Symbo efektu W_0 U_0 U_0 Efekty kształcenia Student zna podstawowe metody Text Mining, służące do strukturyzacji informacji tekstowych i automatycznej anaizy dokumentów tekstowych oraz zna ich zastosowanie. Student zna narzędzie SAS Text Miner oraz wybrane darmowe narzędzia do eksporacji danych. Student ma wiedzę na temat poszczegónych metod statystycznych przydatnych w anaizie danych niestrukturanych oraz zna ich przykładowe zastosowania prowadzące do znaezienia nieznanych zaeżności, wzorców i trendów pomiędzy danymi. Student rozumie konieczność przekształcania dokumentów tekstowych oraz zna różne rodzaje reprezentacji tekstu. Student potrafi wykonać proste zadania konwersji dokumentów tekstowych do wektorów cech. Student potrafi dokonać kasyfikacji zbioru dokumentów tekstowych z wykorzystaniem odpowiednich agorytmów i narzędzi. Student potrafi dokonać grupowania zbioru dokumentów tekstowych za pomocą odpowiednich agorytmów i narzędzi. Student potrafi samodzienie pozyskiwać odpowiednie dane tekstowe do anaizy. Student rozumie potrzebę ciągłego poszerzania wiedzy z obszaru Data Mining i Text Mining. Forma prowadzenia zajęć kierunkowych w, K_W0 w, K_W w, K_W0 K_W09 w, K_W w, K_U0 K_U06 K_U6 K_U06 K_U6 K_U0 w, K_K0 obszarowych TP_W0 TP_W0 TP_W0 TP_W0 XP_W0 XP_W0 TP_W0 TP_W0 TP_W0 XP_W0 XP_W0 XP_W0 TP_W0 TP_W0 XP_W0 XP_W0 TP_U0 TP_U08 TP_U09 TP_U TP_U6 TP_U0 TP_U0 TP_U08 TP_U09 TP_U TP_U6 TP_U9 TP_U0 TP_U0 TP_U08 TP_U09 TP_U TP_U6 TP_U9 TP_U0 TP_U0 TP_U06 XP_U07 TP_K0 XP_K0 XP_K0
Treści kształcenia. Treści kształcenia w zakresie wykładu Nr wykładu Treści kształcenia Wprowadzenie do metod anaizy danych niestrukturanych. Techniki Data Mining, Text Mining, Web Mining i ich zastosowanie. Wprowadzenie do SAS Text Miner. Wstępna anaiza danych tekstowych. Metody doskonaenia reprezentacji dokumentów (tokenizacja, stemming, stopwords). Modee reprezentacji tekstu (macierz TFM, TF-IDF, miary odegłości da reprezentacji wektorowej). Transformacja danych tekstowych (redukcja wymiarów macierzy częstości). Metody eksporacji danych kasyfikacja tekstu. Naiwny kasyfikator bayesowski, agorytm k najbiższych sąsiadów. Metody eksporacji danych grupowanie dokumentów. Hierarchiczne i niehierarchiczne metody grupowania. Grupowanie dokumentów tekstowych za pomocą agorytmów agomeracyjnych i podziałowych oraz agorytmu k-średnich. Zapoznanie ze środowiskiem Rapid Miner. kształcenia da modułu W_0. Treści kształcenia w zakresie ćwiczeń. Treści kształcenia w zadań aboratoryjnych Nr zajęć ab. 6 7 8 Treści kształcenia Identyfikacja źródeł oraz pozyskiwanie danych tekstowych do anaiz. Zapoznanie ze środowiskiem SAS Text Miner. Wczytywanie danych tekstowych w różnych formatach i przetwarzanie zbioru dokumentów w jedną bazę danych SAS input da Text Miner. Wstępne przetwarzanie pozyskanych danych tekstowych w środowisku SAS. Eiminacja nieistotnych wyrazów (stop word) oraz redukcja do rdzenia (stemming) w ceu doskonaenia reprezentacji danych tekstowych. Wektorowa reprezentacja danych tekstowych w środowisku SAS. Metoda N gram. Macierz term-frequency. Ocena ważności słów w macierzy przekształcenia częstości występowania słów (podejście TF-IDF). Sprawozdanie z wykonania prac z ćwiczeń nr -. Porównanie wpływu testowanych metod przetwarzania dokumentów na jakość uzyskiwanych wyników. Wnioski i zaecenia. Anaiza dokumentów tekstowych w środowisku SAS kasyfikacja dokumentów dotyczących pozyskanych opinii o produkcie/przedsiębiorstwie. Przygotowanie zbioru danych uczących, wykorzystanie agorytmu naiwnego kasyfikatora bayesowskiego, ocena jakości modeu. Anaiza dokumentów tekstowych w środowisku SAS kasyfikacja dokumentów dotyczących pozyskanych opinii o produkcie/przedsiębiorstwie. Przygotowanie zbioru danych uczących, wykorzystanie agorytmu k najbiższych sąsiadów, ocena jakości modeu. Sprawozdanie z wykonania prac z ćwiczeń nr -6. Porównanie testowanych agorytmów kasyfikacji. Wnioski i zaecenia. Anaiza dokumentów tekstowych w środowisku SAS grupowanie dokumentów dotyczących pozyskanych opinii o produkcie/przedsiębiorstwie. Ekstrakcja cech dokumentów, wybór miary odegłości. Grupowanie z wykorzystaniem agorytmów hierarchicznych. kształcenia da modułu W_0 U_0 U_0
9 0 Anaiza dokumentów tekstowych w środowisku SAS poddział dokumentów dotyczących pozyskanych opinii o produkcie/przedsiębiorstwie. Podział z wykorzystaniem agorytmu k-średnich. Wpływ parametrów konfiguracyjnych procesu wektoryzacji dokumentów tekstowych na jakość kasteryzacji. Sprawozdanie z wykonania prac z ćwiczeń nr 8-9. Porównanie testowanych agorytmów grupowania. Wnioski i zaecenia. Zapoznanie ze środowiskiem Rapid Miner wstępne przetwarzanie danych. Anaiza dokumentów tekstowych w środowisku Rapid Miner kasyfikacja danych za pomocą wybranych agorytmów. Reaizacja projektu indywiduanego wykonanie modeu anaizy danych tekstowych. Okreśenie ceu anaizy, zebranie i przygotowanie zbioru danych U_0 tekstowych dotyczących wybranego zagadnienia. Import pików do środowiska SAS jako baza danych SAS. Reaizacja projektu indywiduanego sporządzenie podstawowego modeu Text Mining, ocena wstępnych rezutatów, zastosowanie wybranej metody kasteryzacji. Sprawozdanie z wykonania prac z ćwiczeń nr -. Wnioski i zaecenia. Kookwium podsumowujące.. Charakterystyka zadań projektowych. Charakterystyka zadań w ramach innych typów zajęć dydaktycznych Metody sprawdzania efektów kształcenia Symbo efektu W0 W0 W0 W0 U0 U0 U0 U0 K0 Metody sprawdzania efektów kształcenia (sposób sprawdzenia, w tym da umiejętności odwołanie do konkretnych zadań projektowych, aboratoryjnych, itp.) Kookwium końcowe. Kookwium końcowe. Kookwium końcowe. Kookwium końcowe. Aktywność i dyskusja na zajęciach.
D. NAKŁAD PRACY STUDENTA Bians punktów ECTS Lp. Rodzaj aktywności Obciążenie studenta Jednostka. Udział w wykładach 0 h. Udział w ćwiczeniach. Udział w aboratoriach 0 h. Udział w zajęciach projektowych. Udział w konsutacjach (- razy w semestrze) h 6. Konsutacje projektowe 7. Udział w egzaminie 8. 9. Liczba godzin reaizowanych przy bezpośrednim udziae nauczyciea akademickiego h Liczba punktów ECTS, którą student uzyskuje na zajęciach 0. wymagających bezpośredniego udziału nauczyciea akademickiego,7 ECTS ( punkt ECTS=7 godzin obciążenia studenta). Samodziene studiowanie tematyki wykładów 6 h. Samodziene przygotowanie się do ćwiczeń. Samodziene przygotowanie się do kookwiów. Samodziene przygotowanie się do aboratoriów 6 h. Wykonanie sprawozdań 0 h 6. Przygotowanie do kookwium końcowego z aboratorium 7. Wykonanie projektu ub dokumentacji 0 h 8. Przygotowanie do egzaminu 9. 0. Liczba godzin samodzienej pracy studenta 6 h Liczba punktów ECTS, którą student uzyskuje w ramach. samodzienej pracy, ECTS ( punkt ECTS=7 godzin obciążenia studenta). Sumaryczne obciążenie pracą studenta 07 h. Punkty ECTS za moduł punkt ECTS=7 godzin obciążenia studenta ECTS.. Nakład pracy związany z zajęciami o charakterze praktycznym Suma godzin związanych z zajęciami praktycznymi Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym punkt ECTS=7 godzin obciążenia studenta 9 h, ECTS E. LITERATURA Wykaz iteratury Witryna WWW modułu/przedmiotu. Getting Started with SAS Text Miner., SAS Institute Inc, 0.. Kantardzic M., Data mining: concepts, modes, methods, and agorithms, Wiey-Interscience: IEEE Press, 00.. Larose D. T., Metody i modee eksporacji danych, Wydawnictwo Naukowe PWN, 0.. Weiss S. M., Indurkhya N., Zhang T., Damerau F., Text Mining: Predictive Methods for Anayzing Unstructured Information, Springer Science and Business Media, 00.