Laboratorium z przedmiotu MED Lab1 - wprowadzenie
Grzegorz Protaziuk Konsultacje: środa godz. 11.00 12.00 pok. 301 Gmach EiTI email: gprotazi@elka.pw.edu.pl (w temacie mejla proszę dodać frazę MED) www.ii.pw.edu.pl/~gprotazi
Regulamin Laboratorium jest na zaliczenie. Zaliczenie jest na podstawie wykonania zadań laboratoryjnych w trakcie zajęć. Do zaliczenia wymagana jest obecność na 6 zajęciach i zaliczenie wszystkich 5 klas tematycznych. W terminie dodatkowym można odrobić jedną nieobecność i zaliczyć tylko jedną klasę tematyczną.
Terminy laboratoriów nr lab. wtorek środa 1 20 X 21 X 2 27 X 28 X 3 3 XI 4 XI 4 10 XI 13 XI 5 1 XII 2 XII 6 8 XII 9 XII 7 15 XII 16 XII Dodatkowy termin: 22 grudzień 2015r.
Tematyka laboratorium Lab1 sprawy organizacyjne, wprowadzenie Lab2 reguły asocjacyjne Lab3 sekwencje Lab4 reguły, sekwencje - dokończenie Lab5 klasyfikacja Lab6 grupowanie Lab7 grupowanie i klasyfikacja
Zaliczenie klasy tematycznej Krótkie sprawozdanie (skomentowany plik ze skryptem R) zawierające trzy punkty: Cel badań i plan eksperymentów należy podać cel w taki sposób, aby była możliwość oceny sensowności przeprowadzonych eksperymentów. Przedstawienie wyników eksperymentów typowo należy wykonać kilka, kilkanaście testów. Wnioski z uzyskanych wyników wnioski powinny być czymś więcej niż opisem wyników czy wskazaniem najlepszego rozwiązania.
Środowisko R-Studio: http://r2d2.ii.pw.edu.pl:8787 R jest oprogramowaniem na licencji typu open-source, oferującym różnorodne metody analizy danych (statystyczne, algorytmy eksploracji danych i danych tekstowych) oraz metody do tworzenia prezentacji graficznych wyników. strona www: https://www.r-project.org/
Cel laboratorium Nabycie praktycznych umiejętności budowy i wykonania procesu i technik eksploracji danych.
Metody eksploracji danych Reguły asocjacyjne Apriori, ECLAT pakiet arules Reguły sekwencyjne cspade pakiet arulessequence Grupowanie Metody partycjonujące - k-means, pam Metody hierarchniczne - agnes Medoty gęstościowe dbscan Pakiety: Cluster, fpc Klasyfikacja Drzewa decyzyjne - pakiety: party, rpart, c50 Svm, Naive Bayes pakiet e1071
Transformacja danych Postać relacyjne i transakcyjna w obszarze eksploracji danych Dyskretyzacja danych Problem niekompletności danych
Postać relacyjne i transakcyjna Postać relacyjna tabela, znany, dobrze zdefiniowany zbiór atrybutów. Postać transakcyjna dwa atrybuty: identyfikator obiektu, cecha obiektu. Jest możliwość prostej zamiany danych z jednej postaci w drugą (dla danych kompletnych).
Transformacje danych (2) Dyskretyzacja atrybutów ciągłych przez eksperta na dwie wartości na podstawie średniej na 4 wartości na podstawie średniej i odchylenia standardowego Na n przedziałów o równym rozmiarze Na n równolicznych przedziałów Inne (użycie klasyfikatorów, dyskretyzacja boolowska, ). Zastąpienie atrybutów o wartościach nominalnych na atrybuty o wartościach liczbowych dla każdej wartości tworzony jest atrybut o wartościach binarnych: przyjmuje wartość 1, gdy w oryginalnych danych występuje dana wartość, w przeciwnym przypadku przyjmuje wartość 0.
Niekompletność Wartości brakujące Chwilowa niedostępność danych brakujące dane mogą być łatwo uzupełnione z innych źródeł (np. kod pocztowy ze stron poczty). Brak danych spowodowany ogólną niedoskonałością metod i urządzeń, służących do ich zbierania i zapisywania takich danych zazwyczaj nie da się w łatwy sposób uzupełnić. Wartości niedostępne w danym typie obiektów pojawiają się instancje, do których nie mają zastosowania pewne fragmenty opisu tego typu.
Metody uzupełniania danych Pominięcie obiektów Proste uzupełnianie danych wartością specjalną, dominantą, średnią Użycie klasyfikatora: knni, drzewa decyzyje, teorii zbiorów przybliżonych Statystyczne