1. Cele eksploracyjnej analizy danych Rapid Miner zasady pracy i wizualizacja danych Oracle Data Miner -zasady pracy.

Spis treści: 1. Cele eksploracyjnej analizy danych...1 2. Rapid Miner zasady pracy i wizualizacja danych...3 3. Oracle Data Miner -zasady pracy.12 3.1 ODM PL/SQL.......12 3.2 ODM JAVA API......12 3.2.1 Import danych 17 3.2.2 Tworzenie tabel i perspektyw 19 4. Zadania..21 1. Cele eksploracyjnej analizy danych Nie istnieje jedyna, optymalna ścieżka eksploracji danych. Proces ten różni się w zależności od posiadanego zbioru danych, jak i od postawionego pytania. Warto jednak, aby jednym z pierwszych kroków było przyjrzenie się danym wejściowym. Umożliwia to eksploracyjna analiza danych (EDA), której celem jest stworzenie ogólnej charakterystyki danych obejmującej: zgłębienie danych, które polega na określeniu liczby rekordów, typu atrybutów i dziedziny wartości atrybutów, sprawdzenie relacji pomiędzy atrybutami, identyfikację podzbiorów obserwacji, rozwinięcie wstępnej idei ewentualnych powiązań pomiędzy atrybutami i docelową. Opis danych jest przeprowadzany na podstawie: badania zmiennych, obliczania statystyk opisowych, obserwacji histogramów zmiennych numerycznych, badania rozkładów zmiennych jakościowych, badania zależności pomiędzy zmiennymi. W przypadku zmiennych numerycznych: oblicza się podstawowe statystyki takie jak: wartość minimalna, maksymalna, średnia, mediana, położenie kwartyli (Q1, Q3), moda, odchylenie standardowe, odchylenie ćwiartkowe (Q3-Q1), -1-

bada symetrię rozkładu zmiennych histogram znormalizowany, oblicza współczynnik asymetrii i kurtozę, sprawdza zależności pomiędzy zmiennymi numerycznymi: kowariancja, współczynnik korelacji. Eksploracyjna analiza danych pozwala stwierdzić czy zbiór danych jest odpowiedniej jakości. Jakość danych jest sprawa kluczową dla efektywności eksploracji danych. W technikach komputerowych wyraża się to akronimem GIGO (garbage in garbage out). Dane kiepskiej jakości utrudniają klarowne myślenie i racjonalne podejmowanie decyzji. Dane obciążone, i wywodzone z nich zależności, mogą mieć poważne konsekwencje, jeśli chodzi o formułowanie praw i reguł. praw i reguł. [Hunter 1980, wg. D.Hand i inni, Eksploracja danych, 2005] Dane poddawane analizie z wykorzystaniem technik eksploracji danych nie mogą zawierać: zbędnych pól, przeterminowanych wartości, rekordów z brakującymi wartościami, tzw. Outliers tj. punktów oddalonych, odstających, danych w nieodpowiednim formacie, wartości niezgodnych z zasadami lub logiką. Szczególne miejsce w badaniu danych zajmują metody wizualne. Przedstawienie danych metodami wizualnymi pozwala na wykorzystanie naturalnej zdolności ludzkiego oka i mózgu do przetwarzania wzorców. Wszelkiego rodzaju wykresy pozwalają nie tylko na wychwycenie tzw. punktów odstających (outliers) ale również sprawdzenia zależności między zmiennymi. Najbardziej podstawowym sposobem przedstawienia danych jednowymiarowych jest histogram. Przy przedstawianiu wizualnym rozkładów dla kilku zmiennych wykorzystuje się często wykresy pudełkowe (box plot). Wykres rozrzutu jest standardowym narzędziem umożliwiającym przedstawienie zależności pomiędzy dwoma zmiennymi. Sprawdzają się one jednak przy niewielkiej liczbie danych pomiarowych, w przeciwnym wypadku stają się nieczytelne. Wówczas wykorzystuje się wykresy warstwicowe. Przy przedstawianiu zależności pomiędzy więcej niż dwoma zmiennymi wykorzystuje się: macierze rozrzutu, wykresy warunkowe, wykresy współrzędnych równoległych, metodę rzutowania na przestrzeń dwuwymiarową zdefiniowana przez dwie główne składowe, rysunki symboliczne: krzywe Andrewsa, twarze Czernowa. Literatura: D.Hand, H.Mannila, P.Smyth, Eksploracja danych, 2005, PWN, Warszawa -2-

AiED RAPID MINER?? 2. RapidMiner zasady prac, eksploracyjna analiza danych Po zgłoszeniu się Rapid Minera, korzystając z RapidMiner Tutorial (Help->RapidMiner Tutorial / Video Tutorials) zapoznaj się z zasadami pracy. Utwórz nową perspektywę np. DMUSER (VIEW New Perspectives) -3-

AiED RAPID MINER?? A. Import danych 1. Wyświetl Repozytoria. 2. Utwórz nowe repozytorium danych np. DMUSER Add a connection to a new repository server 3. Importuj dane np. dmbase.csv Import -4-

AiED RAPID MINER?? 4. Zwróć uwagę, czy użyty został właściwy separator (w tym przypadku: semicolon) 5. W pierwszym wierszu kolumny Annotation wprowadź Name. 6.Określ status zmiennych: id jako unikalny atrybut powinna mieć status id, zmienna division - status label. -5-

AiED RAPID MINER?? 7. Wyświetl podgląd danych. Sprawdź czy są brakujące dane. 8. Utwórz nowy proces. Stosując kliknij/upuść zamieść operator Retrive umożliwiający wczytanie danych np. z tabeli dmbase, a następnie Uruchom proces uruchom 9. Wyświetl tabelę z danymi (Example Set -DataView) -6-

AiED RAPID MINER?? 10. Wyświetl metadane (MetaData View) 11. Sprawdź czy są wszystkie dane. 12. Wyświetl histogram dla zmiennej no_rbi Wygeneruj odpowiednie wykresy i przeprowadź dyskusję wyników. 12. Wyświetl histogram dla zmiennej no_rbi a następnie eksportuj go do pliku np. jpg -7-

AiED RAPID MINER?? 13. Wyświetl histogram dla zmiennej no_rbi z uwzględnieniem podziału na East i West division) wykres Histogram Color (zmienna 14. Wyświetl histogram pudełkowy (Quartile) no_rbi, a następnie wykres pudełkowy z podziałem na East i West -8-

AiED RAPID MINER?? 15. Wyświetl macierz wykresów pudełkowych z podziałem ze względu na zmienna Division Color Matrix) (Quartile 16. Wyświetl wykres odchyleń (Deviation) dla color kolumn- no_rbi -9-

AiED RAPID MINER?? 17. Wyświetl wykres rozproszenia (Scatter) dla zmiennych no_runs i no_rbi, dla color - division 18. Wyświetl macierz wykresów rozproszenia - 10 -

AiED RAPID MINER?? 19. Wyświetl wykresy równoległych (Parallel) np. dla color kolumn - no_rbi - 11 -

AiED Oracle Data Miner rozpoczęcie pracy 3. Oracle10g Data Mining (ODM) Oracle10g Data Mining umożliwia integrację mechanizmów eksploracji analizy danych (data mining) wbudowanych w bazę danych Oracle10g z aplikacjami tworzonymi przez programistów. ODM udostępnia dwie grupy funkcji do budowy aplikacji zawierających analizy eksploracyjne: ODM PL/SQL API, ODM Java API. 3.1. ODM PL/SQL - rozpoczęcie pracy. Tworzenie użytkownika i nadawanie uprawnień Uruchom Oracle SQLPlus Połącz się z bazą Nazwa użytkownika:sys as sysdba Hasło: masterkey Utwórz użytkownika np. dmuser create user USERNAME identified by USERPASSWORD default tablespace users temporary tablespace temp quota unlimited on users; Użytkownikowi USERNAME nadaj przywileje dostępu do obiektów schematu SH, w tym celu uruchom skrypt dmhgrants: @ %ORACLE_HOME%\RDBMS\demo\dmshgrants SH username 3.2. ODM Java API - rozpoczęcie pracy. Tworzenie tabeli/perspektywy. Wyświetlanie danych. Uruchom aplikację odminer (na pulpicie w katalogu odminer102043\bin) Połącz się z serwerem bazy danych używając następujących parametrów: Host: Port: SID: aied 1521 orcl -12-

AiED Oracle Data Miner rozpoczęcie pracy Oracle Data Miner umożliwia tworzenie tabel poprzez wykonanie skryptów PL/SQL lub import danych. Opcja Data umożliwia miedzy innymi: tworzenie perspektyw, kopiowanie tabel, import danych. a także wyświetlenie danych z tabeli/perspektywy: -13-

AiED Oracle Data Miner rozpoczęcie pracy Pozwala też na wykonanie transformacji -14-

AiED Oracle Data Miner rozpoczęcie pracy Z kolei opcja Activity umożliwia wykorzystanie algorytmów maszynowego uczenia się. Pozwala na budowę modeli, testowanie ich i wykorzystanie do analizy danych. ODM pozwala na szukanie asocjacji, wykorzystanie algorytmów klasyfikacyjnych (Naiwny Klasyfikator Bayesa, Adaptatywna Sieć Bayesa, Drzewa Decyzyjne, SVM metoda wektorów nośnych) oraz algorytmów grupowania (K-średnich, ortogonalnego partycjonowania). Opcja Tools umożliwia między innymi skorzystanie z narzędzia SQL Worksheet, -15-

AiED Oracle Data Miner rozpoczęcie pracy a także zapewnia możliwość odpowiedniej konfiguracji środowiska pracy poprzez Preferences -16-

AiED - Oracle Data Miner Import danych, Tworzenie tabeli, perspektywy Oracle Data Miner - Uruchomienie i połączenie z serwerem bazy danych Uruchom Microsoft Virtual PC Uruchom aplikację odminer (na pulpicie w katalogu odminer102043\bin) Połącz się z serwerem bazy danych Oracle Data Miner umożliwia tworzenie tabel poprzez wykonanie skryptów PL/SQL lub import danych. 3.2.1 Oracle Data Miner - Import danych Plik churners Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. Z menu głównego wybierz Tools Preferences. Wybierz plik SQL*Loader C:\oracle\product\10.2.0\db\BIN\sqlldr.exe -17 - AJK

AiED - Oracle Data Miner Rozpoczęcie pracy, Import danych, Tworzenie tabeli, perspektywy Z menu głównego wybierz Data Import. Wybierz plik, który importujesz, a następnie określ format danych importowanych. Zawsze masz możliwość skorzystania z Opcji Preview, która umożliwia podgląd danych. Po wybraniu właściwego separatora uzyskasz następujące dane: Następnie podaj nazwę tabeli i zakończ import. - 18 - AJK2

AiED - Oracle Data Miner Rozpoczęcie pracy, Import danych, Tworzenie tabeli, perspektywy 3.2.2. Oracle Data Miner - Tworzenie i przeglądanie tabeli/perspektywy Z menu głównego wybierz Tools SQL WorkSheat. Wprowadź kod w PL/SQL i wykonaj Oracle Data Miner - Tworzenie perspektywy Z menu głównego wybierz Tools Create View. Wybierz właściwy schemat użytkownika i tabelę -19 - AJK

AiED - Oracle Data Miner Rozpoczęcie pracy, Import danych, Tworzenie tabeli, perspektywy Wybierz kolumny, które mają się znaleźć w perspektywie (Opcje pozwala min. na wyświetlenie powiązanych tabel) Określ klauzulę WHERE -20 - AJK

AiED - Oracle Data Miner Rozpoczęcie pracy, Import danych, Tworzenie tabeli, perspektywy Pokaż wyniki Pokaż kod SQL - 21 - AJK

4. Zadania 1. Korzystając z aplikacji Rapid Miner zaimportuj plik dmbase i przeprowadź wizualizację danych, rozdział 2. 2. Korzystając z Oracle Data Miner (PL/SQL) połącz się z bazą danych jako użytkownik o uprawnieniach administratora, utwórz użytkownika i nadaj mu uprawnienia do obiektów w schemacie SH, rozdział 3.1. 3. Korzystając z Oracle Data Miner (Java API) wyświetl dane z tabeli PRODUCTS (ze schematu SH) 4. Korzystając z Oracle Data Miner (Java API) zaimportuj dane z pliku churners.csv, wyświetl dane, rozdział 3.2.1. Wygeneruj histogramy i statystyki dla wybranych zmiennych, np. INCOME. Przeprowadź analizę wyników.