Temat: Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Autorzy: Tomasz Małyszko, Edyta Łukasik 1. Definicja eksploracji danych Eksploracja danych (ang. data mining), nazywana często potocznie odkrywaniem wiedzy w bazach danych (ang. knowledge discovery in databases), jest jedną z najdynamiczniej i najintensywniej rozwijanych dziedzin informatyki w ostatnim czasie. Integruje wiele dyscyplin takich jak: statystyka, systemy baz danych, sztuczna inteligencja, optymalizacja, obliczenia równoległe. Olbrzymie zainteresowanie eksploracją danych wynika z faktu, że szereg przedsiębiorstw, instytucji administracji publicznej czy wreszcie ośrodków naukowych nagromadziło w ostatnim czasie bardzo wiele danych przechowywanych w zakładowych bazach danych i stanęło przed problemem, w jaki sposób efektywnie i racjonalnie wykorzystać nagromadzoną w tych bazach wiedzę dla celów wspomagania swojej działalności biznesowej. Zagadnienie eksploracji danych jest niezwykle rozległe i obejmuje różne dyscypliny naukowe. Definicji tego pojęcia jest co najmniej kilka, poniżej zostały przytoczone dwie z funkcjonujących w literaturze: Eksploracja danych jest analizą zbiorów danych obserwacyjnych w celu znalezienia nieoczekiwanych związków i podsumowania danych w oryginalny sposób tak, aby były zarówno zrozumiałe, jak i przydatne dla ich właściciela. Eksploracja danych jest procesem odkrywania znaczących nowych powiązań, wzorców i trendów przez przeszukiwanie dużych ilości danych zgromadzonych w skarbnicach danych, przy wykorzystaniu metod rozpoznawania wzorców, jak również metod statystycznych i matematycznych.
2. Zagadnienia wykonywane w eksploracji danych Poniższa lista zawiera zagadnienia, które najczęściej są wykorzystywane podczas eksplorowania danych: opis dokonywany jest opis wzorców i trendów, który często pozwala na zrozumienia zależności między nimi. Wyniki eksploracji danych powinny opisywać jasne wzorce, które można w prosty sposób zinterpretować i wyjaśnić; szacowanie jest podobne do klasyfikacji, z wyjątkiem charakteru zmiennej celu, który jest numeryczny, a nie jakościowy. Modele są budowane za pomocą pełnych rekordów, zawierających zarówno wartości zmiennej celu, jak i zmiennych estymacji. Następnie dla nowych obserwacji szacuje się wartość zmiennej celu, opierając się na wartościach zmiennych opisujących; przewidywanie jest zbliżone do klasyfikacji i szacowania, poza tym, że w przewidywaniu wynik dotyczy przyszłości. Metody stosowane do klasyfikacji i szacowania przy zachowaniu odpowiednich warunków mogą być stosowane przy przewidywaniu; klasyfikacja przy tej operacji kluczowe znaczenie ma jakościowa zmienna celu. Może ona zostać podzielona na kilka klas lub kategorii. Algorytm klasyfikacyjny najpierw uczy się na danym zbiorze danych i na tej podstawie podejmuje decyzję do której kategorii zakwalifikować badane dane; grupowanie oznacza grupowanie obserwacji (rekordów) w klasy podobnych obiektów. Grupa jest zbiorem podobnych rekordów, które są podobne do siebie nawzajem oraz niepodobne do rekordów z innych grup. Grupowanie różni się od klasyfikacji tym, że w przypadku grupowania nie ma zmiennej celu; odkrywanie reguł proces ten polega na szukaniu, które atrybuty są ze sobą powiązane. Wykorzystywane są często w analizie podobieństw lub analizie koszyka sklepowego. Zadaniem odkrywania reguł jest poznawanie nowych związków ilościowych między dwoma lub większą ilością atrybutów.
3. Metodyka CRISP-DM Obecne podejście do eksploracji danych powinno być następujące: zamiast dopasowywać ludzi do eksploracji danych, powinno się zastanowić, jak można zaprojektować eksplorację danych jako bardzo ludzki proces rozwiązywania problemów. Obecnie potężna moc, jaka drzemie w algorytmach eksploracji danych, dostępna jest na zasadzie czarnej skrzynki. Takie podejście powoduje, że łatwo można doprowadzić do niewłaściwego zastosowania tych narzędzi, co powoduje otrzymanie błędnych wyników. Z tej przyczyny wymagane jest poznanie statystycznych podstaw tych zagadnień oraz usystematyzowanie procesu przy pomocy posługiwania się stworzoną dla tego celu metodyką. W wielu przedsiębiorstwach z powodu ich sztywnej struktury podchodzi się do zagadnienia eksploracji danych w sposób chaotyczny, co powoduje powstanie efektu wywarzania otwartych drzwi. Narodziła się potrzeba usystematyzowania tego procesu niezależnie od rodzaju przemysłu, przedsiębiorstwa itp. Powstała metodyka CRISP-DM (ang. Cross-Industry Standard Process for Data Mining) dostarczająca ogólnie dostępny standardowy sposób dopasowania eksploracji danych do ogólnej strategii rozwiązywania problemów jednostki biznesowej lub badawczej. Zgodnie z tą metodologią proces życia danego projektu eksploracji danych składa się z sześciu etapów: zrozumienie uwarunkowań biznesowych/badawczych; zrozumienie danych; przygotowanie danych; modelowanie; ewaluacja; wdrożenie. Kolejność faz można dopasować. To znaczy, że następny w kolejności etap często zależy od wyników z poprzedniego etapu. Schemat powiązań w CRISP-DM przedstawiono na rysunku 1.
Rys. 1. Zależności zachodzące w CRISP-DM[3] Iteracyjny charakter tej metodologii jest symbolizowany przez zewnętrzny okrąg w kolorze granatowym przedstawiony na rysunku 1. Często rozwiązywanie danego problemu biznesowego prowadzi do odkrywania interesujących kwestii dla których również można zastosować ten sam plan, co poprzednio. 4. Obróbka danych Większość danych przechowywanych w bazach danych jest nieobrobiona, niekompletna i zaszumiona. Przykładowe nieoczekiwane wartości, jakie mogą znaleźć się w bazie danych: pola przestarzałe; niepełne rekordy; punkty oddalone; dane w niepoprawnym formacie; wartości sprzeczne. W tabeli 1 przedstawione zostały przykładowe dane, dla których nie można poprawnie przeprowadzić procesu eksploracji danych.
Tabela 1. Zawartość bazy z niepoprawnymi danymi ID Kod pocztowy Wiek Płeć Dochód Kwota operacji 12 20-456 34 K 20 000 1000 233 19-456 45 M 30 000 2000 23 33-532 45 19-459 aaaaa 20-467 23 M 15 000 200 4 22 K 25 000 200 6 KL-ABD C 21 10 000 300 8 00-000 45 M 20 000 800 77 18-198 12 M 100 000 25 000 4 23-301 32 K 40 000 12 000 3 20-303 47 M 32 000 400 Analizując tą tabelę można napotkać na wiele problemów. Nasuwają się one już na pierwszy rzut oka. Jednym z wymagań stawianym użytkownikowi podczas eksplorowania danych jest zrozumienie ich. Proces eksploracji danych nie jest automatem, który w cudowny sposób wydaje satysfakcjonujące wyniki. Przed przetwarzaniem danych należy odpowiednio przygotować dane w taki sposób, aby algorytm nie musiał podejmować nieprzewidywalnych decyzji lub przerywać proces z powodu np. niekompletnych danych. Przyglądając się zawartości tabeli 1 można zauważyć szereg nieprawidłowości. Kolumna ID jest typu NUMBER, ale co stanie w przypadku, gdy z nieokreślonej przyczyny znajdzie się tam wartość aaaaa? Taki przypadek stanowi sytuację wyjątkową i powinien zostać zauważony przez osobę przygotowującą dane do obróbki. Innym przykładem jest błąd polegający na interpretacji danych. W jaki sposób zinterpretować płeć użytkownika nr 6? Widać, że wartości w kolumnie wiek i płeć najprawdopodobniej zostały pomylone. Można je zamienić, ale nie ma wtedy żadnej pewności, że taki błąd był przyczyną zaistniałego stanu rzeczy. Nie ulega wątpliwości, że brak takich danych jak wiek użytkownika może być problemem przy wielu analizach. Istnieją metody wypełniania pustych komórek np. w oparciu o metody statystyczne.
Podsumowanie Celem pracy będzie przegląd stosowanych obecnie metod do przeprowadzania eksploracji danych i analiza uzyskanych w ten sposób informacji. Obszarem działania będą dane medyczne. Najpierw znajdą się w pracy podstawy teoretyczne do tego zagadnienia, a następnie praktycznie wykonany zostanie system wspomagający wykonanie takiej analizy danych. Literatura [1]. Daniel T. Larose, Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, PWN, Warszawa, 2006 [2]. Jerzy Surma, Business Intelligence. Systemy wspomagania decyzji biznesowych, PWN, Warszawa, 2009 [3]. http://www.spss.pl/konsulting/konsulting_datamining_metodologia.html [25.11.2011]