Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Podobne dokumenty
Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Ewelina Dziura Krzysztof Maryański

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Eksploracja danych - wykład II

Transformacja wiedzy w budowie i eksploatacji maszyn

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW

Eksploracja danych - wykład VIII

Analiza danych. TEMATYKA PRZEDMIOTU

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

a) Szczegółowe efekty kształcenia i ich odniesienie do opisu efektów

KIERUNKOWE EFEKTY KSZTAŁCENIA

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Analiza danych i data mining.

Efekty kształcenia dla kierunku studiów INFORMATYKA, Absolwent studiów I stopnia kierunku Informatyka WIEDZA

Uniwersytet Śląski. Wydział Informatyki i Nauki o Materiałach PROGRAM KSZTAŁCENIA. Studia III stopnia (doktoranckie) kierunek Informatyka

w ekonomii, finansach i towaroznawstwie

KIERUNKOWE EFEKTY KSZTAŁCENIA

KIERUNKOWE EFEKTY KSZTAŁCENIA


1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Spis treści. Wstęp... 9

Process Analytical Technology (PAT),

PRZEWODNIK PO PRZEDMIOCIE

Inteligentne Multimedialne Systemy Uczące

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Analiza i wizualizacja danych Data analysis and visualization

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

UCHWAŁA NR 46/2013. Senatu Akademii Marynarki Wojennej im. Bohaterów Westerplatte z dnia 19 września 2013 roku

UCHWAŁA NR 26/2016. SENATU AKADEMII MARYNARKI WOJENNEJ im. Bohaterów Westerplatte z dnia 02 czerwca 2016 roku

Zastosowania metod odkrywania wiedzy do diagnostyki maszyn i procesów

WYKAZ KIERUNKOWYCH EFEKTÓW KSZTAŁCENIA KIERUNEK: MATEMATYKA, SPS WIEDZA

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ANALITYKA GOSPODARCZA, STUDIA MAGISTERSKIE WIEDZA

KIERUNKOWE EFEKTY KSZTAŁCENIA KIERUNEK TECHNOLOGIE OCHRONY ŚRODOWISKA P O L I T E C H N I K A POZNAŃSKA WYDZIAŁ TECHNOLOGII CHEMICZNEJ

Uniwersytet Śląski w Katowicach str. 1 Wydział Informatyki i Nauki o Materiałach

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Poz. 15 UCHWAŁA NR 15 RADY WYDZIAŁU NAUK EKONOMICZNYCH UW. z dnia 1 marca 2017 roku. w sprawie

KIERUNKOWE EFEKTY KSZTAŁCENIA

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

Uchwała Nr 69 /2012. Senatu Uniwersytetu Jana Kochanowskiego w Kielcach. z dnia 31 maja 2012 roku

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości EUR

Szczegółowy opis przedmiotu zamówienia

ALGORYTM RANDOM FOREST

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

WYDZIAŁ TRANSPORTU I INFORMATYKI TRANSPORT II STOPIEŃ OGÓLNOAKADEMICKI

STATYSTYKA EKONOMICZNA

9.9 Algorytmy przeglądu

INFORMATYKA POZIOM ROZSZERZONY

INFORMATYKA POZIOM ROZSZERZONY

Model procesu dydaktycznego

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

PROGRAM KSZTAŁCENIA NA KIERUNKU STUDIÓW WYŻSZYCH

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Widzenie komputerowe (computer vision)

Przeszukiwanie z nawrotami. Wykład 8. Przeszukiwanie z nawrotami. J. Cichoń, P. Kobylański Wstęp do Informatyki i Programowania 238 / 279

Sylabus. Zaawansowana analiza danych eksperymentalnych Advanced analysis of experimental data

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW. TRANSPORT studia stacjonarne i niestacjonarne

PRZEWODNIK PO PRZEDMIOCIE

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Bazy danych TERMINOLOGIA

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

EGZAMIN MATURALNY W ROKU SZKOLNYM 2014/2015

Metody badań w naukach ekonomicznych

UCHWAŁA NR 60/2013 Senatu Akademii Marynarki Wojennej im. Bohaterów Westerplatte z dnia 21 listopada 2013 roku

Efekty kształcenia dla: nazwa kierunku

Regresja linearyzowalna

Odniesienie do efektów kształcenia dla obszaru nauk EFEKTY KSZTAŁCENIA Symbol

Sylabus. Zaawansowana analiza danych eksperymentalnych Advanced analysis of experimental data

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW ZARZĄDZANIE STUDIA PIERWSZEGO STOPNIA - PROFIL OGÓLNOAKADEMICKI

Opis efektów kształcenia dla studiów podyplomowych

Z-LOGN Ekonometria Econometrics. Przedmiot wspólny dla kierunku Obowiązkowy polski Semestr IV

Metody wypełniania braków w danych ang. Missing values in data

Opis efektów kształcenia dla modułu zajęć

Wprowadzenie do technologii informacyjnej.

Państwowa Wyższa Szkoła Techniczno-Ekonomiczna w Jarosławiu

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Efekty kształcenia Dla kierunku Inżynieria Bezpieczeństwa

Proces badawczy schemat i zasady realizacji

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Wprowadzenie do analizy korelacji i regresji

Nowe narzędzia zarządzania jakością

Odniesienie do efektów kształcenia w obszarze kształcenia w zakresie nauk przyrodniczych i technicznych

Efekty uczenia się na kierunku. Logistyka (studia pierwszego stopnia o profilu praktycznym)

DLA SEKTORA INFORMATYCZNEGO W POLSCE

WYDZIAŁ TRANSPORTU I INFORMATYKI TRANSPORT II STOPIEŃ OGÓLNOAKADEMICKI

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Transkrypt:

Temat: Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Autorzy: Tomasz Małyszko, Edyta Łukasik 1. Definicja eksploracji danych Eksploracja danych (ang. data mining), nazywana często potocznie odkrywaniem wiedzy w bazach danych (ang. knowledge discovery in databases), jest jedną z najdynamiczniej i najintensywniej rozwijanych dziedzin informatyki w ostatnim czasie. Integruje wiele dyscyplin takich jak: statystyka, systemy baz danych, sztuczna inteligencja, optymalizacja, obliczenia równoległe. Olbrzymie zainteresowanie eksploracją danych wynika z faktu, że szereg przedsiębiorstw, instytucji administracji publicznej czy wreszcie ośrodków naukowych nagromadziło w ostatnim czasie bardzo wiele danych przechowywanych w zakładowych bazach danych i stanęło przed problemem, w jaki sposób efektywnie i racjonalnie wykorzystać nagromadzoną w tych bazach wiedzę dla celów wspomagania swojej działalności biznesowej. Zagadnienie eksploracji danych jest niezwykle rozległe i obejmuje różne dyscypliny naukowe. Definicji tego pojęcia jest co najmniej kilka, poniżej zostały przytoczone dwie z funkcjonujących w literaturze: Eksploracja danych jest analizą zbiorów danych obserwacyjnych w celu znalezienia nieoczekiwanych związków i podsumowania danych w oryginalny sposób tak, aby były zarówno zrozumiałe, jak i przydatne dla ich właściciela. Eksploracja danych jest procesem odkrywania znaczących nowych powiązań, wzorców i trendów przez przeszukiwanie dużych ilości danych zgromadzonych w skarbnicach danych, przy wykorzystaniu metod rozpoznawania wzorców, jak również metod statystycznych i matematycznych.

2. Zagadnienia wykonywane w eksploracji danych Poniższa lista zawiera zagadnienia, które najczęściej są wykorzystywane podczas eksplorowania danych: opis dokonywany jest opis wzorców i trendów, który często pozwala na zrozumienia zależności między nimi. Wyniki eksploracji danych powinny opisywać jasne wzorce, które można w prosty sposób zinterpretować i wyjaśnić; szacowanie jest podobne do klasyfikacji, z wyjątkiem charakteru zmiennej celu, który jest numeryczny, a nie jakościowy. Modele są budowane za pomocą pełnych rekordów, zawierających zarówno wartości zmiennej celu, jak i zmiennych estymacji. Następnie dla nowych obserwacji szacuje się wartość zmiennej celu, opierając się na wartościach zmiennych opisujących; przewidywanie jest zbliżone do klasyfikacji i szacowania, poza tym, że w przewidywaniu wynik dotyczy przyszłości. Metody stosowane do klasyfikacji i szacowania przy zachowaniu odpowiednich warunków mogą być stosowane przy przewidywaniu; klasyfikacja przy tej operacji kluczowe znaczenie ma jakościowa zmienna celu. Może ona zostać podzielona na kilka klas lub kategorii. Algorytm klasyfikacyjny najpierw uczy się na danym zbiorze danych i na tej podstawie podejmuje decyzję do której kategorii zakwalifikować badane dane; grupowanie oznacza grupowanie obserwacji (rekordów) w klasy podobnych obiektów. Grupa jest zbiorem podobnych rekordów, które są podobne do siebie nawzajem oraz niepodobne do rekordów z innych grup. Grupowanie różni się od klasyfikacji tym, że w przypadku grupowania nie ma zmiennej celu; odkrywanie reguł proces ten polega na szukaniu, które atrybuty są ze sobą powiązane. Wykorzystywane są często w analizie podobieństw lub analizie koszyka sklepowego. Zadaniem odkrywania reguł jest poznawanie nowych związków ilościowych między dwoma lub większą ilością atrybutów.

3. Metodyka CRISP-DM Obecne podejście do eksploracji danych powinno być następujące: zamiast dopasowywać ludzi do eksploracji danych, powinno się zastanowić, jak można zaprojektować eksplorację danych jako bardzo ludzki proces rozwiązywania problemów. Obecnie potężna moc, jaka drzemie w algorytmach eksploracji danych, dostępna jest na zasadzie czarnej skrzynki. Takie podejście powoduje, że łatwo można doprowadzić do niewłaściwego zastosowania tych narzędzi, co powoduje otrzymanie błędnych wyników. Z tej przyczyny wymagane jest poznanie statystycznych podstaw tych zagadnień oraz usystematyzowanie procesu przy pomocy posługiwania się stworzoną dla tego celu metodyką. W wielu przedsiębiorstwach z powodu ich sztywnej struktury podchodzi się do zagadnienia eksploracji danych w sposób chaotyczny, co powoduje powstanie efektu wywarzania otwartych drzwi. Narodziła się potrzeba usystematyzowania tego procesu niezależnie od rodzaju przemysłu, przedsiębiorstwa itp. Powstała metodyka CRISP-DM (ang. Cross-Industry Standard Process for Data Mining) dostarczająca ogólnie dostępny standardowy sposób dopasowania eksploracji danych do ogólnej strategii rozwiązywania problemów jednostki biznesowej lub badawczej. Zgodnie z tą metodologią proces życia danego projektu eksploracji danych składa się z sześciu etapów: zrozumienie uwarunkowań biznesowych/badawczych; zrozumienie danych; przygotowanie danych; modelowanie; ewaluacja; wdrożenie. Kolejność faz można dopasować. To znaczy, że następny w kolejności etap często zależy od wyników z poprzedniego etapu. Schemat powiązań w CRISP-DM przedstawiono na rysunku 1.

Rys. 1. Zależności zachodzące w CRISP-DM[3] Iteracyjny charakter tej metodologii jest symbolizowany przez zewnętrzny okrąg w kolorze granatowym przedstawiony na rysunku 1. Często rozwiązywanie danego problemu biznesowego prowadzi do odkrywania interesujących kwestii dla których również można zastosować ten sam plan, co poprzednio. 4. Obróbka danych Większość danych przechowywanych w bazach danych jest nieobrobiona, niekompletna i zaszumiona. Przykładowe nieoczekiwane wartości, jakie mogą znaleźć się w bazie danych: pola przestarzałe; niepełne rekordy; punkty oddalone; dane w niepoprawnym formacie; wartości sprzeczne. W tabeli 1 przedstawione zostały przykładowe dane, dla których nie można poprawnie przeprowadzić procesu eksploracji danych.

Tabela 1. Zawartość bazy z niepoprawnymi danymi ID Kod pocztowy Wiek Płeć Dochód Kwota operacji 12 20-456 34 K 20 000 1000 233 19-456 45 M 30 000 2000 23 33-532 45 19-459 aaaaa 20-467 23 M 15 000 200 4 22 K 25 000 200 6 KL-ABD C 21 10 000 300 8 00-000 45 M 20 000 800 77 18-198 12 M 100 000 25 000 4 23-301 32 K 40 000 12 000 3 20-303 47 M 32 000 400 Analizując tą tabelę można napotkać na wiele problemów. Nasuwają się one już na pierwszy rzut oka. Jednym z wymagań stawianym użytkownikowi podczas eksplorowania danych jest zrozumienie ich. Proces eksploracji danych nie jest automatem, który w cudowny sposób wydaje satysfakcjonujące wyniki. Przed przetwarzaniem danych należy odpowiednio przygotować dane w taki sposób, aby algorytm nie musiał podejmować nieprzewidywalnych decyzji lub przerywać proces z powodu np. niekompletnych danych. Przyglądając się zawartości tabeli 1 można zauważyć szereg nieprawidłowości. Kolumna ID jest typu NUMBER, ale co stanie w przypadku, gdy z nieokreślonej przyczyny znajdzie się tam wartość aaaaa? Taki przypadek stanowi sytuację wyjątkową i powinien zostać zauważony przez osobę przygotowującą dane do obróbki. Innym przykładem jest błąd polegający na interpretacji danych. W jaki sposób zinterpretować płeć użytkownika nr 6? Widać, że wartości w kolumnie wiek i płeć najprawdopodobniej zostały pomylone. Można je zamienić, ale nie ma wtedy żadnej pewności, że taki błąd był przyczyną zaistniałego stanu rzeczy. Nie ulega wątpliwości, że brak takich danych jak wiek użytkownika może być problemem przy wielu analizach. Istnieją metody wypełniania pustych komórek np. w oparciu o metody statystyczne.

Podsumowanie Celem pracy będzie przegląd stosowanych obecnie metod do przeprowadzania eksploracji danych i analiza uzyskanych w ten sposób informacji. Obszarem działania będą dane medyczne. Najpierw znajdą się w pracy podstawy teoretyczne do tego zagadnienia, a następnie praktycznie wykonany zostanie system wspomagający wykonanie takiej analizy danych. Literatura [1]. Daniel T. Larose, Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, PWN, Warszawa, 2006 [2]. Jerzy Surma, Business Intelligence. Systemy wspomagania decyzji biznesowych, PWN, Warszawa, 2009 [3]. http://www.spss.pl/konsulting/konsulting_datamining_metodologia.html [25.11.2011]