Eksploracja danych. Plan prezentacji. Problemy eksploracji danych. Wielkie bazy danych SCHEMATY. zakresie baz danych, uczenia maszynowego i statystyki

Podobne dokumenty
Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2

Wielkie wolumeny danych są trudne w analizowaniu. system satelitarnej obserwacji EOS zbudowany przez NASA generuje

Proces odkrywania wiedzy z baz danych

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Analiza danych i data mining.

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)

Eksploracja Danych. podstawy

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Metody eksploracji danych. Reguły asocjacyjne

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Wprowadzenie do technologii informacyjnej.

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Implementacja metod eksploracji danych - Oracle Data Mining

Eksploracja Danych. Wprowadzenie. Co to jest eksploracja danych? Metody Zastosowania. Eksploracja danych. Wprowadzenie

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu


Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Odkrywanie asocjacji

Eksploracja danych (data mining)

Personalizowane rekomendacje w e-commerce, czyli jak skutecznie zwiększyć przychody w sklepie on-line

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

data mining machine learning data science

Prof. Stanisław Jankowski

StatSoft profesjonalny partner w zakresie analizy danych

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Ewelina Dziura Krzysztof Maryański

Odkrywanie asocjacji

2

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

AUTOMATYKA INFORMATYKA

Inżynieria biomedyczna

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

Widzenie komputerowe (computer vision)

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii

Doskonalenie przedsiębiorstw : kryzys drogą do sukcesu / Maciej Kulig. Warszawa, cop Spis treści

Systemy informatyczne. Modelowanie danych systemów informatycznych

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

ALGORYTM RANDOM FOREST

Data Mining i odkrywanie wiedzy w bazach danych

Transformacja wiedzy w budowie i eksploatacji maszyn

Algorytmy klasyfikacji

z wyszczególnieniem usług automatyzacji procesów mgr inż. Adam Smółkowski mgr inż. Marcin Wójciuk Aspartus (Grupa ProService FINTECO)

ELEKTRONICZNA PLATFORMA ZBIERANIA DANYCH RZECZYWISTYCH

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Odkryj w danych to, co najważniejsze

Analiza danych. TEMATYKA PRZEDMIOTU

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

SZTUCZNA INTELIGENCJA

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Indukowane Reguły Decyzyjne I. Wykład 3

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Poza sztuczną CTO 15 maj, Watson Warsaw Summit 2017

Systemy GIS Dziedziny zastosowań systemów GIS

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

w ekonomii, finansach i towaroznawstwie

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Od e-materiałów do e-tutorów

Jakub Kisielewski.

Diagnostyka procesów przemysłowych Kod przedmiotu

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Systemy Wspomagania Decyzji

Specjalizacja magisterska Bazy danych

Investing f or Growth

Jak skutecznie budować i wdrażać zabezpieczenia do walki z wyłudzeniami?

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Scoring kredytowy w pigułce

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Systemy eksperowe. Agnieszka Nowak Brzezińska Wykład I

Semantyczny Monitoring Cyberprzestrzeni

Eksploracja danych - wykład VIII

SZTUCZNA INTELIGENCJA

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Systemy uczące się wykład 2

Archipelag Sztucznej Inteligencji

SKORING JAKO NARZĘDZIE WSPIERAJĄCE SPÓŁDZIELCZE KASY OSZCZĘDNOŚCIOWO-KREDYTOWE W SPEŁNIENIU NOWYCH WYMAGAŃ NADZORCZYCH

Zarządzanie wiedzą w opiece zdrowotnej

Gemius DataForce. Oferta badawcza

Proces i narzędzia analizy potencjału wybranych obszarów rynku farmaceutycznego

Text mining w programie RapidMiner Michał Bereta

ZAPYTANIE OFERTOWE 1 /2019

METODY EKSPLORACJI DANYCH I ICH ZASTOSOWANIE

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Narzędzia PMR do analizy sektora transportu drogowego

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Algorytm. Krótka historia algorytmów

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Transkrypt:

Problemy eksploracji danych dr inż. Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Wielkie bazy danych Wielkie bazy danych (Very Large atabases) i hurtownie danych (ata Warehouses) Rozmiary współczesnych systemów baz danych sieć sprzedaży Wal-Mart gromadzi dziennie dane dotyczące ponad 20 milionów transakcji koncern Mobil Oil rozwija hurtownię danych pozwalający na przechowywanie ponad 100 terabajtów danych o wydobyciu ropy naftowej system satelitarnej obserwacji EOS zbudowany przez NS generuje w każdej godzinie dziesiątki gigabajtów danych niewielkie supermarkety rejestrują codziennie sprzedaż tysięcy artykułów Wielkie wolumeny danych są trudne w analizowaniu Informacje o dotychczasowej działalności przedsiębiorstwa, poziomie i strukturze sprzedaży oraz cechach klientów mogą posłużyć do wspomagania podejmowania decyzji Plan prezentacji Motywacje Eksploracja danych: odkrywanie schematów, zależności i korelacji w bardzo dużych bazach danych Przegląd praktycznych zastosowań eksploracji danych Perspektywy badawcze Eksploracja danych Eksploracja danych (ang. ata Mining) jest nową dziedziną badawczą, której celem jest opracowanie metod: odkrywania interesujących i wcześniej nieznanych trendów, korelacji i schematów w bardzo dużych bazach danych Eksploracja danych korzysta z dotychczasowych osiągnięć w zakresie baz danych, uczenia maszynowego i statystyki NE EKSPLO- RJ SHEMTY

Schematy w bazach danych (1) wiek lat prawo kolor poj. moc razem kierowcy jazdy pojazdu silnika szkody ------------- ------------- -------------- ------------- ------ ------- 42 24 biały 1610 100 0 19 1 czerwony 650 24 2500 28 4 czerwony 1100 40 0 41 20 czarny 1800 130 0 21 3 czerwony 650 24 1300 20 1 niebieski 650 24 0 kierowcy, którzy jeżdżą czerwonymi samochodami o pojemności 650 ccm, powodują wypadki drogowe kierowcy w wieku powyżej 40 lat jeżdżą samochodami o pojemności większej niż 1600 ccm kierowcy, którzy posiadają prawo jazdy dłużej niż 3 lata, nie powodują wypadków kierowcy w wieku poniżej 30 lat jeżdżą samochodami koloru czerwonego ziedziny zastosowań (1) Handel i marketing identyfikacja profilu klienta dla przewidywania, którzy klienci odpowiedzą na marketing korespondencyjny segmentacja klientów w celu opracowania strategii promocji wykrywanie schematów zakupów i planowanie lokalizacji artykułów inanse i bankowość identyfikacja schematów wykorzystywania kradzionych kart kredytowych przewidywanie ryzyka udzielenia kredytu lub pożyczki przewidywanie dochodowości portfela akcji, znajdowanie korelacji wśród wskaźników finansowych Schematy w bazach danych (2) transakcja produkt dzień cena ------------ ------------- ------------- -------------- 1 pizza sobota 48,40 1 mleko sobota 2,80 1 chleb sobota 1,50 2 piwo wtorek 16,20 2 orzeszki wtorek 8,50 3 chleb sobota 1,50 3 orzeszki sobota 25,50 3 piwo sobota 32,40 piwoi orzeszki są zawsze kupowane wspólnie chleb uczestniczy w transakcjach na kwotę większą niż 50 złotych ziedziny zastosowań (2) Nauka i technologia wykrywanie powiązań pomiędzy skutecznością leczenia a zastosowaną terapia medyczną przewidywanie wzrostów obszarów leśnych wykrywanie schematów alarmowych w sieciach telekomunikacyjnych Internet grupowanie i określanie ważności dokumentów znajdowanych przez wyszukiwarki internetowe automatyczne dostosowywanie struktury i zawartości serwisu internetowego do przewidywanych oczekiwań użytkownika

Techniki eksploracji danych Odkrywanie klasyfikatorów Grupowanie obiektów Odkrywanie wzorców sekwencji Odkrywanie asocjacji Metody eksploracji: odkrywanie asocjacji odkrywanie asocjacji: znajdowanie związków pomiędzy występowaniem grup elementów w zbiorach danych przykłady asocjacji: klienci, którzy kupują piwo, kupują również orzeszki klienci, którzy kupują chleb, masło i ser, kupują również wodę mineralną i ketchup zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych planowanie rozmieszczenia stoisk sprzedaży w supermarketach Metody eksploracji: odkrywanie klasyfikatorów odkrywanie klasyfikatorów: znajdowanie sposobu odwzorowywania danych w zbiór predefiniowanych klas (podzbiorów) przykład klasyfikacji: automatyczny podział kierowców na powodujących i nie powodujących wypadków drogowych: kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm powodują wypadki drogowe kierowcy, którzy posiadają prawo jazdy ponad 3 lata lub jeżdżą niebieskimi samochodami nie powodują wypadków drogowych zastosowania klasyfikacji: diagnostyka medyczna rozpoznawanie trendów na rynkach finansowych automatyczne rozpoznawanie obrazów przydział kredytów bankowych Metody eksploracji: grupowanie obiektów grupowanie obiektów: znajdowanie skończonego zbioru klas (podzbiorów) w bazie danych 10 y klasa 1: x<5 klasa 2: 5<x<10 i y>5 klasa 3: y<5 5 5 10 x zastosowania klastrowania: określanie segmentów rynku na podstawie cech klientów

Metody eksploracji: odkrywanie wzorców sekwencji odkrywanie wzorców sekwencji: znajdowanie najczęściej występujących sekwencji elementów przykład odkrywania sekwencji: klienci, którzy kupili farbę emulsyjną, kupią w najbliższym czasie pędzel płaski kurs akcji BPH, który podczas ostatnich trzech sesji wzrósł o 0.5%, 0.9%, 0.1%, na następnej sesji spadnie o 0.5% zastosowania odkrytych sekwencji: planowanie inwestycji giełdowych przewidywanie sprzedaży Wiedza uzupełniająca wiedza uzupełniająca jest reprezentowana przy pomocy: atrybutów wirtualnych - dodatkowych atrybutów, których wartości nie są trwale przechowywane w relacji, lecz każdorazowo wyliczane przez zdefiniowany kod programowy hierarchii generalizacji - struktury drzewiastej dostarczającej informacji o podziale wartości atrybutów na wielopoziomowe kategorie NE EKSPLO- RJ SHEMTY WIEZ UZUPEŁNIJĄ Wiedza uzupełniająca transakcja produkt dzień cena kategoria produktu ------------ ------------- ------------- ------ ------------------- 1 pizza sobota 48,40 potrawy got. 1 mleko sobota 2,80 napoje 1 chleb sobota 1,50 pieczywo 2 piwo wtorek 16,20 napoje 2 orzeszki wtorek 8,50 dodatki 3 chleb sobota 1,50 pieczywo 3 orzeszki sobota 25,50 dodatki 3 piwo sobota 32,40 napoje dodatkowa wiedza dostarczona przez eksperta pozwala na znajdowanie nowych, silniejszych i prostszych zależności i schematów Hierarchia generalizacji Spożywcze Pieczywo Nabiał Wędliny hleb Jajka Szynka Bułka Mle ko Parówki Rogalik Śmietana wartościami uogólnionymi dla HLEB są: PIEZYWO i SPOŻYWZE

ormy reprezentacji odkrytych schematów znane w dziedzinach uczenia maszynowego i sztucznej inteligencji: sieci neuronowe drzewa decyzyjne listy decyzyjne sieci semantyczne proste i złożone reguły logiczne wiedza powinna być reprezentowana w prostej i czytelnej dla człowieka postaci eksploracja danych najczęściej wykorzystuje: reguły logiczne drzewa decyzyjne Reguły logiczne (2/2) każda reguła posiada najczęściej wskaźniki statystycznej ważności i siły: wsparcie (support) i ufność (confidence) wsparcie reguły odpowiada liczbie krotek potwierdzających daną regułę ufność reguły odpowiada jej wiarygodności, tj. poprawności reguły w zbiorze krotek Temperat ura Ból _gł owy Ból _gardł a i agnoza wysoka tak nie zatrucie wysoka tak nie zdrowy wysoka t ak t ak angi na wysoka ni e t ak angi na Ból _gardł a = t ak i agnoza = angi na (S=50% =100%) Temperat ura= wysoka Ból _gł owy= t ak Ból _gardł a= ni e i agnoza= zat ruci e (S=25% =100%) Temperat ura= wysoka Ból _gł owy= t ak Ból _gardł a= ni e i agnoza= zdr owy ( S=25% =100%) Reguły logiczne (1/2) przykład prostej reguły logicznej: kolor_poj=czerwony N pojemnosc=650 -> szkoda=tk definicja reguły logicznej: r1(a1, v1) N r2(a2, v2)... rj(aj, vj) -> -> rk(ak, vk) N rl(al, vl)... rn(an, vn) ai jest atrybutem, vi jest wartością prostą (np. liczba, ciąg znaków) lub złożoną (np. zbiór), ri jest predykatem (np. równość, zawieranie) lewa strona reguły nazywa się poprzednikiem reguły (ang. body), prawa strona nazywa się następnikiem reguły (ang. head) rzewa decyzyjne drzewo decyzyjne jest formą opisu wiedzy klasyfikującej węzłom drzewa odpowiadają atrybuty eksplorowanej tabeli krawędzie opisują wartości atrybutów liśćmi drzewa są wartości atrybutu klasyfikującego dres ochód Samochód Warszawa 4000 BMW Poznań 2900 ord Poznań 1400 Toyota adres Warszawa 1000 iat Poznań 1600 ord Warszawa P oznań Poznań 3500 ord dochód dochód >1000 <=1000 >1400 <=1400 SMOHÓ BMW iat ord Toyota

Eksploracja danych - Success Stories atabase Marketing w merican Express atabase Marketing polega na analizie danych o klientach w celu znajdowania schematów ich preferencji i następnie wykorzystywania tych schematów dla precyzyjnej selekcji kolejnych klientów. atabase Marketing w merican Express doprowadził do 10-15% wzrostu zakupów z wykorzystaniem kart kredytowych. Weryfikacja poprawności danych w Reuters Reuters stosuje techniki eksploracji danych dla weryfikacji poprawności i wykrywania prawdopodobnych przekłamań w wysokości publikowanych kursów wymiany walut. Profil słuchacza w BB BB przy pomocy systemu eksploracji danych przewiduje profil widowni programów telewizyjnych w celu wyboru optymalnych pór ich nadawania. Skład zespołu w Orlando Magic trener Orlando Magic wykorzystuje data-mining do ustalania składu zespołu rozgrywającego mecze - rezultat likwidacja trendu spadkowego (2 wygrane mecze) Przykład - adaptatywne serwery WWW (1/3) daptatywne serwery WWW automatycznie ulepszają swoją zawartość i strukturę na podstawie obserwacji ścieżek dostępów użytkowników Technika "szwedzkich osiedli mieszkaniowych" otychczasowa zawartość dokumentu ynamicznie dodane łączniki do dokumentów, którymi najprawdopodobniej jest zainteresowany użytkownik Przykład - eksploracja bazy danych firmy ubezpieczeniowej Narzędzie analityczne wspomagające ocenę ryzyka ubezpieczeń Przykład - adaptatywne serwery WWW (2/3) serwer WWW E plik logu B segmentacja behawioralna segmenty zachowań

Przykład - adaptatywne serwery WWW (3/3)? historia: ->-> dynamiczne rekomendacje: News Products Przykład - eksploracja medycznej bazy danych (KBN 8T11 00915) Baza danych zawierająca informacje o pacjentach poddanych operacjom z powodu zmian ogniskowych w wątrobie ane zebrane podczas praktyk lekarskich w dwóch ośrodkach: Montpellier we rancji i w Poznaniu elem przeprowadzonej analizy było wspomaganie lekarzy w procesie hospitalizacji pacjenta Odkryte korelacje między danymi mogą pozwolić ograniczyć liczbę koniecznych do wykonania badań, czy wybrać najodpowiedniejszy zabieg Odkryte zależności mogą pomóc określać prawdopodobny czas rekonwalescencji pacjenta po operacji Przykład - wspomaganie pracy all enter Wnioskowanie marketingowe w oparciu o charakterystykę klienta Podsumowanie: perspektywy badawcze Ścisła integracja algorytmów eksploracji danych z systemami zarządzania bazami danych Eksploracja danych multimedialnych i wielowymiarowych Opracowanie technik optymalizacji w celu skrócenia czasów odpowiedzi