Podobne dokumenty
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Analiza danych i data mining.

Big Data MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE ORAZ NA SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE. Agenda

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

data mining machine learning data science

Systemy Wspomagania Decyzji

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Odkrywanie asocjacji

Ewelina Dziura Krzysztof Maryański

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Systemy uczące się wykład 1

Proces odkrywania wiedzy z baz danych

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Jak Big Data rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Eksploracja danych - wykład VIII

Metody Inżynierii Wiedzy

Eksploracja danych (data mining)

Ćwiczenie 5. Metody eksploracji danych

Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

Metody eksploracji danych. Reguły asocjacyjne

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Wprowadzenie do Hurtowni Danych

Sylabus. Zaawansowana analiza danych eksperymentalnych Advanced analysis of experimental data

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Internet wszechrzeczy W KIERUNKU REALLY BIG DATA

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Analiza i wizualizacja danych Data analysis and visualization

Wprowadzenie do technologii informacyjnej.

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Co to jest Business Intelligence?

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Hurtownie danych. Analiza zachowań użytkownika w Internecie. Ewa Kowalczuk, Piotr Śniegowski. Informatyka Wydział Informatyki Politechnika Poznańska

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Personalizowane rekomendacje w e-commerce, czyli jak skutecznie zwiększyć przychody w sklepie on-line

Ćwiczenia z Zaawansowanych Systemów Baz Danych

Widzenie komputerowe (computer vision)

Eksploracja Danych. podstawy

Data Mining Kopalnie Wiedzy

w ekonomii, finansach i towaroznawstwie

Meta-uczenie co to jest?

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005.

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Scoring w oparciu o Big Data. 8 kwietnia 2014 roku

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Eksploracja Danych. Wprowadzenie. Co to jest eksploracja danych? Metody Zastosowania. Eksploracja danych. Wprowadzenie

Analityka danych publicznych dla diagnoz i prognoz dotyczących osób niepełnosprawnych

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Opis efektów kształcenia dla modułu zajęć

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Hurtownia danych praktyczne zastosowania

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Pattern Classification

Asocjacyjna reprezentacja danych i wnioskowanie

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Implementacja metod eksploracji danych - Oracle Data Mining

IBM Streams MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE ORAZ NA SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE

Reguły asocjacyjne, wykł. 11

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

StatSoft profesjonalny partner w zakresie analizy danych

Prezentacja specjalności studiów II stopnia. Inteligentne Technologie Internetowe

Szczegółowy opis przedmiotu zamówienia

Skoordynowanie i integracja dotychczasowych systemów wykorzystywanych przez placówki ochrony zdrowia z nowo tworzonymi systemami informatycznymi

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Eksploracja danych TADEUSZ MORZY

Analiza internetowa czyli Internet jako hurtownia danych

Eksploracja logów procesów. Process mining

Podstawy sztucznej inteligencji

Security Master Class

Szybkość instynktu i rozsądek rozumu$

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Odkrywanie wiedzy. Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska

Indeksy w hurtowniach danych

Sztuczna inteligencja i uczenie maszynowe w robotyce i systemach autonomicznych: AI/ML w robotyce, robotyka w AI/ML

Bazy danych na co dzień

Inżynieria biomedyczna

CO MOZ NA WYCISNA C Z SAMOOBSŁUGI CZYLI SPRZEDAZ W KANAŁACH SELF CARE? Bartosz Szkudlarek

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

Ankieta. Informacje o uczestniku. Imię i nazwisko: Stanowisko : Warsztat Innowacyjne metody dydaktyczne (np. learning by doing, design thinking)

JAKOŚĆ DANYCH Z PERSPEKTYWY SYSTEMÓW WSPOMAGANIA DECYZJI KLINICZNYCH. Dr hab. inż. Szymon Wilk Politechnika Poznańska Instytut Informatyki

Transkrypt:

Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7

Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8

Przykład Teleskop Hubble a Dane Zdjęcia Widmo Informacje Jasność obiektów Przesunięcie ku czerwieni Wiedza Korelacja pomiędzy jasnością a przesunięciem ku czerwieni Zrozumienie Wszechświat się rozszerza! * Źródło przykładu: http://www.slideserve.com/thad/data-mining-umuc-csmn-667 9

Etapy procesu odkrywania Dane wiedzy Filtrowanie Wybrany podzbiór Wstępne przetwarzanie Wyczyszczone dane Transformacja Dane do analizy Eksploracja danych Wzorce/ modele Interpretacja / ocena Wiedza 10

Czym jest data mining? 0 Efektywne znajdowanie nieznanych dotychczas zależności i związków pomiędzy danymi. 0 Czerpie z takich dziedzin jak: 0 systemy baz danych 0 hurtownie danych 0 statystyka 0 odkrywanie wzorców 0 uczenie maszynowe 0 wizualizacja danych 0 optymalizacja 11

Zastosowania 0 Planowanie promocji, rozmieszczanie produktów 0 Wspomaganie diagnostyki medycznej 0 Kierowanie reklam 0 Odkrywanie wzorców w DNA 0 Analiza sieci terrorystycznych 0 Ocena zdolności kredytowej 12

Typy danych 0 Dane relacyjne 0 Tekst 0 Dane semistrukturalne (np. XML) 0 Zdjęcia 0 Pliki video 0 Modele 3D 0 Współrzędne geograficzne 0 Grafy 0 Przebiegi czasowe 0 Strumienie danych 13

Źródła danych 0 Firmy 0 WWW 0 Sieci społecznościowe 0 Aukcje internetowe 0 Fora internetowe 0 Czujniki urządzeń, pomieszczeń, itp. 0 Komunikacja miejska 14

Gdzie można przechowywać dane? 15

Ogólny podział metod eksploracja danych 0 Nienadzorowane Dane Algorytm Grupy, reguły, wzorce 0 Nadzorowane Dane treningowe Algorytm Model Dane Model Klasy 16

Przykładowe metody eksploracji danych 0 Odkrywanie reguł asocjacyjnych 0 Grupowanie 0 Klasyfikacja 17

Odkrywanie reguł asocjacyjnych 0 Nienadzorowane 0 Odkrywanie zależności pomiędzy atrybutami 0 Market Basket Analysis 0 hello, world 0 Jakie inne produkty kupują osoby, które mają w koszyku piwo? 18

Odkrywanie reguł asocjacyjnych 0 Postać reguł X Y 0 Ocena jakości reguł 0 Wsparcie: 0 Ufność: sup(x) = transakcje zawierające X wszystkie transakcje sup (X Y) conf(r) = sup (X) 19

Grupowanie Łączenie obiektów w grupy w taki sposób, aby obiekty wewnątrz grup miały jak największe podobieństwo, a obiekty z różnych grup jak najbardziej się od siebie różniły. 20

Grupowanie przykład 21

Grupowanie przykład 22

Grupowanie przykład P1 P2 P3 P4 P1-2 0 0 P2 2-1 0 P3 0 1-2 P4 0 0 2 - P1, P2 P1, P2 P3 P4-1 0 P3 1-2 P4 0 2 - P1, P2 P3, P4 P1, P2 P3, P4-1 1-23 P1,P2 P3,P4 D(a) 2 0 D(b) 2 0 D(c) 1 0 D(d) 1 2 D(e) 0 2

Klasyfikacja 0 Nadzorowane 0 Identyfikacja klasy, do której należy obiekt 0 Udzielić kredytu, czy nie? 24

Klasyfikacja przykład 0 Jakiej muzyki powinienem teraz posłuchać: rocka czy klasycznej? Godzina Samochód Słuchawki Utwór 8:00 Tak Nie Bonamassa Happier Times 7:30 Nie Tak Timmons Electric Gypsy 14:00 Nie Tak Dvorak 9th Symphony 18:00 Tak Nie Beck Seasons 23:00 Nie Tak Mahler 2nd Symphony 24:00 Nie Tak Beethoven 5th Symphony 25

Klasyfikacja przykład 0 Jakiej muzyki powinienem teraz posłuchać: rocka czy klasycznej? Godzina Samochód Słuchawki Utwór Gatunek 8:00 Tak Nie Bonamassa Happier Times Rock 7:30 Nie Tak Timmons Electric Gypsy Rock 14:00 Nie Tak Dvorak 9th Symphony Klasyczna 18:00 Tak Nie Beck Seasons Rock 23:00 Nie Tak Mahler 2nd Symphony Klasyczna 24:00 Nie Tak Beethoven 5th Symphony Klasyczna 26

Klasyfikacja przykład 0 Jakiej muzyki powinienem teraz posłuchać: rocka czy klasycznej? Godzina Samochód Słuchawki Gatunek 8:00 Tak Nie Rock 7:30 Nie Tak Rock 14:00 Nie Tak Klasyczna 18:00 Tak Nie Rock 23:00 Nie Tak Klasyczna 24:00 Nie Tak Klasyczna 27

Klasyfikacja przykład 0 Jakiej muzyki powinienem teraz posłuchać: rocka czy klasycznej? Godzina Godzina Samochód Gatunek 8:00 Tak Rock 7:30 Nie Rock 14:00 Nie Klasyczna 18:00 Tak Rock 23:00 Nie Klasyczna 24:00 Nie Klasyczna Przed 8 Po 8 Rock 28

Klasyfikacja przykład 0 Jakiej muzyki powinienem teraz posłuchać: rocka czy klasycznej? Godzina Godzina Samochód Gatunek 8:00 Tak Rock 7:30 Nie Rock 18:00 Tak Rock 14:00 Nie Klasyczna 23:00 Nie Klasyczna 24:00 Nie Klasyczna Przed 8 Po 8 Rock Samochód Tak Nie Rock Klasyczna 29

Klasyfikacja przykład 0 Jakiej muzyki powinienem teraz posłuchać: rocka czy klasycznej? Godzina Przed 8 Po 8 Rock Samochód Tak Nie Rock Klasyczna 30

Podejście do prawdziwych problemów 31

Podejście do prawdziwych problemów 32

Podejście do prawdziwych problemów 33

Podejście do prawdziwych problemów 34

Wiedza dziedzinowa 0 Oczywiste zależności 0 Dobór parametrów 0 Czego właściwie szukać 35

Inne zagadnienia 0 Preprocessing 0 Reprezentacja 0 Wartości odstające 0 Ocena jakości 0 Wizualizacja: http://www.ted.com/talks/david_mccandless_the_be auty_of_data_visualization.html 36

Przyszłość 37

Big Data 38

Big Data 39

Big Data 0 200 milionów $ zainwestowane przez rząd USA 0 3xV 0 Volume 0 Velocity 0 Variety 40

Big Data 0 YouTube 0 Godzina filmów/sekundę 0 700 filmów udostępnionych na Twittera/minutę 0 Facebook 0 250 milionów zdjęć/dzień 0 2,7 miliarda lajków/dzień 41

Big Data 0 1986-2007: 295 EB 0 2011: 800 EB 0 2,5 EB/dzień 0 90% - ostatnie 2 lata 0 10% - dane ustrukturalizowane 0 2020: 35 ZB 42

Ile to jest 35 ZB? 43

44

45

46

47

48

Podsumowanie 0 Wieloetapowy proces pozwalający pozyskać wiedzę z danych 0 Bardzo wiele zastosowań 0 Bardzo wiele metod (reguły asocjacyjne, grupowanie, klasyfikacja) 0 Niezbędna jest wiedza dziedzinowa 0 Wyzwanie na teraz oraz na przyszłość Big Data 49

Dziękuję za uwagę