ANALIZA DANYCH KONCEPCJE I METODY

Podobne dokumenty
Pattern Classification

Widzenie komputerowe (computer vision)

SPOTKANIE 2: Wprowadzenie cz. I

data mining machine learning data science

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Prof. Stanisław Jankowski

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

w ekonomii, finansach i towaroznawstwie

Systemy uczące się wykład 1

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Wstęp do teorii sztucznej inteligencji Wykład II. Uczenie sztucznych neuronów.

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

AUTOMATYKA INFORMATYKA

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

PRZEWODNIK PO PRZEDMIOCIE

Szczegółowy opis przedmiotu zamówienia

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

SZTUCZNA INTELIGENCJA

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Systemy uczące się Lab 4

Transformacja wiedzy w budowie i eksploatacji maszyn


dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Wprowadzenie do teorii systemów ekspertowych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

W poszukiwaniu sensu w świecie widzialnym

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

2

KARTA MODUŁU KSZTAŁCENIA

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Szkolenia SAS Cennik i kalendarz 2017

Text mining w programie RapidMiner Michał Bereta

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Analiza danych. TEMATYKA PRZEDMIOTU

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Sztuczna inteligencja stan wiedzy, perspektywy rozwoju i problemy etyczne. Piotr Bilski Instytut Radioelektroniki i Technik Multimedialnych

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Imagination Is More Important Than Knowledge

Efekt kształcenia. Wiedza

Matryca efektów kształcenia dla programu studiów podyplomowych ZARZĄDZANIE I SYSTEMY ZARZĄDZANIA JAKOŚCIĄ

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Wprowadzenie do technologii informacyjnej.

Typy systemów informacyjnych

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013

Zastosowania metod odkrywania wiedzy do diagnostyki maszyn i procesów

Analiza danych i data mining.

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Algorytm genetyczny (genetic algorithm)-

Relacja zakresu nauk humanistyczno-społecznych z Krajową Inteligentną Specjalizacją

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Jazda autonomiczna Delphi zgodna z zasadami sztucznej inteligencji

Aproksymacja funkcji a regresja symboliczna

Temat: Projektowanie sterownika rozmytego. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

ALGORYTM RANDOM FOREST

Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Tomasz Pawlak. Zastosowania Metod Inteligencji Obliczeniowej

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Sztuczne sieci neuronowe (SNN)

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

WIEDZA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Adrian Horzyk

Co to jest Business Intelligence?

Systemy uczące się wykład 2

Wyszukiwanie informacji w internecie. Nguyen Hung Son

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Mail: Pokój 214, II piętro

T2A_W01 T2A_W01 T2A_W02 3 SI_W03 Posiada szeroką wiedzę w zakresie teorii grafów T2A_W01

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Diagramu Związków Encji - CELE. Diagram Związków Encji - CHARAKTERYSTYKA. Diagram Związków Encji - Podstawowe bloki składowe i reguły konstrukcji

Inżynieria danych I stopień Praktyczny Studia stacjonarne Wszystkie specjalności Katedra Inżynierii Produkcji Dr Małgorzata Lucińska

Podsumowanie wyników ankiety

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

KARTA PRZEDMIOTU. Dyscyplina:

Relacja: III Seminarium Naukowe "Inżynierskie zastosowania technologii informatycznych"

SPOTKANIE 1: Wprowadzenie do uczenia maszynowego

INFORMATYKA Pytania ogólne na egzamin dyplomowy

dr inż. Maciej Kiewra Prezentacja wygłoszona na konferencji BI vs Big Data podczas Kongresu GigaCon Warszawa, r.

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

Transkrypt:

ANALIZA DANYCH KONCEPCJE I METODY

Podejścia do analizy danych Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 54

Analiza danych Podejścia do analizy danych: Analiza decryptywna (deskrypcyjna) ang. descriptive analytics Co się zdarzyło? Analiza diagnostyczna ang. diagnostic analytics Dlaczego się zdarzyło? Analiza predyktywna (predykcyjna) ang. predictive analytics Co się może zdarzyć? Analiza preskryptywna (preskrypcyjna) ang. prescriptive analytics Co należy zrobić? Analiza kognitywna (ang. cognitive analysis) Integracja podejść, bazująca na wykorzystaniu narzędzi sztucznej inteligencji i wieloaspektowych danych z różnych źródeł Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 55

Analiza danych Przykładowe formy analizy danych: Raportowanie Standardowe biblioteki raportów OLAP Analizy ad-hoc, Data Mining Poszukiwanie informacji Text Mining Przetwarzanie języka naturalnego Machine Learning Rozpoznawanie wzorców Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 56

Raportowanie - przykład Terminy rzeczywiste zapadalności dla kredytów Źródła danych: Aktualne saldo (system księgowy) Terminarz rat (umowa kredytowa) Przetwarzanie: Weryfikacja stanu (czy aktualne saldo jest zgodne z planem) Przeliczenie pozostałych rat na kategorie czasowe Agregacja wyników Efektem jest kilkanaście wartości (z ponad 5 tyś. wymaganych w sprawozdawczości obowiązkowej dla banków) W instytucji typu bank liczba różnych raportów w skali miesiąca może przekraczać tysiące (samych sprawozdań wymaganych przez prawo jest kilkaset) Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 57

OLAP On-line Analytical Processing (MOLAP,ROLAP,HOLAP) Wykorzystuje przetworzone i wyselekcjonowane dane w modelu opartym na faktach i wymiarach Pozwala na ogląd danych na różnych poziomach szczegółowości Umożliwia prowadzenie prostych analiz i zapytań w trybie bieżącym (ad-hoc) Opiera się na raczej prostym interfejsie a sposób prezentowania wyników jest silnie zależny od struktury danych Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 58

Data Mining Data Mining (Eksploracja Danych) jest jedną z metod analizy danych upowszechnioną wraz z rozwojem Hurtowni Danych Definicja: Nietrywialne wydobywanie ukrytej, uprzednio nie znanej i potencjalnie użytecznej informacji z danych (1992) Nauka zajmująca się wydobywaniem informacji z dużych zbiorów danych lub baz danych (2001) Istotą DM jest automatyczne wykrywanie związków/zależności w danych Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 59

Ogólny schemat eksploracji danych Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 60

Uwarunkowania selekcji danych Wybór właściwych danych do zbioru roboczego: Zbyt mała liczba danych nie pozwoli postawić hipotezy Zbyt duża liczba danych zwiększy czas przetwarzania Nietypowe wartości (np. przewaga wartości skrajnych) zaburzą obraz danych dając błędną hipotezę Rozkłady wartości, dyskretyzacja, redukcja wymiarów, Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 61

Zadania eksploracji danych Wyszukiwanie asocjacji Klasyfikacja Predykcja Grupowanie Wykrywanie charakterystyk Wykrywanie szeregów czasowych Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 62

Wybrane metody eksploracji danych analiza regresji liniowej i nieliniowej, regresja logistyczna, analiza przeżycia modele szeregów czasowych ARIMA analiza ANOVA analiza skupień modele drzew decyzyjnych metody klasyfikacji: najbliższych sąsiadów, naiwny klasyfikator Bayesa analiza asocjacji sztuczne sieci neuronowe algorytmy genetyczne zbiory/logika/arytmetyka rozmyta Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 63

SZTUCZNE SIECI NEURONOWE

Sztuczne sieci neuronowe Koncepcja wzorowana na strukturach układu nerwowego, dająca możliwość uczenia się Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 65

Struktury sieci neuronowych Sieci jedno i wielowarstwowe Sieci jednokierunkowe i ze sprzężeniem zwrotnym Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 66

Sztuczne sieci neuronowe podstawowa koncepcja działania neuronu Parametrami działania neuronu są wagi i funkcja aktywacji mogą one być zadane z góry (ale skąd je brać?) lub ulegać zmianie w procesie uczenia sieci Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 67

Uczenie sztucznych sieci neuronowych Uczenie nadzorowane (z nauczycielem) Znany jest pożądany wynik działania sieci Wynik działania porównywany ze wzorcem Uczenie nienadzorowane Nie znamy pożądanego wyniku działania sieci Wynik oceniany w zadanych kategoriach Problem przeuczenia sieci Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 68

Sztuczne sieci neuronowe obszary wykorzystania We wszystkich obszarach gdzie istotna jest odpowiedź jakościowa a nie ilościowa, np.: ekonomia, biologia i medycyna; prognozowanie sprzedaży; interpretacja badań biologicznych; prognozy cen, kursów walut, akcji, itp.; Obejmuje takie działania jak Predykcja Klasyfikowanie i rozpoznawanie Analiza i kojarzenie danych Optymalizacja Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 69

ALGORYTMY GENETYCZNE

Algorytmy genetyczne Prosta koncepcja wzorowana na teorii ewolucji Poszukiwanie rozwiązania optymalnego metodą błądzenia

Algorytmy genetyczne Przestrzeń rozwiązań - opis populacji Selekcja populacji startowej Warunek zatrzymania definiowanie funkcji celu Mechanizmy ewolucji reprodukcja, krzyżowanie, mutacja

Algorytmy genetyczne Działanie algorytmu na przykładach: Problem komiwojażera (optymalizacja drogi) Szukanie rozwiązań przybliżonych Główne problemy: Złożoność obliczeniowa Lokalna optymalność Wybór reprezentacji i mechanizmów modyfikacji

Algorytmy genetyczne Zastosowania: Przy problemach optymalizacyjnych (ustalanie parametrów, układanie harmonogramów) z dużą liczbą parametrów i/lub złożonej algorytmice (problemy NP-zupełne), np.: Logistyka Przemysł chemiczny Medycyna Do uczenia sieci neuronowych

LOGIKA ROZMYTA

Logika (zbiory, arytmetyka) rozmyta Pojęcie zmiennej lingwistycznej Próba odzwierciedlenia myślenia ludzi Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 76

Działanie systemów logiki rozmytej Rozmywanie (fuzzyfikacja) i wyostrzanie (defuzyfikacja) Reguły zapisywane w terminach zmiennych lingwistycznych Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 77

Logika rozmyta: funkcja przynależności Wybór funkcji przynależności zależy od charakteru zjawiska i postaci reguł wnioskowania Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 78

Logika rozmyta Zastosowanie: Systemy sterujące Analiza danych (ekonomia, medycyna) Przetwarzanie i rozpoznawanie obrazów Zalety: Stabilność (małe zmiany na wejściu dają małe zmiany na wyjściu) Interpolacja (możliwa obsługa danych spoza zakresu) Łatwość zrozumienia (wiedza reprezentowana w języku naturalnym) Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 79

PRZETWARZANIE DOKUMENTÓW TEKSTOWYCH

Przetwarzanie języka naturalnego nlp.stanford.edu/~wcmac/papers/20140716-unlu.pdf Przetwarzanie tekstów jest jednym z elementów szerszego zagadnienia, obejmującego rozpoznawanie i generację mowy (ASR/TTS), przetwarzanie (NLP) i rozumienie (NLU) języka naturalnego Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 81

NLU NLP Przetwarzanie tekstu Przygotowanie tekstu Rozpoznanie języka Segmentacja tekstu (Tokenizacja) wyodrębnienie zdań, wyrazów, rdzeni i końcówek, reprezentacja (strukturalna) tekstu Analiza syntaktyczna Identyfikacja części mowy, części zdań, (zastosowanie reguł gramatycznych) Analiza semantyczna Identyfikacja nazw własnych, określeń czasu, itd. (uwzględnienie kontekstu znaczeniowego) Analiza pragmatyczna Uwzględnienie znaczenia tekstu (relacje między wyrazami, sens, kontekst użycia, itp. ) Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 82

Reprezentacja tekstu (i zapytań) Oparta na słowach kluczowych Wyszukiwanie na podstawie występowania słów ang. keyword-based retrieval Dokument jako sekwencja słów (wyrazów) Oparta na reprezentacji wektorowej Wyszukiwanie na podstawie podobieństwa ang. similarity-based retrieval Dokument jako n-wymiarowy wektor słów Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 83

Reprezentacja wektorowa Identyfikacja termów (tokenizacja) Zbiór termów Liczebność zbioru = wymiar przestrzeni Reprezentacja dokumentu Wystąpienie, częstość, inne Założeniem jest że podobny zestaw słów wskazuje na podobieństwo dokumentów Częstość wystąpienia słów w dokumencie (term frequency): tf j = N j Odwrotna (względna) częstość wystąpienia słów w dokumencie (inverse document frequency): idf j = ln(n/n j ) Podobieństwo = odległość między wektorami Częstość wystąpienia słów w dokumencie i zbiorze dokumentów słowa rzadko występujące w zbiorze lepiej identyfikują dokument Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 84

Reprezentacja tekstu - zastosowanie Przeszukiwanie kolekcji dokumentów, m.in.: Wyszukiwarki internetowe Systemy Zarządzania Wiedzą Analiza danych, m.in. : Zarządzanie relacjami z klientem (np. analiza opinii klienckich sentiment analysis) Przetwarzanie danych z mediów społecznościowych Wszędzie tam, gdzie źródło informacji może być przetworzone do postaci tekstu (information retrieval and extraction) Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 85

Przetwarzanie języka naturalnego obszary działania P r z y g o t o w a n i e W y k o r z y s t a n i e Przetwarzanie - analiza Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 86

Przetwarzanie języka naturalnego przykładowe zastosowanie Tłumaczenie maszynowe Tekst (np. google translator) Generowanie języka naturalnego Systemy dialogowe (chat-bots) Interakcja człowiek komputer Identyfikacja treści Automatyczne streszczenia Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 87

PRZETWARZANIE DŹWIĘKU

Przetwarzanie mowy ogólny schemat Mowa Obróbka sygnału analogowego Transformacja A-D Obróbka sygnału cyfrowego Identyfikacja fonemów Wyodrębnienie słów Tekst Rozpoznawanie języka Słowniki ASR Automatic Speech Recognition Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 89

Przetwarzanie dźwięku w połączeniu z automatycznym tłumaczeniem Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 90

PRZETWARZANIE OBRAZÓW

Przetwarzanie obrazów - koncepcja Analogowe dane źródłowe cyfryzacja Przetworniki (matryce) cyfrowe: czułość, rozdzielczość, jakość sygnału Formy przechowanie obrazów (formaty plików) Identyfikacja zawartości tworzenie reprezentacji Wykrywanie krawędzi i kształtów Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 92

Przetwarzanie obrazów Stworzenie reprezentacji obrazu pozwalającej na: Automatyczne przetwarzanie Przechowanie, przesyłanie, odtwarzanie Wyostrzanie, korekcja, itd. Identyfikację zawartości Wyodrębnianie elementów składowych obrazu i relacji między tymi elementami Stanowi wstępny element m.in. procesów rozpoznawania wzorców (ang. Pattern recognition) Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 93

Pattern Recognition ROZPOZNAWANIE WZORCÓW

Rozpoznawanie wzorców Przedmiotem Rozpoznawania Wzorców (ang. Pattern Recognition - PR)jest wykrywanie schematów (ang. regularities) w danych przy wykorzystaniu algorytmów komputerowych i użyciu tych schematów do podejmowania działań np. klasyfikacji danych do różnych kategorii (Bishop 2006) Pokrewne i często stosowane wymiennie pojęcia to: Uczenie maszynowe, sztuczna inteligencja, Określane również jako rozpoznawanie obrazów Stanowi istotny element wykorzystania dużych niestrukturalnych zbiorów danych Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 95

Rozpoznawanie wzorców Wzorzec - zespół cech pozwalających na identyfikację i klasyfikację danego obiektu (rzeczy, zjawiska, ) Rozpoznanie identyfikacja obiektu na podstawie wyróżnionego zespołu cech Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 96

Ogólny schemat PR Zbiór obiektów Detekcja Przetworzenie do wymaganej postaci (np. przetwarzanie obrazów, dźwięku, itp.) Pobranie danych (czujniki, sensory, itp.) Obróbka danych Wydobycie cech Identyfikacja wystąpienia wzorców w danych Rozpoznanie (klasyfikacja) Opisanie obiektów w terminach (języku) poszukiwanych wzorców Przetworzenie wyników do wymaganej postaci Interpretacja (post-processing) Działania Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 97

Problemy definiowania wzorców Identyfikacja cech możliwych do wydobycia Wybór cech dla konkretnego problemu Problem liczby cech Za mało nie da się rozwiązać problemu Za dużo niemożliwe będzie efektywne rozwiązanie problemu Zasada brzytwa Ockhama Źródła wzorców: Zewnętrzne (opracowany niezależnie) modele dziedzinowe uczenie maszynowe z nauczycielem Wewnętrzne (wykrywany w danych) eksploracja danych uczenie maszynowe bez nauczyciela Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 98

Modele rozpoznawania wzorców: Oparte na zgodności schematu (ang. matching templates) Najstarsze i najprostsze podejście Poszukuje podobieństwa pomiędzy obiektami (punkty, krzywe, kształty) z wykorzystaniem różnych metod transformacji (translacja, rotacja, zmiana wielkości) Podejście statystyczne Rozpoznawany obiekt i wzorzec jest reprezentowany jako punkt w n- wymiarowej przestrzeni (cech) Podejście strukturalno-syntaktyczne Wzorzec posiada wewnętrzną strukturę pozwalającą na hierarchiczną dekompozycję na podwzorce, każdy podwzorzec może być analizowany (rozpoznawany) odrębnie, ale kluczowym elementem są relacje pomiędzy podwzorcami Oparte na sztucznych sieciach neuronowych Pozwalają na wykrywanie złożonych nieliniowych relacji pomiędzy wzorcem a rozpoznawanym obiektem Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 99

Rozpoznawanie wzorców - przykład Automatyczne sortowanie ryb: Łosoś czy okoń? Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 100

Analiza problemu: [Detekcja]: Kamera (jako sensor) pozwala na uzyskanie z obrazu informacji o rybach: [potencjalny zestaw cech]: długość, jasność, szerokość, liczba i kształt płetw, położenie elementów budowy morfologicznej (pysk, oczy, ) [Obróbka danych]: Wyodrębnienie obrazu ryby z tła [Wydobycie cech]: dokonanie pomiaru wyodrębnionych cech Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 101

Wybór cech klasyfikujących: Analiza poszczególnych cech na podstawie zbioru testowego: Długość samodzielnie nie jest wystarczającym parametrem Jasność daje lepsze rezultaty ale też nie rozwiązuje problemu Połączenie obu: ryba = [długość, jasność] (reprezentacja) Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 102

Poszukiwanie klasyfikatora Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 103

Poszukiwanie klasyfikatora Uwzględnienie innych uwarunkowań: klient nie chce w puszce okonia jak kupuje łososia, ale na odwrót już nie koniecznie Można dodać kolejną (nieskorelowaną) cechę, ale czy nakłady na pomiar kolejnej cechy i uwzględnienie jej w działaniu systemu będą uzasadnione? Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 104

Przykład podsumowanie: System rozpoznawania wzorców jest tworzony celowy i nie tylko uwarunkowania naukowe są istotne Ocena systemu jest oparta na efektywności, nie zawsze pojawienie się błędu przekreśla jego przydatność Szacowanie błędu jest najczęściej stosowaną metodą oceny systemów rozpoznawania wzorców Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 105

Obszary zastosowania PR Biometryka (np. rozpoznawanie głosu, twarzy, odcisków palców, itd.) Rozpoznawanie mowy (NLP) i pisma (OCR) Diagnostyka medyczna (np. RTG, EKG, Bankowość (np. zdolność kredytowa, wykrywanie fraudów, itp.) Przemysł (np. wykrywanie defektów w złożonych strukturach, segregacja produktów spożywczych, itd.) Bezpieczeństwo (np. skanowanie przesyłek, rozpoznawanie zagrożeń analiza zachowań, itd.) Meteorologia (prognozowanie pogody) i wszędzie tam gdzie jesteśmy wstanie powiązać regularności w danych z identyfikowalnym dla człowieka obiektem (zjawiskiem) oraz wykorzystać potencjalną wiedzę do podejmowania działań Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 106

Machine & Deep Learning UCZENIE MASZYNOWE

Systemy uczące się: "System uczący się wykorzystuje zewnętrzne dane empiryczne w celu tworzenia i aktualizacji podstaw dla udoskonalonego działania na podobnych danych w przyszłości oraz wyrażania tych podstaw w zrozumiałej i symbolicznej postaci (Donald Michie - 1991) Pojęcia pokrewne: rozpoznawanie wzorców, uczenie maszynowe (ang. Machine Learning), uczenie głębokie (ang. Deep Learning) System uczący się może zachowywać się w sposób niedeteministyczny i zmieniać swój sposób działania w zależności od wcześniej przetworzonych danych Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 108

Uczenie maszynowe - rodzaje: Uczenie z nauczycielem/nadzorcą (ang. supervised learning) Zestaw uczący danych składa się z par [wejście, wyjście], system uczy się właściwej reakcji na dane wejściowe Uczenie bez nauczyciela/nadzorcy (ang. unsupervised learning) Dane uczące nie zawierają poprawnej odpowiedzi systemu, system sam próbuje identyfikować wzorce Uczenie ze wzmocnieniem (ang. reinforcement learning) Wariant uczenia maszynowego, wykorzystujący wielokrotny trening z maksymalizacją funkcji nagrody Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 109

Uczenie z nauczycielem https://www.simplilearn.com/what-is-machine-learning-and-why-it-matters-article Klasyfikacja diagnostyka (medyczna, techniczna), identyfikacja (obrazów, zachowań), przewidywania Regresja: Czas życia, prognozy pogody, przewidywania rynkowe, Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 110

Uczenie bez nauczyciela https://www.simplilearn.com/what-is-machine-learning-and-why-it-matters-article Klasteryzacja: Szukanie regularności w danych (wzorców) np. segmentacja klientów, itp. Redukcja wymiarów: Identyfikacja cech, wykrywanie struktur, wizualizacja danych Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 111

Uczenie ze wzmocnieniem https://www.simplilearn.com/what-is-machine-learning-and-why-it-matters-article Sterowanie robotami, trenowanie umiejętności, decyzje w czasie rzeczywistym, game AI, itp. Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 112

Metody uczenia maszynowego: Regresja (liniowa, logistyczna, itd.) Oparte na przykładach (ang. Instance(case)- based): Drzewa decyzyjne Metody Bayes owskie Wykrywanie skupień (ang. Clustering) Oparte na regułach (ang. Rule-based) Sztuczne sieci neuronowe Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 113

ML vs. DL DL wymaga znacznie większej ilości danych i mocy obliczeniowej Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 114

Business Intelligence & Big Data DATA SCIENCE

Data Science / Data Scientist Nowa dyscyplina/zawód wywodzona od koncepcji Big Data (Gartner,2012) Stanowi ewolucyjne rozwinięcie Analizy/Analityka Danych przez położenie nacisku na pozyskiwanie danych z różnorodnych źródeł i umiejętności wyszukania/doboru danych i metod ich analizy do rozwiązywania nowych problemów W kategoriach zawodowych łączy wiedzę eksperta dziedzinowego ze skutecznym użyciem różnych metod analizy danych i umiejętnościami specjalisty IT w zakresie pozyskiwania, gromadzenie i przetwarzania danych Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 116

Data Science wg. Gartner a Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 117

Data Scientist wymagane umiejętności Ponadprzeciętna wiedza i umiejętności w zakresie technologii informatycznych, metod analizy danych i dziedziny wykorzystania Umiejętność samodzielnego formułowania i rozwiązywania problemów Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 118

Data Science punkty widzenia: Każda technologia może być wykorzystywana do różnych celów Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 119

Data Science 6 kroków http://www.grroups.com/blog/whats-the-difference-between-bi-analyst-and-data-scientist Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 120

Business Intelligence & Big Data PODSUMOWANIE

Przyszłość Big Data Rozwój metod analizy danych Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 122

Rozwój technologii IT Przyszłość Big Data Doskonalenie technik i metod zbierania, przechowania i udostępniania danych Wzrost mocy obliczeniowej (High Performance Computing) Nowe technologie: komputery kwantowe, optyczne, biologiczne, Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 123

Podsumowanie Rosnące znaczenie koncepcji BD w różnych dziedzinach życia Wiedza jako towar Wyzwania dla przyszłości: Stały rozwój = ciągłe kształcenie Problem wykluczenia cyfrowego Zagrożenia: Prywatność w czasach BD Dariusz Dymek - Uniwersytet Ekonomiczny w Krakowie 2018 124

DZIĘKUJĘ ZA UWAGĘ