Eksploracja Danych. (c) Marcin Sydow. Wst p. Data Science. Wprowadzenie. Cykl eksperymentu. Uczenie maszynowe. Zasoby.

Podobne dokumenty
Metody numeryczne i statystyka dla in»ynierów

przewidywania zapotrzebowania na moc elektryczn

MiASI. Modelowanie integracji systemów. Piotr Fulma«ski. 26 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Eksploracja Danych. Wprowadzenie. (c) Marcin Sydow

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

Informatyka w selekcji - Wykªad 4

Jednowarstwowe Sieci Neuronowe jako. klasykatory do wielu klas. (c) Marcin Sydow

Przykªady problemów optymalizacji kombinatorycznej

Wykorzystanie lokalnej geometrii danych w Maszynie Wektorów No±nych

Spis tre±ci. Przedmowa... Cz ± I

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

AUTO-ENKODER JAKO SKŠADNIK ARCHITEKTURY DEEP LEARNING

MiASI. Modelowanie analityczne. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Uczenie Maszynowe: Wprowadzenie. (c) Marcin Sydow

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Podstawy modelowania w j zyku UML

Ekonometria - wykªad 8

Bash i algorytmy. Elwira Wachowicz. 20 lutego

Uczenie Wielowarstwowych Sieci Neuronów o

Modele ARIMA prognoza, specykacja

Wst pne przetwarzanie danych

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

W dobie postępującej digitalizacji zasobów oraz zwiększającej się liczby dostawców i wydawców

Lab. 02: Algorytm Schrage

MiASI. Modelowanie systemów informatycznych. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

Rozdzia 5. Uog lniona metoda najmniejszych kwadrat w : ::::::::::::: Podstawy uog lnionej metody najmniejszych kwadrat w :::::: Zastos

Część II.A. Informacje o studiach podyplomowych ANALIZA DANYCH METODY, NARZĘDZIA, PRAKTYKA (nazwa studiów podyplomowych)

Edycja geometrii w Solid Edge ST

Metody numeryczne i statystyka dla in»ynierów

W zadaniach na procenty wyró»niamy trzy typy czynno±ci: obliczanie, jakim procentem jednej liczby jest druga liczba,

Statystyka matematyczna

2 Liczby rzeczywiste - cz. 2

Informatyka w selekcji - Wykªad 1

Praca Dyplomowa Magisterska

Modele wielorównaniowe. Problem identykacji

Zarz dzanie rm. Zasada 2: samoorganizuj ce si zespoªy. Piotr Fulma«ski. March 17, 2015

Koªo Naukowe Robotyków KoNaR. Plan prezentacji. Wst p Rezystory Potencjomerty Kondensatory Podsumowanie

Lekcja 9 - LICZBY LOSOWE, ZMIENNE

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Projekt konceptualny z Baz Danych "Centralny system zarz dzania salami na AGH"

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

Programowanie Zespołowe

wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. Metodyka bada«do±wiadczalnych dr hab. in». Sebastian Skoczypiec Cel wiczenia Zaªo»enia

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych

Edyta Juszczyk. Akademia im. Jana Dªugosza w Cz stochowie. Lekcja 1Wst p

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Karty przypuszczeń IDEA

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

SVN - wprowadzenie. 1 Wprowadzenie do SVN. 2 U»ywanie SVN. Adam Krechowicz. 16 lutego Podstawowe funkcje. 2.1 Windows

Specjalizacja Web Mining

Materiaªy do Repetytorium z matematyki

Modelowanie glikemii w procesie insulinoterapii

Ekonometria Bayesowska

Szkolenie listopada Rabka

Dyskretyzacja i kwantyzacja obrazów

Podstawy modelowania w j zyku UML

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Lista standardów w układzie modułowym

EDUKARIS - O±rodek Ksztaªcenia

RAPORT Z EWALUACJI WEWNĘTRZNEJ. w Poradni Psychologiczno-Pedagogicznej w Bełżycach. w roku szkolnym 2013/2014

Lekcja 12 - POMOCNICY

Programowanie i struktury danych 1 / 44

Wpływ jakości świadczonych usług na doświadczenia abonenta w cyfrowym domu. Janusz Kilon

YapS Plan testów. Šukasz Bieniasz-Krzywiec Dariusz Leniowski Jakub Š cki 29 maja 2007

Optymalizacja R dlaczego warto przesi ± si na Linuxa?

Rekrutacja na studia II stopnia - informatyka. 1 czerwca 2017

Dobre praktyki w zakresie zarządzania ładem architektury korporacyjnej

1 Bª dy i arytmetyka zmiennopozycyjna

Ekonometria. Typy zada«optymalizacyjnych Analiza pooptymalizacyjna SOLVER. 22 maja Karolina Konopczak. Instytut Rozwoju Gospodarczego

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych ul. Koszykowa 75, Warszawa

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

Bazy danych. Andrzej Łachwa, UJ, /15

Metody bioinformatyki (MBI)

Zarządzanie Zasobami by CTI. Instrukcja

Warsztat naukowca a problem formatu informacji bibliograficznej generowanej przez systemy informacyjne. Remigiusz Sapa IINiB UJ

Chmura obliczeniowa. do przechowywania plików online. Anna Walkowiak CEN Koszalin

Przypomnienie najważniejszych pojęć z baz danych. Co to jest baza danych?

PROGRAM PRZECIWDZIAŁANIA PRZEMOCY W RODZINIE ORAZ OCHRONY OFIAR PRZEMOCY W RODZINIE W GMINIE LIPNO NA LATA

Pakiety statystyczne - Wykªad 8

Portretowanie zdolności i ich rozwój. Projekt współfinansowany z Unii Europejskiej w ramach Europejskiego Funduszu Społecznego

ZAANGA OWANIE PRACOWNIKÓW W PROJEKTY INFORMATYCZNE

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

1. Reforma procesu kształcenia jako filar linii programowej PSRP

Program szkoleniowy Efektywni50+ Moduł III Standardy wymiany danych

Województwo Lubuskie, 2016 r.

na dostawę licencji na oprogramowanie przeznaczone do prowadzenia zaawansowanej analizy statystycznej

Systemy mikroprocesorowe - projekt

Propozycja integracji elementów ±wiata gry przy u»yciu drzew zachowa«

Programowanie wspóªbie»ne

Dane i polityka oparta na danych znaczenie i narz dzia analityczne dla JST

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Transkrypt:

Wprowadzenie

Zawarto± wykªadu wst p cykl eksperymentu uczenie zasoby podsumowanie

Zawarto± kursu Kurs eksploracji danych mo»na podzieli na nast puj ce cz ±ci: 1 zagadnienia zwi zane z przygotowaniem i ocen danych 2 metody wizualizacji danych 3 przykªadowe modele (algorytmy) uczenia go i ich ocena 4 wybrane przykªady specjalistycznych poddziedzin (text mining, graph mining, web mining, etc.)

Rosn ca rola ogromna ilo± danych produkowanych w sposób ci gªy du»a potencjalna warto± ukrytej wiedzy drzemi cej w tych danych wzrost ogólnie dost pnej i niedrogiej mocy obliczeniowej rosn ca dost pno± stale rozwijanego, taniego (w tym darmowego) i dobrze udokumentowanego oprogramowania do data science (np. R) synergia ±rodowisk akademickich (naukowcy, matematycy, statystycy, etc.) i biznesowych oraz sektora pa«stwowego (nanse, administracja, bezpiecze«stwo, etc.) brak wyksztaªconych kadr/specjalistów data science

Interdyscyplinarno± matematyka (m.in. miary, metody statystyczne, modele, algorytmy data science) wiedza dziedzinowa (intuicja odno±nie modeli, interpretacji danych, etc.) IT (programowanie, bazy danych, big data, chmury, bezpiecze«stwo, zachowanie prywatno±ci, etc.)

Metoda Empiryczna vs Empiryczna metoda naukowa (jednym z prekursorów byª Francis Bacon 1561-1626): zbieranie szczegóªowych danych dotycz cych danego problemu uogólnianie obserwowanych przypadków szczególnych w celu formuªowania ogólnych praw/twierdze«/reguª Metoda : Dane Modele Wnioski (docelowo) zbieranie mo»liwie wszystkich danych 1 i przechowywanie ich w postaci cyfrowej u»ywanie komputerów i algorytmów do automatycznego wydobywania wiedzy z tych danych 1 Niesie to te» niestety potencjalne powa»ne zagro»enia spoªeczne: totalna inwigilacja, utrata prywatno±ci, etc.

Odkrywanie wiedzy Mo»na rozró»ni 3 poziomy: 1 dane (surowe dane cyfrowe) 2 informacje (interpretacja poszczególnych danych, do interpretacji niezb dna jest wiedza dziedzinowa/ekspercka) 3 wiedza (ogólne reguªy) Wa»ne operacje: abstrahowanie uogólnianie

Problemy w eksploracji danych Rozwój technologii IT i ogólnie dost pnego oprogramowania (np. R) spowodowaª,»e zbudowanie i u»ycie nawet skomplikowanego modelu eksploracji danych jest równowa»ne z napisaniem i wykonaniem zaledwie kilku instrukcji i jest powszechnie dost pne. To jednak nie wszystko, poniewa» wi kszo± pracy z danymi oznacza: zdobycie wiedzy dziedzinowej dotycz cej danego problemu ocena przydatno±ci danych (np. elementy statystyki) wst pne przygotowanie danych (np. w R, Bash, SQL, etc.) dobór i odpowiednia parametryzacja modeli uczenia go obiektywna ocena modeli prezentacja/komunikacja wyników

Dwa typy analiz Predykcja (uzupeªnienie brakuj cych danych, równie» dotycz cych przyszªo±ci). W celu wyuczenia modelu nale»y najpierw dane oczy±ci (np. zidentykowa i usun warto±ci odstaj ce i bª dne) Mo»na u»y tu modeli, które s nieprzejrzyste (ang. black-box), czyli trudne do zinterpetowania dla analityka. Ocena rozwi zania mo»e by oszacowana za pomoc pewnych automatycznych, obiektywnych procedur Deskrypcja (automatyczne odkrycie ogólnych wzorców ukrytych w danych). Tutaj warto±ci odstaj ce mog stanowi cenne informacje. U»yte modele musz by przejrzyste (interpetowalne) przez analityka. Ocena rozwi zania zale»y od przydatno±ci dla u»ytkownika

1 Problem: zdeniowanie rozwi zywanego problemu 2 Dane: zgromadzenie potrzebnych danych 3 na ocena danych: ocena przydatno±ci danych do rozwi zania problemu 4 ne przygotowanie danych: czyszczenie, wzbogacanie, selekcja, etc. 5 Modelowanie: tworzenie modeli eksploracji danych (konkretne algorytmy) 6 Ewaluacja: ocena i selekcja najlepszych modeli 7 Wdro»enie: komunikacja wyników i wniosków (cz sto cz ±ciowo graczna) Zwykle samo modelowanie zabiera mniejszo± aktywno±ci (najwi cej na ogóª zabiera przygotowanie danych).

Cele eksperymentu data science Eksperyment data science mo»e mie ró»ne cele, np.: wyja±nienie mo»liwych przyczyn problemu okre±lenie mo»liwych rozwi za«problemu (i porównanie ich potencjalnej jako±ci) oszacowanie ryzyka

Ocena przydatno±ci danych podsumowania (statystyki pozycyjne i rozrzutu) rozkªad cz sto±ci zmiennych (atrybutów) wykrycie pewnych korelacji mi dzy zmiennymi

ne przygotowanie danych uzupeªnianie brakuj cych warto±ci wykrywanie i poprawianie bª dnych warto±ci warto±ci odstaj ce (ang. outliers) normalizacja dyskretyzacja uogólnianie numerowanie stanów selekcja atrybutów redukcja wymiarów (np. PCA)

Wzbogacanie danych równowa»enie danych usuwanie niektórych przypadków klas wi kszo±ciowych nadpróbkowanie transformacja zmiennych (np. liniowa lub logarytmiczna, etc.) dodawanie nowych zmiennych (np. sum, ró»nic lub iloczynów istniej cych zmiennych, etc.) podziaª danych (ró»ny w zale»no±ci od typu modelu) dane treningowe dane ewaluacyjne dane testowe

Modelowanie Umiej tno± tworzenia uproszczonych modeli rzeczywisto±ci i obserwacja przypadków w celu wyodr bnienia pewnych wzorców: 1 zdeniowanie obiektów (np. u»ytkownik) 2 zdeniowanie zdarze«(np. atak hakerski, podejrzana operacja nansowa, etc.) 3 zdeniowanie reguª (tym silniejsze im dokªadniejszy model i im wi cej danych)

Ocena modeli Kryteria oceny modeli interpretowalno± dokªadno± wiarygodno± skalowalno± i wydajno± przydatno± dla u»ytkownika ocena modeli klasykacyjnych macierz omyªek dokªadno±, precyzja, peªno±, f-miara wykresy: ROC, precyzja vs czuªo±, zysk ocena regresji (miary bª du) ocena grupowania (np. optymalna liczba klastrów, etc.) walidacja krzy»owa poprawa jako±ci modeli

Rola uczenia go (ang. machine learning: ML) Niektórych problemów nie mo»na ªatwo rozwi za za pomoc dokªadnych algorytmów. Dzieje si tak z rozmaitych powodów, np: dokªadne algorytmy (rozpatruj ce wszystkie mo»liwe niuanse i przypadki danych wej±ciowych) dla niektórych problemów byªyby zbyt skomplikowane, aby je stosowa (a nawet opisa ) problem braku wiedzy nt pewnych zjawisk problem zmienno±ci zjawisk problem skalowalno±ci

Idea i ograniczenia uczenia go gromadzi dane opisuj ce analizowane obiekty i zjawiska (dane treningowe) u»y tych danych do automatycznego wyuczenia odpowiednich modeli nie jest jednak magicznym rozwi zaniem pozwalaj cym rozwi za wszystkie problemy. Np. nie dostarczy gotowego rozwi zania jak zmniejszy bezrobocie, ale np. odpowie z jakimi innymi czynnikami jest ono skorelowane, i od czego mo»e zale»e jego poziom, co mo»e pozwoli podj wªa±ciwe dezycje.

Typy modeli uczenia go klasykacja regresja analiza skupie«(grupowanie) rekomendacja prognozowanie (szeregi czasowe)

Problemy uczenia go Generalnie im wi cej danych tym wi cej informacji mo»na wydoby, ale te» tym wi cej szumu, który trzeba odltrowa. przetrenowanie (ang. overtting): zbyt sztywne dostosowanie modelu do konkretnych danych, niemo»no± uogólniania na nowe przypadki (spoza zbioru treningowego) niedouczenie (ang. undertting): zbyt uproszczony model nie wychwytuj cy nawet zale»no±ci w zbiorze treningowym Procesem uczenia go mo»na sterowa poprzez: odpowiednie przygotowanie danych dobór modeli parametryzacj modeli

Przykªadowe narz dzia Pakiet R: https://cran.r-project.org/ (polecane s dodatkowe pakiety tidyverse, ggplot2) rodowisko graczne RStudio: https://www.rstudio.com/ Do wielu operacji bardzo wygodna jest te» powªoka Linuxa (Bash) z dziesi tkami wbudowanych wspaniaªych narz dzi (sort, cut, tr, etc.) i mini-j zyków (awk, sed, etc.)

Przykªadowe repozytoria danych http://archive.ics.uci.edu./ml/datasets.html http://www.rdatamining.com/resources/data http://www.gapminder.org/data/ http://www.kdnuggets.com/datasets/index.html http://www.kaggle.com http://www.openintro.org/stat

cykl eksperymentu uczenie zasoby

Przykªadowe pytania/zadania/problemy a metoda empiryczna wymie«mo»liwe zagro»enia zwi zane z rozwojem Data Science problemy fazy cyklu eksperymentu przykªadowe cele eksperymentu na czym polega uczenie problemy uczenia go dwa typy analiz

Dzi kuj za uwag.