Hurtownie danych - metody eksploracji

Wielkość: px
Rozpocząć pokaz od strony:

Download "Hurtownie danych - metody eksploracji"

Transkrypt

1 Hurtownie danych - metody eksploracji Opieka merytoryczna prof. dr hab. inŝ. Jacek Mercik Grupa badawcza Mariola Graf Tomasz Mazurek Andrzej Mycka ElŜbieta Najdzionek Wrocław, dnia 25 kwietnia 2007 roku

2 Spis treści 1. Przedstawienie celu pracy badawczej PrzybliŜenie pojęcia hurtownia danych Analiza i eksploracja danych Podział metod eksploracji danych Przegląd klas metod eksploracji Chronologiczna klasyfikacja klas eksploracji Literatura

3 1. Przedstawienie celu pracy badawczej Celem prowadzonej przez nas pracy badawczej, jest przedstawienie poszczególnych grup metod eksploracji hurtowni danych, jak i końcowe stworzenie harmonogramu powstawania, a raczej pojawiania się w publikacjach, metod eksploracji. 2. PrzybliŜenie pojęcia hurtownia danych W celu dalszego zajęcia się metodami eksploracji hurtowni danych trzeba zgłębić samo zagadnienie hurtowni. Analiza literatury wskazuje na wiele definicji, jednakŝe na potrzeby naszych badań przyjęliśmy poniŝszą z nich: Hurtownia danych jest architekturą bazy danych umoŝliwiającą integrację ogromnych ilości danych pochodzących z heterogenicznych źródeł i operującą na wielowymiarowym modelu danych. Poza tym hurtownia danych posiada cztery właściwości, odróŝniające ją od zwykłego systemu transakcyjnego: 1. Orientacja tematyczna hurtownia jest oparta na wiedzy o konkretnych procesach biznesowych jak np. sprzedaŝ. 2. Integracja hurtownia danych jest zintegrowana w sposób pozwalający na powiązanie róŝnych dziedzin prowadzonej działalności. UmoŜliwia na przykład porównanie sprzedaŝy ze stanami magazynowymi. Zadaniem hurtowni danych jest udostępnianie wspólnego systemu analitycznego dla całej jednostki organizacyjnej. 3. Trwałość danych hurtownia danych jest bazą statyczną jej zawartość nie zmienia się tak jak w przypadku transakcyjnej bazy danych. 4. Systematyczność i okresowość wprowadzania danych podstawową siłą hurtowni danych jest to, Ŝe dane są w niej umieszczane systematycznie, w określonych momentach. Dzięki temu nie jest problem generowanie zestawień dziennych, tygodniowych, miesięcznych itp.. 3

4 3. Analiza i eksploracja danych Podczas studium literatury natknęliśmy się na bardzo waŝny problem analizy danych. Nawiązując do tematyki hurtowni danych, w dziedzinie analizy danych naleŝy zwrócić uwagę na dwie technologie, które obecnie zdobywają uznanie. Są nimi OLAP (ang. on-line analytical processing), eksploracja danych (ang. data mining). Pierwsza technologia pozwala w prosty, a przede wszystkim w bardzo elastyczny sposób analizować wielowymiarowe dane. Druga umoŝliwia odkrywanie zaleŝności "ukrytych" w danych. Jak widać eksploracja danych to jedna z metod analizy danych. Na potrzeby naszej pracy badawczej przyjęliśmy dwie definicje metod eksploracji, które według nas, najtrafniej oddają sens eksploracji danych: Nietrywialnie wydobywanie ukrytej, poprzednio nieznanej i potencjalnie uŝytecznej informacji z danych 1, Nauka zajmująca się wydobywaniem informacji z duŝych zbiorów danych lub baz danych 2 Pogłębianie wiedzy na temat metod eksploracji, nie tylko pokazało nam co to jest eksploracja danych, ake takŝe pokazało czym owa eksploracja nie jest. Dlatego dla uzupełnienia powyŝszych definicji warto pokazać czym owa eksploracja nie jest. A to dlatego, Ŝe nieporozumienia i nadmierne, niekiedy nawet fałszywe oczekiwania w kontekście eksploracji danych zdarzają się stosunkowo często. A zatem eksploracja danych nie jest: odkrywaniem wiedzy; jest ona tylko częścią procesu odkrywania wiedzy, 1 W.Frawley, G. Piatetsky-Shapiro, C. Matheus. Knowledge Discovery in Databases: An Overview. AI Magazine, Jesień D. Hand, H. Mannila, P. Smyt. Principles of Data Mining. MIT Press, Cambridge, MA,

5 nieodzownie związana z hurtowniami danych; eksploracja moŝe być prowadzona na dowolnej bazie, choć naturalnie hurtownie są szczególnie dobrymi miejscami do jej uprawiania, typowym narzędziem analitycznym i środkiem do tworzenia sprawozdań. Zasadnicza róŝnica pomiędzy eksploracją a typowymi narzędziami analitycznymi polega na podejściu do eksploracji danych i badaniu występujących pomiędzy nimi relacji. OtóŜ narzędzia analityczne, w tym OLAP (ang. On-Line Analytical Processin) stosuje się głównie do weryfikowania hipotez wysuniętych przez analityka; nie mogą one natomiast same tworzyć hipotez, odkrywać zasad i reguł a to jest właśnie moŝliwe za pomocą technik eksploracji danych, uczeniem się maszynowym (ang. machine learning/discovery), które dotyczy odkrywania praw empirycznych na podstawie obserwacji i eksperymentów, całkowicie zautomatyzowanym procesem; eksploracja danych jest w ogromnym stopniu uzaleŝniona od prowadzącego ją człowieka, który określa warunki początkowe, dobiera metody eksploracji i ocenia otrzymane rezultaty i wreszcie to on decyduje czy uzyskane zaleŝności są interesujące, czyli czy mają jakąkolwiek wartość praktyczną lub poznawczą dla organizacji, na której zlecenie eksploracja jest prowadzona, łatwym, tanim i szybkim do wdroŝenia w organizacji procesem. Włączenie eksploracji danych do rutynowych operacji organizacji wymaga starannych prac przygotowawczych, eksperymentowania i współpracy ekspertów w zakresie eksploracji danych i specjalistów w dziedzinie, której dane dotyczą. Typowy projekt trwa wiele miesięcy, a nawet lat, jest miejscem gdzie uczą się wszystkie zaangaŝowane strony; oprogramowanie narzędziowe jest raczej kosztowne (od kilku tysięcy do kilkuset tysięcy dolarów), a eksploatacja i pielęgnacja systemu wymagają znakomicie wyszkolonego i godnego zaufania personelu, przysłowiowym, wielozadaniowym scyzorykiem armii szwajcarskiej dobrym na wszelkie okazje (ta opinia bierze się albo z nadmiernego entuzjazmu w odniesieniu do potencjału tkwiącego w technikach eksploracji danych albo 5

6 jest wynikiem nieuczciwego prezentowania ich moŝliwości przez sprzedawców oprogramowania i konsultantów). 4. Podział metod eksploracji danych Istnieje wiele sposobów podziału metod eksploracji danych. Po pierwsze techniki eksploracji danych moŝna ogólnie podzielić na dwie kategorie: 1. Techniki predykcyjne starają się, na podstawie odkrytych wzorców, dokonać uogólnienia i przewidywania (np. wartości nieznanego atrybutu, zachowania i cech nowego obiektu, itp.). Przykłady zastosowania technik predykcyjnych obejmują, między innymi, ocenę ryzyka ubezpieczeniowego związanego z klientem lub oszacowanie prawdopodobieństwa przejścia klienta do konkurencyjnego usługodawcy. 2. Techniki deskrypcyjne mają na celu wykorzystanie odkrytej wiedzy do opisu danych i uchwycenia ogólnych cech opisywanych obiektów. Przykłady technik deskrypcyjnych to odkrywanie grup podobnych klientów, znajdowanie zbiorów produktów często kupowanych razem, lub identyfikacja osobliwości występujących w danych. Kolejny podział technik eksploracji danych jest związany z charakterystyką danych wejściowych. I tak w tym przypadku wyróŝniamy: 1. Technik uczenia nadzorowanego (ang. supervised learning), 2. Techniki uczenia bez nadzoru (ang. unsupervised learning). W przypadku technik uczenia nadzorowanego dane wejściowe zawierają tzw. zbiór uczący, w którym kaŝdy obiekt posiada etykietę przypisującą obiekt do pewnej klasy. Na podstawie zbioru uczącego dana technika potrafi nauczyć się odróŝniać przykłady naleŝące do róŝnych klas, a zdobyta w ten sposób wiedza moŝe być wykorzystana do formułowania uogólnień dotyczących przyszłych obiektów. Oczywiście, podczas tworzenia zbioru uczącego musi być znane prawdziwe przypisanie kaŝdego obiektu do klasy. Zbiory uczące są najczęściej budowane na podstawie danych historycznych, w których zapisywane jest rozpoznane przypisanie obiektu do klasy. 6

7 Najczęściej spotykanymi technikami uczenia nadzorowanego są: a) techniki klasyfikacji: Drzewa decyzyjne 3, Algorytmy bazujące na najbliŝszych sąsiadach 4, sieci neuronowe 5, statystyka bayesowska 6, b) techniki regresji. Drugą wyróŝnioną klasą technik eksploracji danych są techniki uczenia bez nadzoru. W przypadku technik uczenia bez nadzoru algorytm odkrywania wiedzy nie dysponuje zbiorem uczącym. Algorytm eksploracji danych stara się sformułować model najlepiej pasujący do obserwowanych danych. Przykłady technik uczenia bez nadzoru obejmują techniki: analizy skupień (ang. clustering) 7, samoorganizujące się mapy 8, oraz algorytmy maksymalizacji wartości oczekiwanej (ang. expectation-maximization) Przegląd klas metod eksploracji Studiowanie literatury pokazało nam, Ŝe oprócz technik eksploracji, wyróŝnia się wiele metod eksploracji, które są przyporządkowane do róŝnych klas. WyróŜniliśmy spośród nich 6 podstawowych takich jak: 3 Quinlan J.R.: Induction of decision trees. Machine Learning 1(1),pp ,1986 ; Quinlan J.R.: C4.5: Programs for machine learning. Morgan Kaufman, Aha D.: Tolerating noisy, irrelevant, and novel attributes in instance-based learning algorithms. International Journal of Man-Machine Studies 36(2), pp , McCord Nelson M., Illingworth W.T.: Practical guide to neural nets, Addison-Wesley, Bol04 Bolstad W.M.: Introduction to Bayesian statistics. Wiley-Interscience, Everitt B.S., Landau S., Leese M.: Cluster analysis, Arnold Publishers, Kohonen T.: Self-organizing maps, Springer Verlag, Dempster A., Laird N., Rubin, D.: Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1):pp.1-38,

8 1. Odkrywanie asocjacji 2. Klastrowanie 3. Odkrywanie wzorców sekwencji 4. Odkrywanie klasyfikacji 5. Odkrywanie podobieństw w przebiegach czasowych 6. Wykrywanie zmian i odchyleń Odkrywanie asocjacji Najszersza klasa metod obejmująca, najogólniej, odkrywanie róŝnego rodzaju nieznanych zaleŝności w bazie danych. Metody te obejmują głównie odkrywanie asocjacji pomiędzy obiektami. Generalnie, odkrywane zaleŝności posiadają pewne miary statystyczne określające ich wsparcie i ufność. Reguły asocjacyjne doczekały się wielu rozwinięć i modyfikacji. WyróŜniamy tutaj: algorytm AIS algorytm SETM algorytm Apriori algorytm AprioriTID algorytm Levelwise algorytm Eclat algorytm FreeSpan Dalsze propozycje obejmowały: reguły cykliczne czasowo-przestrzenne reguły asocjacyjne Najczęściej stosowane metody to warianty algorytmu Apriori, polegającego na łączeniu zbiorów częstych. Asocjacje są zapisywanie jako A => B, gdzie A jest zwane poprzednikiem lub lewą stroną (ang. LHS, left-hand side), a B następnikiem lub prawą stroną (ang. RHS, right-hand side). Dla przykładu, asocjacja jeŝeli klient kupuje chleb, to czy kupuje tez masło, posiada poprzednik kupuje chleb i następnik kupuje masło. Prostym jest określenie proporcji transakcji, które zawierają jedną z określonych cech, lub obie z nich wystarczy po prostu je policzyć. Częstość z jaką występuje ta 8

9 asocjacja (np. chleb i masło ) w bazie danych zwana jest powszechnością (ang. support). JeŜeli 15 sytuacji z 1000 zawiera chleb I mleko to powszechność wyniesie 1,5%. Niski poziom asocjaji (np. 1 na million zdarzeń) pozwala na stwierdzenie, Ŝe konkretna asocjacja nie jest zbyt waŝna, lub zawarte w niej dane są źle dobrane (np. męŝczyzna i ciąŝa ). Klastrowanie Celem tych metod jest znajdowanie skończonego zbioru klas obiektów (klastrów) w bazie danych posiadających podobne cechy. Liczba klastrów jest nieznana, stąd, proces klastrowania przebiega, najczęściej, w dwóch cyklach: cykl zewnętrzny przebiega po liczbie moŝliwych klastrów, cykl wewnętrzny próbuje znaleźć optymalny podział obiektów pomiędzy klastry. Klastrowanie jest metodą tzw. klasyfikacji bez nadzoru (ang. unsupervised learning). Jest to metoda dokonująca grupowania elementów we względnie jednorodne klasy. Podstawą grupowania w większości algorytmów jest podobieństwo pomiędzy elementami - wyraŝone przy pomocy funkcji (metryki) podobieństwa. Poprzez grupowanie moŝna równieŝ rozwiązać problemy z gatunku odkrywania struktury w danych oraz dokonywanie uogólniania. Grupowanie polega na wyodrębnianiu grup (klas, podzbiorów). Grupowanie jako jedna z metod pozyskiwania wiedzy, a tym samym eksploracji danych jest ściśle uwarunkowana źródłem danych oraz oczekiwaną postacią rezultatów. Algorytmy analizy skupień dzieli się na kilka podstawowych kategorii: metody hierarchiczne, wśród których najczęściej uŝywane to metody kombinatoryczne, w których sekwencyjnie łączy się (procedury aglomeracyjne) lub dzieli (procedury deglomeracyjne), grupa metod K-średnich (ang. k-means) w której grupowanie polega na wstępnym podzieleniu populacji na z góry załoŝoną liczbę klas. Następnie uzyskany podział jest poprawiany w ten sposób, Ŝe niektóre elementy są przenoszone do innych klas, tak aby uzyskać minimalną wariancję wewnątrz uzyskanych klas, 9

10 metody rozmytej analizy skupień (ang. fuzzy clustering), wśród których najbardziej znaną jest metoda c-średnich (c-means). Metody rozmytej analizy skupień mogą przydzielać element do więcej niŝ jednej kategorii. Z tego powodu algorytmy rozmytej analizy skupień są stosowane w zadaniu kategoryzacji (przydziału jednostek do jednej lub wielu kategorii). Metody rozmytej analizy skupień róŝnią się pod tym względem od metod klasycznej analizy skupień, w których uzyskana klasyfikacja ma charakter grupowania rozłącznego, którego wynikiem jest to, Ŝe kaŝdy element naleŝy do jednej i tylko jednej klasy. Zastosowanie analizy skupień podczas eksploracji danych polega na grupowaniu danych w konkretne grupy, np. do podziału klientów na pewne podgrupy. Odkrywanie wzorców sekwencji Odkrywanie czasowych wzorców zachowań, np. znajdowanie sekwencji notowań giełdowych, zachowań klientów ubezpieczalni, klientów supermarketów. Polega na znalezieniu, w bazie danych sekwencji, podsekwencji występujących częściej niŝ zadany przez uŝytkownika próg częstości, zwany progiem minimalnego wsparcia (ang. minsup). Odkrywanie klasyfikacji Celem tych metod jest znajdowanie zaleŝności pomiędzy klasyfikacją obiektów (klasyfikacja naturalna bądź wprowadzona przez eksperta) a ich charakterystyką. Zastosowanie: charakterystyka pacjentów, klientów kart kredytowych, poŝyczkobiorców. Oto najczęściej stosowane techniki: Klasyfikacja bayesowska Klasyfikacja na podstawie k najbliŝszych sąsiadów Drzewa decyzyjne Sieci neuronowe Sieci bayesowskie Algorytmy SVM 10

11 Klasyfikacja dąŝy do rozpoznawania cech określających grupę, do której naleŝą poszczególne elementy. Ta metoda moŝe być wykorzystywana zarówno do zrozumienia istniejących danych, jak i do prognozowania zachowania poszczególnych danych w przyszłości. Klasyfikacja, prawdopodobnie najpopularniejsza metoda eksploracji danych, wykorzystuje zbiór wcześniej określonych przykładowych modeli, w celu stworzenia jednego modelu, który pozwoli na sklasyfikowanie większej grupy danych. Innymi słowy klasyfikacja statystyczna to rodzaj algorytmu statystycznego, który przydziela obiekty do klas, bazując na atrybutach (cechach) tych obiektów. Formalnie, ten problem moŝna przedstawić następująco: dla danego zbioru danych trenujących znaleźć klasyfikator, który przydziela obiektowi klasę. Przykładowo, jeśli problem dotyczy filtrowania spamu, wówczas to pewna reprezentacja wiadomości a y to "Spam" lub "Nie Spam". procesy. Odkrywanie podobieństw w przebiegach czasowych Znajdowanie podobieństw w przebiegach czasowych opisujących określone Wykrywanie zmian i odchyleń Znajdowanie róŝnic pomiędzy aktualnymi a oczekiwanymi wartościami danych: znajdowanie anomalnych zachowań klientów ubezpieczalni, klientów kart kredytowych, klientów firm telekomunikacyjnych. 6. Chronologiczna klasyfikacja klas eksploracji WyŜej przedstawione klasy metod eksploracji wywodzą się w duŝej części z metod statystycznych. Ich wiek zatem jest znaczący. JednakŜe nam zaleŝało na określeniu pierwszych dat wykorzystania owych metod do eksploracji hurtowni danych. W tym celu posłuŝyliśmy się w głównej mierze datami pierwszych wzmianek literaturowych, określających zastosowanie owych metod w omawianej przez nas dziedzinie nauki. W kilku przypadkach nie udało nam się jednak takich dat 11

12 wyznaczyć. Jednak mimo to, studium literatury pozwoliło nam na stworzenie chronologii wykorzystywania metod eksploracji do przeszukiwania hurtowni danych: Odkrywanie klasyfikacji 1984 klasyfikacja bayesowska 1992 klasyfikacja na podstawie k najbliŝszych sąsiadów 1992 drzewa decyzyjne 1984 sieci neuronowe 1994 sieci bayesowskie 1995 algorytmy SVM 1995 Odkrywanie asocjacji 1993 algorytmy AIS i SETM 1993 algorytmy Priori i AprioriTID 1994 algorytmy Levelwise i Elat 1997 eguły cykliczne 1998 algorytm FreeSpan 2000 czasowo-przestrzenne reguły asocjacyjne 2005 Odkrywanie wzorców sekwencji 1995 Wykrywanie zmian i odchyleń 1999 Klastrowanie b.d. Odkrywanie podobieństw w przebiegach czasowych b.d. Dodatkowo naleŝy stwierdzić, Ŝe wykorzystywanie powyŝej usystematyzowanych chronologicznie metod do eksploracji hurtowni danych nie pokrywa się w Ŝaden sposób ze złoŝonością tychŝe metod. Bardzo często bowiem było tak, Ŝe bardziej skomplikowane metody znalazły swoje zastosowanie w tej dziedzinie, przed metodami prostszymi i mniej skomplikowanymi. 12

13 7. Literatura 1. W.Frawley, G. Piatetsky-Shapiro, C. Matheus. Knowledge Discovery in Databases: An Overview. AI Magazine, Jesień D. Hand, H. Mannila, P. Smyt. Principles of Data Mining. MIT Press, Cambridge, MA, Witten I.H., Frank E.: Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann, Quinlan J.R.: Induction of decision trees. Machine Learning 1(1),pp ,1986 ; 5. Quinlan J.R.: C4.5: Programs for machine learning. Morgan Kaufman, Aha D.: Tolerating noisy, irrelevant, and novel attributes in instance-based learning algorithms. International Journal of Man-Machine Studies 36(2), pp , McCord Nelson M., Illingworth W.T.: Practical guide to neural nets, Addison-Wesley, Bol04 Bolstad W.M.: Introduction to Bayesian statistics. Wiley-Interscience, Everitt B.S., Landau S., Leese M.: Cluster analysis, Arnold Publishers, Kohonen T.: Self-organizing maps, Springer Verlag, Dempster A., Laird N., Rubin, D.: Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1):pp.1-38, Tworzenie hurtowni danych Vidette Poe, Patricia Klauer, Stephen Brobst 13. Hurtownie danych- podstawy organizacji i funkcjonowania M.Jorke, M.Lenzerini, Y.Vassiliou, P.Vassiliadis 14. Projektownie Hurtowni danych - zarządzanie kontaktami z klientami(crm) Chris Todaman ESSID=ccf06ee1ba40459fba87c6b c

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2007 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę

Bardziej szczegółowo

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

data mining machine learning data science

data mining machine learning data science data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe

Bardziej szczegółowo

Widzenie komputerowe (computer vision)

Widzenie komputerowe (computer vision) Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja

Bardziej szczegółowo

Proces odkrywania wiedzy z baz danych

Proces odkrywania wiedzy z baz danych Proces odkrywania wiedzy z baz danych Wydział Informatyki Politechnika Białostocka Marcin Czajkowski email: m.czajkowski@pb.edu.pl Świat pełen danych Świat pełen danych Możliwości analizowania i zrozumienia

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

Wprowadzenie do technologii informacyjnej.

Wprowadzenie do technologii informacyjnej. Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Ewelina Dziura Krzysztof Maryański

Ewelina Dziura Krzysztof Maryański Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład

Bardziej szczegółowo

Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH

Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH Wstęp. Architektura hurtowni. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH B. Inmon, 1996: Hurtownia to zbiór zintegrowanych, nieulotnych, ukierunkowanych

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:

Bardziej szczegółowo

IX EKSPLORACJA DANYCH

IX EKSPLORACJA DANYCH Zastosowanie drzew decyzyjnych do analizy danych Artur Soroczyński Politechnika Warszawska Instytut Technologii Materiałowych Terminologia Datamining Drzewa decyzyjne Plan wykładu Przykład wykorzystania

Bardziej szczegółowo

Eksploracja danych (data mining)

Eksploracja danych (data mining) Eksploracja (data mining) Tadeusz Pankowski www.put.poznan.pl/~pankowsk Czym jest eksploracja? Eksploracja oznacza wydobywanie wiedzy z dużych zbiorów. Eksploracja badanie, przeszukiwanie; np. dziewiczych

Bardziej szczegółowo

Metody eksploracji danych. Reguły asocjacyjne

Metody eksploracji danych. Reguły asocjacyjne Metody eksploracji danych Reguły asocjacyjne Analiza podobieństw i koszyka sklepowego Analiza podobieństw jest badaniem atrybutów lub cech, które są powiązane ze sobą. Metody analizy podobieństw, znane

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Implementacja wybranych algorytmów eksploracji danych na Oracle 10g

Implementacja wybranych algorytmów eksploracji danych na Oracle 10g Implementacja wybranych algorytmów eksploracji danych na Oracle 10g Sławomir Skowyra, Michał Rudowski Instytut Informatyki Wydziału Elektroniki i Technik Informacyjnych, Politechnika Warszawska S.Skowyra@stud.elka.pw.edu.pl,

Bardziej szczegółowo

Analiza i wizualizacja danych Data analysis and visualization

Analiza i wizualizacja danych Data analysis and visualization KARTA MODUŁU / KARTA PRZEDMIOTU Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/2013

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

Hurtownie danych - opis przedmiotu

Hurtownie danych - opis przedmiotu Hurtownie danych - opis przedmiotu Informacje ogólne Nazwa przedmiotu Hurtownie danych Kod przedmiotu 11.3-WI-INFD-HD Wydział Kierunek Wydział Informatyki, Elektrotechniki i Automatyki Informatyka / Zintegrowane

Bardziej szczegółowo

Analiza danych i data mining.

Analiza danych i data mining. Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data

Bardziej szczegółowo

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych - Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,

Bardziej szczegółowo

Opis efektów kształcenia dla modułu zajęć

Opis efektów kształcenia dla modułu zajęć Nazwa modułu: Eksploracja danych Rok akademicki: 2030/2031 Kod: MIS-2-105-MT-s Punkty ECTS: 5 Wydział: Inżynierii Metali i Informatyki Przemysłowej Kierunek: Informatyka Stosowana Specjalność: Modelowanie

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

bo od managera wymaga się perfekcji

bo od managera wymaga się perfekcji bo od managera wymaga się perfekcji MODELOWANIE PROCESÓW Charakterystyka modułu Modelowanie Procesów Biznesowych (BPM) Modelowanie procesów biznesowych stanowi fundament wdroŝenia systemu zarządzania jakością

Bardziej szczegółowo

Implementacja metod eksploracji danych - Oracle Data Mining

Implementacja metod eksploracji danych - Oracle Data Mining Implementacja metod eksploracji danych - Oracle Data Mining 395 Plan rozdziału 396 Wprowadzenie do eksploracji danych Architektura Oracle Data Mining Możliwości Oracle Data Mining Etapy procesu eksploracji

Bardziej szczegółowo

Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7 Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8 Przykład Teleskop Hubble

Bardziej szczegółowo

Eksploracja danych - wykład VIII

Eksploracja danych - wykład VIII I Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 2 grudnia 2016 1/31 1 2 2/31 (ang. affinity analysis) polega na badaniu atrybutów lub cech, które są ze sobą powiązane. Metody

Bardziej szczegółowo

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2 Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł

Bardziej szczegółowo

Mail: Pokój 214, II piętro

Mail: Pokój 214, II piętro Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,

Bardziej szczegółowo

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS Techniki uczenia maszynowego nazwa SYLABUS Obowiązuje od cyklu kształcenia: 2014/20 Część A. Informacje ogólne Elementy składowe sylabusu Nazwa jednostki prowadzącej studiów Poziom kształcenia Profil studiów

Bardziej szczegółowo

Wydział Informatyki i Zarządzania SWD NS 3. Marek Lubicz. kbo.pwr.edu.pl/pracownik/lubicz

Wydział Informatyki i Zarządzania SWD NS 3. Marek Lubicz. kbo.pwr.edu.pl/pracownik/lubicz Wydział Informatyki i Zarządzania SWD NS 3 Marek Lubicz marek.lubicz@pwr.wroc.pl kbo.pwr.edu.pl/pracownik/lubicz SWD 2016 MLubicz 2 Analityka biznesowa Analityka Biznesowa to wykorzystanie: danych, technologii

Bardziej szczegółowo

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski Data Mining Wykład 1 Wprowadzenie do Eksploracji Danych Prowadzący Dr inż. Jacek Lewandowski Katedra Genetyki Wydział Biologii i Hodowli Zwierząt Uniwersytet Przyrodniczy we Wrocławiu ul. Kożuchowska 7,

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

METODY ODKRYWANIA WIEDZY W SYSTEMACH BUSINESS INTELLIGENCE

METODY ODKRYWANIA WIEDZY W SYSTEMACH BUSINESS INTELLIGENCE METODY ODKRYWANIA WIEDZY W SYSTEMACH BUSINESS INTELLIGENCE Streszczenie Wiesław Wolny Akademia Ekonomiczna Katowice wolny@ae.katowice.pl Business Intelligence nie jest pojedyńczym systemem ani produktem.

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561

Bardziej szczegółowo

Inżynieria biomedyczna

Inżynieria biomedyczna Inżynieria biomedyczna Projekt Przygotowanie i realizacja kierunku inżynieria biomedyczna studia międzywydziałowe współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

w ekonomii, finansach i towaroznawstwie

w ekonomii, finansach i towaroznawstwie w ekonomii, finansach i towaroznawstwie spotykane określenia: zgłębianie danych, eksploracyjna analiza danych, przekopywanie danych, męczenie danych proces wykrywania zależności w zbiorach danych poprzez

Bardziej szczegółowo

Hurtownie danych. 31 stycznia 2017

Hurtownie danych. 31 stycznia 2017 31 stycznia 2017 Definicja hurtowni danych Hurtownia danych wg Williama Inmona zbiór danych wyróżniający się następującymi cechami uporządkowany tematycznie zintegrowany zawierający wymiar czasowy nieulotny

Bardziej szczegółowo

PLAN ZARZĄDZANIA WYMAGANIAMI PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

PLAN ZARZĄDZANIA WYMAGANIAMI PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU> Załącznik nr 4.4 do Umowy nr 35-ILGW-253-.../20.. z dnia... MINISTERSTWO FINANSÓW DEPARTAMENT INFORMATYKI PLAN ZARZĄDZANIA WYMAGANIAMI PROJEKT WERSJA numer wersji

Bardziej szczegółowo

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010 Materiały/konsultacje Automatyczna predykcja http://www.ibp.pwr.wroc.pl/kotulskalab Konsultacje wtorek, piątek 9-11 (uprzedzić) D1-115 malgorzata.kotulska@pwr.wroc.pl Co to jest uczenie maszynowe? Uczenie

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING EKSPLORACJA DANYCH Ćwiczenia Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji

Bardziej szczegółowo

Sieci Kohonena Grupowanie

Sieci Kohonena Grupowanie Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie

Bardziej szczegółowo

TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON 3

TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON 3 Wydawnictwo UR 2016 ISSN 2080-9069 ISSN 2450-9221 online Edukacja Technika Informatyka nr 4/18/2016 www.eti.rzeszow.pl DOI: 10.15584/eti.2016.4.46 TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON

Bardziej szczegółowo

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej

Bardziej szczegółowo

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie Hurtownie danych i business intelligence - wykład II Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2005-2008 Zagadnienia do omówienia 1. 2. Przegląd architektury HD 3. Warsztaty

Bardziej szczegółowo

StatSoft profesjonalny partner w zakresie analizy danych

StatSoft profesjonalny partner w zakresie analizy danych Analiza danych Data mining Sterowanie jakością Analityka przez Internet StatSoft profesjonalny partner w zakresie analizy danych StatSoft Polska Sp. z o.o. StatSoft Polska Sp. z o.o. ul. Kraszewskiego

Bardziej szczegółowo

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej Adam Żychowski Definicja problemu Każdy z obiektów może należeć do więcej niż jednej kategorii. Alternatywna definicja Zastosowania

Bardziej szczegółowo

2

2 1 2 3 4 5 Dużo pisze się i słyszy o projektach wdrożeń systemów zarządzania wiedzą, które nie przyniosły oczekiwanych rezultatów, bo mało kto korzystał z tych systemów. Technologia nie jest bowiem lekarstwem

Bardziej szczegółowo

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Metadane. Data Maining. - wykład VII Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Plan 1. Metadane 2. Jakość danych 3. Eksploracja danych (Data mining) 4. Sprawy róŝne

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Metody Inżynierii Wiedzy

Metody Inżynierii Wiedzy Metody Inżynierii Wiedzy Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie AGH University of Science and Technology Mateusz Burcon Kraków, czerwiec 2017 Wykorzystane technologie Python 3.4

Bardziej szczegółowo

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki

Bardziej szczegółowo

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie SZKOLENIA SAS ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie DANIEL KUBIK ŁUKASZ LESZEWSKI ROLE ROLE UŻYTKOWNIKÓW MODUŁU

Bardziej szczegółowo

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE: DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE: JAKIE PROBLEMY ROZWIĄZUJE BI 1 S t r o n a WSTĘP Niniejszy dokument to zbiór podstawowych problemów, z jakimi musi zmagać się przedsiębiorca, analityk,

Bardziej szczegółowo

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING WSTĘP I TAKSONOMIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra

Bardziej szczegółowo

CLUSTERING METODY GRUPOWANIA DANYCH

CLUSTERING METODY GRUPOWANIA DANYCH CLUSTERING METODY GRUPOWANIA DANYCH Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

2. Empiryczna wersja klasyfikatora bayesowskiego

2. Empiryczna wersja klasyfikatora bayesowskiego Algorytmy rozpoznawania obrazów 2. Empiryczna wersja klasyfikatora bayesowskiego dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Brak pełnej informacji probabilistycznej Klasyfikator bayesowski

Bardziej szczegółowo

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence Hurtownie danych Wprowadzenie do systemów typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika

Bardziej szczegółowo

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, Bazy Danych Bazy Danych i SQL Podstawowe informacje o bazach danych Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl Oczekiwania? 2 3 Bazy danych Jak przechowywać informacje? Jak opisać rzeczywistość?

Bardziej szczegółowo

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1 Bazy danych wprowadzenie teoretyczne Piotr Prekurat 1 Baza danych Jest to zbiór danych lub jakichkolwiek innych materiałów i elementów zgromadzonych według określonej systematyki lub metody. Zatem jest

Bardziej szczegółowo

SPOTKANIE 2: Wprowadzenie cz. I

SPOTKANIE 2: Wprowadzenie cz. I Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie

Bardziej szczegółowo

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych Plan wykładu Bazy Wykład 14: Hurtownie Bazy operacyjne i analityczne Architektura hurtowni Projektowanie hurtowni Małgorzata Krętowska, Agnieszka Oniśko Wydział Informatyki PB Bazy (studia dzienne) 2 Rodzaje

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

kierunkowy (podstawowy / kierunkowy / inny HES) nieobowiązkowy (obowiązkowy / nieobowiązkowy) polski drugi semestr letni (semestr zimowy / letni)

kierunkowy (podstawowy / kierunkowy / inny HES) nieobowiązkowy (obowiązkowy / nieobowiązkowy) polski drugi semestr letni (semestr zimowy / letni) Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/2013

Bardziej szczegółowo

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE: DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE: DATAMINING 1 S t r o n a WSTĘP Czyli jak zastąpić wróżenie z fusów i przysłowiowego nosa, statystyką i modelami ekonometrycznymi. Niniejszy dokument,

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny. PI-14 01/12 Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.! Likwidacja lub znaczne ograniczenie redundancji (powtarzania się) danych! Integracja danych!

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017 dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017 KONTAKT Z PROWADZĄCYM dr inż. Paweł Morawski e-mail: pmorawski@spoleczna.pl www: http://pmorawski.spoleczna.pl

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA SYSTEMY ROZMYTE Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej Laboratorium

Bardziej szczegółowo

Pierwsze wdrożenie SAP BW w firmie

Pierwsze wdrożenie SAP BW w firmie Pierwsze wdrożenie w firmie Mirosława Żurek, BCC Poznao, maj 2013 Zakres tematyczny wykładu Podstawowe założenia i pojęcia hurtowni danych ; Przykładowe pierwsze wdrożenie w firmie i jego etapy; Przykładowe

Bardziej szczegółowo

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:

Bardziej szczegółowo

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1 Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie

Bardziej szczegółowo

Eksploracja danych PROCES EKSPLORACJI DANYCH. Wojciech Waloszek. Teresa Zawadzka.

Eksploracja danych PROCES EKSPLORACJI DANYCH. Wojciech Waloszek. Teresa Zawadzka. Eksploracja danych PROCES EKSPLORACJI DANYCH Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki

Bardziej szczegółowo

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS Dotyczy cyklu kształcenia 2014-2018 Realizacja w roku akademickim 2016/2017 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu

Bardziej szczegółowo

Oracle Data Mining odkrywanie wiedzy w dużych wolumenach danych

Oracle Data Mining odkrywanie wiedzy w dużych wolumenach danych Oracle Data Mining odkrywanie wiedzy w dużych wolumenach danych Mikołaj Morzy Instytut Informatyki Politechniki Poznańskiej e-mail: Mikolaj.Morzy@cs.put.poznan.pl Abstrakt. Duże wolumeny danych zawierają

Bardziej szczegółowo

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Usługi analityczne budowa kostki analitycznej Część pierwsza. Usługi analityczne budowa kostki analitycznej Część pierwsza. Wprowadzenie W wielu dziedzinach działalności człowieka analiza zebranych danych jest jednym z najważniejszych mechanizmów podejmowania decyzji.

Bardziej szczegółowo

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining 0LNRáDM0RU]\ Marek Wojciechowski Instytut Informatyki PP Eksploracja danych 2GNU\ZDQLHZ]RUFyZZGX*\FK

Bardziej szczegółowo

Typy systemów informacyjnych

Typy systemów informacyjnych Typy systemów informacyjnych Information Systems Systemy Informacyjne Operations Support Systems Systemy Wsparcia Operacyjnego Management Support Systems Systemy Wspomagania Zarzadzania Transaction Processing

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 1. INFORMACJE WSTĘPNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 1. INFORMACJE WSTĘPNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 1. INFORMACJE WSTĘPNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska PLAN WYKŁADU WSTĘP W 1 Uczenie się w ujęciu algorytmicznym. W

Bardziej szczegółowo

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia. Załącznik nr 4 do zarządzenia nr 12 Rektora UJ z 15 lutego 2012 r. Sylabus modułu kształcenia na studiach wyższych Nazwa Wydziału Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia Wydział Matematyki

Bardziej szczegółowo

Algorytmy wspomagania decyzji Czyli co i jak andrzej.rusiecki.staff.iiar.pwr.wroc.pl s. 230/C-3

Algorytmy wspomagania decyzji Czyli co i jak andrzej.rusiecki.staff.iiar.pwr.wroc.pl s. 230/C-3 Algorytmy wspomagania decyzji Czyli co i jak 2018 andrzej.rusiecki@pwr.edu.pl andrzej.rusiecki.staff.iiar.pwr.wroc.pl s. 230/C-3 O co chodzi? Celem przedmiotu jest ogólne zapoznanie się z podstawowymi

Bardziej szczegółowo

PRZEWODNIK PO SERWISIE BRe BROKERS Rozdział 3

PRZEWODNIK PO SERWISIE BRe BROKERS Rozdział 3 PRZEWODNIK PO SERWISIE BRe BROKERS Rozdział 3 NajwaŜniejsze funkcje transakcyjne w Serwisie BRe Brokers Składanie zleceń Serwis BRe Brokers umoŝliwia szybkie złoŝenie zlecenia m.in. z poziomu: funkcji

Bardziej szczegółowo

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja

Bardziej szczegółowo

Oracle Data Mining odkrywanie wiedzy w dużych wolumenach danych

Oracle Data Mining odkrywanie wiedzy w dużych wolumenach danych XI Konferencja PLOUG Kościelisko Październik 2005 Oracle Data Mining odkrywanie wiedzy w dużych wolumenach danych Mikołaj Morzy Instytut Informatyki Politechniki Poznańskiej e-mail: Mikolaj.Morzy@cs.put.poznan.pl

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas. mgr inż. Magdalena Deckert Poznań, 01.06.2010r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas. Plan prezentacji Wstęp Concept drift Typy zmian Podział algorytmów stosowanych w uczeniu

Bardziej szczegółowo

Szkolenia SAS Cennik i kalendarz 2017

Szkolenia SAS Cennik i kalendarz 2017 Szkolenia SAS Spis treści NARZĘDZIA SAS FOUNDATION 2 ZAAWANSOWANA ANALITYKA 2 PROGNOZOWANIE I EKONOMETRIA 3 ANALIZA TREŚCI 3 OPTYMALIZACJA I SYMULACJA 3 3 ROZWIĄZANIA DLA HADOOP 3 HIGH-PERFORMANCE ANALYTICS

Bardziej szczegółowo